Автоматизированный отлов дорвеев

Click to rate this post!
[Total: 0 Average: 0]

Гугль кооперируется с Википедией на предмет отлова спаммерских ссылок.
Идея логична. Вики спамят в промышленных масштабах и доры можно отстреливать на подлёте. Собственно логично и объявление о кооперации – оно само по себе уменьшит объёмы спама в Вики.

А мне вот что подумалось. Формочка в Яндексе (или кнопочка в баре для FF от Яндекса) “пожаловаться на спам” не очень полезна. Определение спама для поисковика весьма и весьма субъективно. Лично мне пользоваться этой формочкой некомфортно по моральным соображениям 🙂 Я если и стучу на доры, то сразу на кучу однотипных, отправляя Александру Садовскому ссылку на запрос в Яндексе. На большой коллекции можно и алгоритм подкорректировать. Но! Я точно знаю, где я не буду ощущать никаких душевных терзаний определяя спам это или нет. В собственном блоге и форуме. В движке WordPress’а при модерации комментариев есть опция – пометить как спам. Нужно всего лишь дописать функцию, которая будет заодно сливать в Яндекс (Гугль, Рамблер) эти спаммерские сообщения. Или складывать их в одном месте, доступном в том числе и поисковикам. Подобный мод можно сделать и для других блогов и форумов на популярных движках. Работы не много, а информации для анализа будет море. Я даже с удовольствием размещу на форуме и блоге кнопочку: весь спам автоматом перенаправляется в поисковики.

Конечно, спамеры попытаются зафлудить такой механизм ложными жалобами, т.е. будут спамить в блоги и форумы нормальные сайты. Так что примитивный алгоритм “раз спамит, то в бан” не подойдёт. Но, нормальные сайты тем от доров и отличаются, что они друг на друга не похожи. Так что таким макаром можно будет вычистить как минимум типовые доры. Да и плюс одно дело спамить собственные ресурсы, зная, что расходы на спам окупятся, и совсем другое – спамить забесплатно чужие ресурсы. Так что поток “ложного” спама будет существенно меньше спама натурального.

Ну и в продолжение темы. Кроме отлова доров с помощью чужих ресурсов можно их отлавливать и на своих собственных. Более чем уверен, что комментарии, которые удаляют блоггеры на BlogSpot.com (Blogger.com) подвергаются Гуглем тщательному анализу. Если добавить немножко конспирологии, то Яндекс запросто мог создать с десяток каталогов и вычислять автосабмитеров по факту попадания во все эти каталоги…

Поделиться Вконтакте
Плюсануть

16 комментариев к “Автоматизированный отлов дорвеев

  1. Не, не пойдет. Тот факт, что сайт кто-то продвигает спамом, еще не означает, что сайт «плохой». Формально сайт не виноват, что его кто-то спамит (это ведь может быть и подстава). Спам — это коммент, а вот то, куда ведут его ссылки — не обязательно спам. Получатель ссылок не наказывается, наказывается донор.

    Пример: зайдите на рупоиск — он до сих пор не забанен и имеет PR 3. Думаете, в Гугле о нем не знают? Знают прекрасно. У них даже есть такой метод — все страницы, которые скрыто ссылаются на рупоиск или на блокнотик, автоматически считаются спамом.

  2. >>>Но, нормальные сайты тем от доров и отличаются, что они друг на друга не похожи.
    Ну… далеко не факт. Смотря какой дорген 🙂
    >>>Да и плюс одно дело спамить собственные ресурсы, зная, что расходы на спам окупятся, и совсем другое – спамить забесплатно чужие ресурсы.
    Это совсем, имхо, не довод. Проспамить в числе тысячи своих страниц сотню чужих – вообще не проблема.
    >>>Если добавить немножко конспирологии, то Яндекс запросто мог создать с десяток каталогов и вычислять автосабмитеров по факту попадания во все эти каталоги…
    Ну вот, щас все стадо запалишь 🙂

  3. Идея неплохая, но не масштабах всего рунета, я бы даже сказал до тех пор пока она кулуарная результаты будут видны. Возможно не вами, но спамерам вы жизнь попортите. Как только данный плагин станет популярным его можно будет списывать, потому что на каждый хитрый болт….

    Спам это проблема (а проблема ли?) поисковиков, а не рядового сетянина. т.е. неудобства конечно испытываем мы, а вот есть ли большая проблема у поисковиков вопрос…

    2Сергей
    Стук в Яндекс на сайт ещё не означает признание сайта спамерским. Тут нет прямой зависимости.

    На сколько я знаю… стоп, хм… что такое «скрытно ссылаются»? Ни одни сайт не признаётся спамом даже если с него линк стоит на откровенный дорвей, а вот коэффициенты понижающие и повышающие его рейтинг есть. Поэтому часто линк на «жирного» конкурента может только помочь 🙂

  4. “Скрыто ссылается” — это sneaky redirect в терминологии Google. Т.е. такой редирект, который пытаются скрыть от робота. У гугловских рейтеров есть указание: любой сайт с джаваскриптовым редиректом, ведущим на рупоиск, должен помечаться как спам.

  5. комментарии, которые удаляют блоггеры на BlogSpot.com (Blogger.com) подвергаются Гуглем тщательному анализу

    Возможно и подвергаются, но! Все ссылки в комментариях обрамляются атрибутом rel=”nofollow”, соответственно спамить туда бесполезно. По опыту знаю, что спамятся в основном т.н. “белые” сайты (mortgages, loans and etc.), видимо теми нерадивыми продвиганами, которые о существовании rel=”nofollow” понятия не имеют, а таких хватает.

  6. 2Сергей
    Простите, так Вы сами и написали алгоритм дорвея. Конечно это спам! Линк это одно, а редирект это другое. Не надо путать простых граждан (типа меня) 🙂
    Наличие робота, которые выполняет редирект это тема отдельного топика 😉

    +1 за blogger
    rel=”nofollow” и капчи хватит вам в 90 процентах случаев.

  7. harlot, даже в самом расчудесном доргенераторе есть как минимум один очень даже константный блок. Список кивордов 🙂

    Проспамить в числе тысячи своих страниц сотню чужих – вообще не проблема

    А я что говорил? Ложного спама будет в разы меньше. В твоём случае в 10 раз 🙂

    Сергей, а причём тут донор-то? Вот на этот блог за ночь свалилось с десяток спамных комментариев. Ни один из них не был опубликован. И уже не будет, т.к. я их удалил. А вот если бы я их не просто удалил, а отправил в общий список на сайте, допустим, stopdoorways.com, то поисковик смог бы скачать этот список удалённых комментариев и принять решение, спам это или нет. Нынешняя схема почти такая же, только поисковик получает список сайтов похожих на доры только после того, как они вылезут в серпе. Т.е. дорвейщик успевает получить траффик и к моменту бана успевает нагенерить и проспамить несколько новых порций.

    Я вот тут ещё одну вещь придумал. Дорвей, даже на старом солидном сайте – это завсегда новая страница. А ложный спам по определению идёт на старые страницы. Соответственно, если новые страницы заподозренные в спаме отправить на месяцок-другой в sandbox, то за это время наберётся столько статистики, что определить спам это или нет будет гораздо проще.

    Alexey, хитрый болт будет заключаться в том, что спамить блоги/форумы с установленным плагином будет бесполезно. Т.е. дорвейщикам придётся изобретать новые методы спама, а поисковикам новые методы борьбы с ним, но владельцы блогов и форумов вздохнут с облегчением.

  8. blogger, спамеру блогов глубоко фиолетово есть ли на конкретном блоге этот атрибут у ссылок или нет. Он использует ковровые бомбардировки, в надежде, что где-нибудь этого атрибута нет. Соответственно Гуглю есть резон анализировать спам на собственном движке, чтобы не наестся его с тех движков, где про презерватив для ссылок забыли или не знают.
    Ну и плюс ко всему, дорвейщикам всё равно откуда трафф, с гугля или с другого поисковика. А поисковики, которые не понимают этот аттрибут, таки ещё есть. Вот этот факт и будет обламывать мою идею. Она полностью будет работоспособна только в том случае, если все поисковики будут принимать во внимание этот спам-лист.

  9. >harlot, даже в самом расчудесном доргенераторе есть как минимум один очень даже константный блок. Список кивордов

    Толку правда ноль. Ибо списочек большой, и для одного дора киворды берутся разные.

  10. Миха, самых вумных конечно не вычислят 🙂 Но ведь самое большое зло от пионеров, которые откровенно задрали со своим адипексом и лортабом.

  11. Артём, открою страшную тайну, 50 процентов спамилок распознают наличие rel=”nofollow” и в случае присутствия данного тега спам не происходит.

    Порой эффективнее не слать отчеты о дорах Яндексу, а написать владельцам блокнотиков, рупоисков.

  12. Тогда капча отсеет 80 (минимум) процентов спама. Самописная капча ещё процентов 15, ну а наличие предмодерации решит оставшиеся проблемы 🙂
    Итого:
    rel=”nofollow”
    капча
    предмодерация – ручной спамер это увидев выкинет Ваш блог из своей базы

    и думаю о спаме Вы сможете забыть 🙂

    Моё глубокое убеждение, что со спамом должны бороться поисковики, а не пользователи. Пользователь может себя защитить от этого явления в масштабах своего ресурса.

  13. буде такой механизм будет реализован – появится рэкет, предлагающий или угрожающий “замочить” ресурс спамовыми ссылками на него.
    Краем уха слышал, что конкуренты друг друга так уже подсаживают.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *