Асессоры появились в Яндекесе давно. Идея была заимствована у Гугля (наверняка многие из вас слышали, что выдачу в Гугле ранжируют толпы индусов 🙂 ) и сама по себе она была не плохой – с помощью асессора очень удобно отлавливать дорвеи, холвеи, клоаки и прочий SEO-спам, а так же обучать алгоритмы вычислять общие признаки сайтов, не достойных находиться в SERP’е.
Но яндексоиды пошли дальше – они стали с помощью асессоров обучать алгоритмы ранжировать хорошие сайты. Это был Epic Fail №1, сейчас объясню почему.
Широкой публике в деталях работа асессора стала известна с публикацией условий конкурса Интернет-математика 2009. Асессор даёт оценку паре запрос – документ по пятибальной шкале. Кстати, обратите внимание на тотальную невнимательность яндексоидов, что в принципе свойственно талантливым людям: в условиях конкурса оценки от асессоров лежат в диапазоне от 0 до 4, но средняя оценка выдачи победителей – выше 4-х. Чего принципиально быть не может, если только реальная оценка асессоров не лежит в диапазоне от 1 до 5 😉 За год это несоответствие так никто и не заметил.
Итак, у асессора есть 5 оценок. 1 и 2 – это для спама и нерелевантных результатов. 3-ка – это нейтральная оценка – типа слова из запроса в документе присутствуют, но вобще документ не об этом (см. скриншот предудущей заметки – красным обведены именно документы – троечники) 5-ка – суперрелевантный результат, витальный. Чтобы было понятно – по запросу Спорт-Экспресс витальным будет сайт одноимённой газеты. Для всех остальных сайтов – четвёрки.
Вы ещё подвоха не заметили? А зря. Что происходит в результате такой дискретной оценки? Любой коммерческий запрос, не связанный с брендом, не имеет витальных сайтов. Со спамом Яндекс борется хорошо. В итоге, алгоритм обучается ранжировать сайты по коммерческим запросам на одних четвёрках.
Вы скаже ну и чё? (Видимо примерно такие же мысли бродят в голове абстрактного яндексоида). А вот чё.
Во-первых, между двумя соседними целыми числами умещается бесконечное множество чисел рациональных. В переводе на русский это означает, что по любому коммерчески привлекательному запросу найдётся бесконечное множество (если не ограничивать вебмастеров во времени – точно бесконечное 🙂 ) сайтов, оцененных одинаково, но на самом деле достаточно сильно отличающихся своей ценностью для пользователя поисковой системы. То есть, выдача, состоящая из документов соответствующих запросу почти на 5 и выдача, состоящая из документов, соответствующих запросу почти на3 с точки зрения оценивающего качество выдачи алгоритма будут одинаково идеальны, хотя одна из них будет казатся пользователям тихим ужасом.
Именно поэтому Яндекс считает свою выдачу хорошей – ну там же одни четвёрки, не хуже чем в Гугле. Причём ситуация не изменится ровным счётом никак, даже если в реальной жизни Яндекс использует, допустим, десятибальную шкалу оценок.
Потому что, во-вторых, асессор не даёт оценку бизнесу, стоящему за сайтом. Поэтому, что сателлит, не являющийся таковым только по формальным критериям, что лидер в нише, что просто старый заброшенный сайт или сайт-для-бизнеса-на-коленке для асессора, а вместе с ним и для яндекса выглядят одинаково релевантными запросу. Это естественно, потому что асессоры не являются экспертами в оцениваемой ими области.
И чем это нам грозит, спросите вы, ведь даже если сателлиты и заброшенные сайты попадут в топ случайно, то алгоритм дообучится и всё исправит? Беда заключается в том, что асессор-то даст таким сайтам хорошие оценки. А это значит, что алгоритм скорее всего дообучится ещё лучше находить подобные сателлиты и заброшенные сайты, вместо сайтов богатых компаний, вкладывающих деньги в рекламу вообще и в SEO в частности. Что мы и можем наблюдать в выдаче.
Хотите примеров? Их есть у меня. Москва. Запрос мебель для ванной. Первое место сайт http://www.mebel-vanna.ru/:
30-секундный анализ сайта потенциальным покупателем:
1. Логотипа нет
2. Адреса нет
3. Телефон в картинке
Вывод: в лучшем случае это бизнес-на-коленке, в худшем – сателлит, т.к. нормальный сайт телефон в картинку не прячет, нормальный бизнес не боится указать своё физическое месторасположение, а фирма, которая давно существует на рынке обязательно обзаводится логотипом. У каждого из пунктов могут быть исключения, но все вместе они наводят на мысль, что сайт, а точнее бизнес за сайтом – плохонький. А с точки зрения яндекса – он хорошист, а потому всё в порядке.
Я могу привести и ещё примеры. Но, тут случилось забавное совпадение – именно сегодня директор некой инфокомуники лизнул яндекс в попу по самые гланды, озаглавив свой опус так: Яндекс планомерно улучшает контент Рунета. Я не знаю, что это за дядя и что это за компания – видимо несколько отбился от современной SEO-тусовки. Но в статье приводятся цитаты представителей других SEO-компаний из старичков, которые дружно и радостно уверяют нас, как всё в яндексе хорошо, ажно гламурно. Поэтому у меня к вам большая просьба: покажите этим странным дядям и тётям из seo-компаний, а так же яндексоидам (пара-тройка из них точно это сообщение прочитает, а если повезёт, то ссылку скинут и начальству 😉 ), какой трэш иногда присутствует в яндексе на топовых позициях. Лучше – со скриншотами, чтобы было меньше шансов отвертеться 😀 Спасибо!
продожение следует
Да эти дяди и тёти оснобились уже дальше некуда. Бесполезно им показывать такое. Даже если они на самом деле согласны с твоими доводами, их текущая ситуация вполне устраивает.
Да у меня в последнее время вообще странная ситуация. На один и тот же запрос Яндекс выдает кучу мусора, а Гугл – то что мне нужно в первых строках (firefox привязан к яндексу, а перенастроить лень, потому и получаются такие эксперименты). Правда, запросы не коммерческие в основном. Т.е. в моем случае получается, что Яндекс совсем не пригоден для использования. Ну почти совсем.
Выдача согласен – не самая лучшая. Но о причинах такой ситуации думаю мы вряд ли сможем догадаться. Можно выдвигать различные гипотезы, но все это будет пальцем в небо.
В Яндексе тоже не дураки сидят и думаю средний яндексоид умнее среднего оптимизатора на порядок хотя бы просто потому, что туда система отбора достаточно жесткая. И не думаю, что они могли допустить такую глобальную ошибку с асессорами. Скорее всего у них многоуровневая система оценки сайта. Т.е. для вашего примера с ванной алгоритмы яндекса могут видеть, что человек искал мебель, обошел несколько сайтов, но на данном он задержался существенно дольше, просмотрел страниц 20 и после него уже никуда не пошел. А потом еще возвращался на этот сайт несколько раз. А потом порекомендовал его нескольким знакомым и тд.
Но мы всего этого не видим и судим со своей колокольни.
ЗЫ. сабжевый сайт засуспенжен что ли? =)
По сайту – да, надо было скрин сделать 🙂 Но кэш без картинок тоже можно глянуть.
Оценка поведения пользователя, в том виде, котором Вы предлагаете – тоже не совсем верный подход к ранжированию. Фишка в том, что 1) у текущей первой десятки поведенческие характиеристики будут на порядок лучше второй и последующих десяток, просто потому, что на вторую страницу и дальше мало кто переходит 2) на белую ворону будут показывать пальцем и вебмастера будут изучать его под микроскопом, т.е. будут ложные срабатывания 3) по очень большому количеству запросов, как по тем же генераторам, что я приводил, случается всего-то несколько переходов в месяц. Т.е. эта методика условно годится для выбора в каком порядке отобразить первую тройку/пятёрку релевантных сайтов, но не для выбора этой тройки/десятки/тридцатки из сотен и тысяч других релевантных запросу сайтов.
негативно отнесся к вашей статье.
А как по вашему в идеале должна выглядеть эта система с ассессорами?
Я счита, что если 10 человек соберется и будет в строить выдачу по запросу вручную, то они не договорятся о том, что такое хорошо а что такое плохо.
Я не золотой червонец, чтобы всем нравиться :), поэтому к негативу готов. Но – конструктивному. С асессорами просто – они использоваться должны для выявления дорвеев и MFA сайтов. Для ранжирования можно применять, например, метод экспертных оценок. Только не надо экспертов, как асессоров, по объявлению нанимать 🙂
А зачем с MFA бороться? Сайты под контекст зачастую могут содержать полезную информацию и так или иначе удовлетворять запрос пользователя: зайдет, что-то почитает, кликнет, купит.
MFA-дорвеи – да, можно и нужно вычищать
Условно MFA. В Рунете это MFSape. То, что чистит АГС.
Мдя… интересно пишете… и главное, что правильно. Но есть еще одно предположение – яндекс учитывает поведение пользователей на своем сайте и клики по первой (и далее тоже возможно…) десятке сайтов. Иначе зачем ставить обсчет? Вопрос трудоемкости и необходимых ресурсов для этого открыт, но вполне возможно что ассесорами в настоящий момент являются все пользователи интернет кликающие на результаты выдачи яндекса.
Подробнее написал выше. На сайт с одиннадцатого места никто не будет кликать. А хороший сайт, случайно попавший на 21-е место будет прозябать там вечно. Т.е. имеющиеся косяки анализ поведения исправить поможет вряд ли, а по большинству запросов и вовсе не будет данных для анализа по причине их низкочастотности.
Почему вы думаете что не будут кликать? Существенно меньше, но будут. А яндекс может учитывать такие клики с повышающим коэффициентом, прекрасно понимая, что если посетителя не удовлетворила первая десятка, что что-то в ней не так. А если после перехода на 11-ый результат посетитель дальше не пошел – плюсик сайту.
Не все так однозначно как вы говорите =)
Процентов 80 запросов – низкочастотные. Там один клик раз в месяц хорошо если случается.
Но это ладно, как Вы объясните косяки в средне и высокочастотных запросах? Я объясняю это тем, что алгоритмы оценки качества выдачи что по оценкам асессоров, что по любым другим оценкам этих косяков не видят. Просто потому, что если бы видели, то косяков бы не было. Или по-вашему Яндекс специально сам себе выдачу портит?
Я не знаю как это объяснить. Возможно какие то факторы в ранжировании этих “ошибочных” сайтов перевешивают другие на данных запросах.
Зато я знаю, что у Яндекса нет другого выхода кроме как постоянно прикладывать максимум усилий к совершенствованию своего алгоритма. В этом их суть и стержень.
Согласен с вышесказанным.
Если говорить о всей коммерческой выдаче в целом, то проблема заключается в том, что Яндекс пытается ранжировать сайты данной категории на основе слишком косвенных критериев и параметров, по которым коммерцию ранжировать нельзя в принципе.
Коммерческая выдача это принципиально другой тип информации, это фактически сортировка рекламных предложений, это не ответ на вопрос ЧТО ТАКОЕ и т.п. в таком духе, это ответ на добровольный вопрос пользователя УБЕДИТЕ МЕНЯ КУПИТЬ .
И рассматривая этот вопрос под таким углом зрения бОльшая часть параметров стандартного информационного поиска для коммерции становится не актуальной.
По каким формальным критериям мы в принципе судим о “крупноте” / “серьезности” фирмы в оффлайне? Компания САМА добивается лояльности путем рекламы и качества своих продуктов, которое переходит в “сарафанное радио” (или не переходит, если качество не соответствует заявленному).
Единственное явное отличие при сравнении двух сайтов, один – сильной и стремящейся к развитию компании, пусть даже молодой, а второй – вялой умирающей конторки не вкладывающей ничего в развитие это их РЕКЛАМНАЯ АКТИВНОСТЬ и создаваемая ими лояльность. Стало быть стремящийся к лидерству в конечном итоге им становится. Но только не в Яндексе, к сожалению.
Спасибо. Полностью разделяю мнение.
Вспомнил почему-то РЕКЛАМНУЮ АКТИВНОСТЬ “Центра американского английского”… )
Яндексоиды же недавно рассказывали в своем блоге о своих взглядах на ранжирование коммерческих запросов. И по моему там все довольно близко к вашим словам.
Другое дело, что реализовать у них пока не получается все так как хочется.
согласен со всем что написано выше, а янексоиды пока что отдыхают)
В тему топика: http://www.armadaboard.com/viewtopic.php?p=4713131#4713131