Тысячи чертей или почему яндексоиды не бреются?

Тысячи чертей или почему яндексоиды не бреются?

Click to rate this post!
[Total: 0 Average: 0]

Очень меня напряг "учет нескольких тысяч поисковых параметров для одного документа".   Нет,  вовсе не как  оптимизатора. Как оптимизатору мне достаточно оказывать влияние на 3 параметра документа  – относительную частоту запроса в документе, относительную частоту запроса в анкор-листе документа и вес документа, который определяется как сумма передаваемых донорами весов.  Этого в принципе достаточно для успешного продвижения.

Меня беспокоят тысячи параметров как немножко программиста и слегка математика.

Начнём с того, что  одним из основным принципов программирования  (и математики, и философии) является принцип Бритвы Оккама:

entia non sunt multiplicanda praeter necessitatem
(не преумножай сущности без надобности)

Как мне видится,  для успешного ранжирования  любых документов необходимо и достаточно 4 параметра:  к трём вышеупомянутым добавляется возраст документа, и применяется он в случае равенства этих трёх параметров (и для одних типов запросов возраст может идти в плюс, а для других – в минус). А дьявол порылся в точном взвешивании передаваемых ссылками весов:  seo-ссылки, естественные ссылки, ссылки с трастовых и ссылки с экспертных документов – все они должны передавать вес по-разному. Ну и ещё разные типы запросов необходимо учится определять, чтобы искать немного по-разному – но это всё не имеет никакого отношения к параметрам самого документа…

Ладно, ладно, я ничерта не понимаю в поиске, а на самом деле, большинство ценных документов располагается на сайтах, сделанных криворукими вебмастерами (был тут недавно в немаленькой такой компании, головной офис которой расположен в Доме Зингера на Невском, так там сайтом рулили 6 вебмастеров, а на подтверждение прав для консоли вебмастера ушло полтора часа) и поэтому на годный документ ведёт единственная ссылка с текстом подробнее с такого же одиноко расположенного документа на богом и Гуглем (но не Яндексом) забытом сайте, а посему для качественного ранжирования столь бесценных для широких масс документов нужны цельных 245 признаков (кстати, кто-нибудь знает, почему 245, а не нормальные для любого программиста 256?). Лично я, как и Петька из анекдота, такое не только написать, но и представить не могу!  А теперь заметьте, что всего-то за какие-то полгода количество необходимых для ранжирования параметров вдруг увеличились в 8 (!) раз (минимум в 8, потому что “тысячи” это как минимум две ).   Да в ином документе столько букв не бывает сколько придумали параметров яндексоиды.

Хорошо-хорошо, у меня как не у гуманитария очень скудное воображение, поэтому попрошу вообразить вас такую ситуацию:  господину Воложу звонит господин Медведев и с чуть меньшим чем у Путина металлом в голосе спрашивает, а почему это по запросу президент выдаётся википедия со статьей не про того президента? Вообразили? А теперь вообразите как яндексоиды будут вспешке определять какой из тысяч параметров подкрутить, чтобы правильный президент в топе был.  Вот и у меня не получается.  Нет, звонок Медведева Воложу – запросто, а быстрый поиск и исправление ошибки – ну никак.

Гугль, к слову, с задачей выбора правильного президента в вики справляется на раз.  Наверное потому, что PageRank  вычислять умеет 🙂

Ну и на загрузку опять немножечко математики.  Если вам не хватило 1000 параметров, чтобы выбрать и отранжировать первую тысячу документов из  всех  документов, содержащих слова из запроса пользователя, то вы придумали ровным счётом ничего не значащую тысячу параметров – они совпадают у очень многих документов, а это значит, что “учёт нескольких тысяч поисковых параметров для одного документа”  – это не более чем страшная сказка на ночь для ребёнка начинающего сеошника.

Disclaimer: данная заметка ни в коем разе не является попыткой учить кого-либо писать отличный поиск, но является  просто выражением удивления, почему  Володька не сбрил усы.  Правильной бритвой 😀

Upd: комментарий от Ильи Сегаловича.

Это не те “параметры”, которые “признаки” или “свойства” (features), а те параметры, из которых строится модель.

Если модель, например, полином второй степени (то есть в качестве параметров используется и признаки и все их произведения) то число параметров модели пропорционально квадрату числа признаков. Чем длиннее модель (чем в ней больше используется параметров) тем точнее можно построить ранжирование или угадать класс объекта или угадать оценку и тп. Однако сложные, длинные модели очень дорого “обсчитывать” по ресурсам.

В этом релизе мы впервые для себя применили очень длинную модель в ранжировании. Для этого пришлось многое переписать.

А признаков у нас, и правда, несколько сотен, и их число и рост их числа, вы совершенно правы, тщательно контролируется и идет конечно же не так быстро.

Поделиться Вконтакте
Плюсануть

26 комментариев к “Тысячи чертей или почему яндексоиды не бреются?

  1. Если честно я удивлен что вы не видите откуда высосоаны эти “несколько тысячь параметров”. Вот вы пишите, что среди ваших критериев – “…и вес документа, который определяется как сумма передаваемых донорами весов” – в этой фразе только штук 500-600 параметров можно спрятать.
    Все таки текст тот писал менеджер, а не специалист по поиску.
    Кстати “несколько тысяч” это как минимум три тысячи. Для 2-х тысяч в русском языке есть слово оставшееся с тех времен когда в русском было 3 времени. Короче написали бы “пара тысяч”.

    1. В принципе согласен, но в таком случае Ден должен был писать не про параметры документа, а про параметры связки запрос-документ. Хотите сказать, что он подло не стал исправлять описку? 🙂

  2. Яндекс действительно удручает подобными высказываниями. А также тем, что с ростом количества параметров они все больше начинают полагаться на свои технологии, и достучаться-объяснить, что нечего нормальные сайты из индекса выкидывать становится просто невозможно.
    А вот что касается того “какому президенту быть в первой строчке”, позволю себе не согласиться. Параметры, параметрами, а прибавить кусок кода “по такому-то запросу такой-то топ” – вообще не проблема.

    1. Вы явно не программист. Делать заплатки на каждый частный случай – это тупиковый путь программирования. В частности переход на новую версию кода будет кромешным адом.

      1. Ха. Я как раз программист.
        Но я не отнес бы такое к категории заплаток, скорей, это – дополнительный модуль, срабатывающий до поискового ранжирования. Модуль всего лишь содержит список запросов и сайтов, которые по ним нужно вывести на какие позиции.

          1. ну пусть будет заплатка.
            только я все равно думаю, что такой механизм Яндексу может пригодиться. как раз на случай когда срочно говорится “вывести по такому-то запросу такие-то сайты”.
            Я фантазировал еще на эту тему: http://it.sander.su/search-engines.php

            P.S. А тут есть какой-нибудь способ подписки на комментарии к конкретной записи?

    2. И чего так всполошились насчет количества параметров? Главное, что выдача стала адекватней, нормальные СДЛ (с точки зрения посетителя, а не ВМ) растут.

    3. Насчет “прибивания куска кода”. Я думаю, в каждой версии алгоритма существуют своего рода “бэкдоры”, через которые можно поправить выдачу, но правят ее, по моему мнению, в совершенно исключительных случаях , например случаях, связанных с вопросами государственной безопасности.

  3. Меня фраза из пресс-релиза: Благодаря переработке архитектуры ранжирования (англ., pdf) в поиске удалось реализовать учет нескольких тысяч поисковых параметров для одного документа. тоже несколько напрягла. Я одно время пробовал просто пересчитать возможные параметры для ранжирования и у меня даже 245 не получилось, а тут тысячи… Была мысль, что что в пресс-релизе опустили одно ключевое слово. Предположим, что для ранжирования по прежнему используются 4 (как считаете Вы) или около 10-20 (как считают другие) независимых нараметров. Изменился подход к учету этих параметров. Возможно эти параметры раньше использовались напрямую в сложном и ресурсоемком алгоритме, то теперь со всеми этими обучающими графами ( http://www.buyfish.ru/articles/69/ ), используются производные параметры от этих 4х или 10-ти, которые в Снежинске использовать стало проще. Ну а производных или линейно зависимых параметров может быть хоть мульён.

    1. Если быть въедчиво дотошным, то эта фраза говорит, что алгоритм теперь может учитывать, а не то, что он начал учитывать такое число параметров. На самом деле это может быть всего лишь тривиальнейший переход с типа данных char на тип данных short int.

      1. Максим, формально Вы правы, но мне кажется, что подобный переход не стали бы персонифицировать под именем “Снежинск”. А потом, читаем первое предложение: “На buki.yandex.ru выложена новая версия поисковой программы “Снежинск”, в которой изменен подход к построению ранжирования Яндекса.” Мне кажется, что люди хотели намекнуть на очень глобальные изменения. Сменить подход звучит, как сменить парадигму (процедурное программирование -> ООП, развитый социализм -> дикий капитализм и т.д.).

    2. Насколько я понимаю, теперь бессмысленно искать “краеугольный камень” оптимизации в “особым образом составленных” текстах. Мне нравится новый алгоритм и, хотя я не математик, мне понятна суть нового подхода.

      Тут вспомнил вот что: В своем недавнем выступлении на конференции Садовский уклончиво ответил на вопрос, используются ли в алгоритме ранжирования данные статистики. Мне почему-то кажется, что в условиях нового алгоритма, за счет “непрямого” использования “коренных” параметров ранжирования (тех, которых Артем называет 4, а другие выделяют по 10-20) стало возможным учитывать такие вещи, как “голосующие клики”. Хотя не факт, что этот фактор сейчас используют в сколько-нибудь значимом объеме.

      1. Как раз вы всё неправильно поняли. Теперь как раз удачно написаный текст можед дать фору многим десяткам ссылок. Просто точно так же написанный текст на другом сайте может не сработать.

        1. Артем, я не говорил, что “удачно написанный текст” не может дать фору десяткам ссылок.

          Я имел ввиду, что “краеугольный камень” он теперь как бы не в текстах, а во многих факторах, это, похоже, согласуется с тем, что вы написали.

          А в фору текстов я верю. Скорее даже в фору “совокупности текстов”. Я тут сделал у себя в блоге обзор сайта одного который, на мой взгляд, находится в топе процентов на 60 из-за грамотно составленного “текста”.

          Вообще, по моим наблюдениям, “пляски вокруг тезауруса” – тезауруса такого, каким его видит Яндекс, сейчас набирают обороты. Видимо это началось еще тогда, в Находку, и теперь продолжается дальше – теперь, имхо, сильно увеличилась глубина анализа соотношений между терминами, характеризующими тематику.

          Вообще я верю в “Маркетинговую модель” из статьи сеоньюса про Снежинск, т.е. в то, что слова из “маркетинговой модели” рулят.

          Но вот то, что это сохранится и дальше в таком виде как сейчас – сомнительно.

  4. т.е. гугл имеет 100 с чем то параметров (когда-то читал), а яндекс — несколько тысяч… интересно — это из анекдота про “и вы тоже говорите…” или про то у кого джип больше 🙂

  5. Хочу заметить, что на данный момент по запросу “президент” выдаётся правильный президент (регион Москва и область) 🙂
    И не факт, что это “подкрутка” – может быть, таков уже результат “дообучения”.

  6. Прошу прощения за вопрос, уточнените, что имеется в виду под фразой “относительную частоту запроса в анкор-листе” что за частота запроса и анкор лист. А то, когда с начала что-то не понятно, то теряется суть всехдальнейших рассуждений.
    Спасибо.

    1. Анкор-лист он же анкор-файл – это тексты всех ссылок, ведущих на документ. Частота фразы – эко количество повторений фразы в анкор-листе, относительная частота – это частота поделённая на количество слов (или ссылок) в анкор-личте.

  7. Артем, день добрый!
    Решил тоже поподробнее разобраться с ранжированием в Яндексе. Читал-читал и теперь тока каша в голове.
    Опустим процесс обучения алгоритма, тут все понятно – асессоры, тестовая выборка, построение функции ранжирования.
    Вопрос, что из себя представляет эта функция?
    Насколько я понял (в том числе и из этого поста), это полином, где несколько тысяч параметров (образованных из исходных 245 факторов).
    Вопрос – сколько таких полиномов? Ну для каждого региона свой, это как минимум. Для однословных запросов, двух-, трех- и более – свои. Это как я думаю. Плюс, возможно, для транзакционных, информационных, коммерческих запросов – тоже свои вариации полинома.
    Но в одной публикации проскальзывала мысль про деревья решений. Они каким боком относятся к Снежинску? Они используются лишь при построении этого полинома (как раз те самые изменения подхода к построению ранжирования) или далее – при ранжировании документов?

  8. На самом деле не важно, сколько там полиномов. Математически можно рассматривать один полином, просто с разными коэффициентами. И набор коэффициентов теоретически может быть свой у каждого запроса. Практически – он свой у каждого типа запросом, а классификация запросов по типам скорее всего тоже проводится алгоритмически.

  9. Проблему решать нужно комплексно. В ранжировании на Яндексе разобраться можно, если этого захотеть. Программисты понимают, откуда и что берётся. Достаточно разобраться в материале

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *