Ван-ту, ван-ту: чек да майкрофон.

Click to rate this post!
[Total: 0 Average: 0]

В последнее время я слегка опаздываю за новостями Яндекса. И, хотя, на первый взгляд они кажутся эпохальными (два объявления об изменениях в алгоритме, кастрирование языка запросов), после некоторых раздумий выясняется, что это далеко не так. Вот небольшой мыслестрептиз по поводу безвременной кончины операторов link и anchor:

  • Мысль первая, паническая: Шеф, усё пропало! Гипс снимают, клиент уходит!
  • Мысль вторая, конспирологическая: это проделки Фикса ходоков на теплоходе – типа так началось строительство цивилизованного рынка. Мысль навеяна вот этим высказыванием:

    Руководство Яндекса, в лице Ильи Сегаловича, Елены Колмановской и Александра Садовского, сообщило об этом на встрече с несколькими оптимизаторами, которая прошла в неформальной обстановке в одном из московских ресторанов.

    NB(для тех кто в танке): на теплоХОДе не плавают, а ходят, потому и ходоки 😉

  • Мысль третья, разумная: всегда существует несколько способов проверить проиндексирована ли конкретная ссылка поисковой системой. Например, очевидно, что проиндексированная ссылка будет находится в кэше.
  • Мысль четвёртая, программерская: как ни откладывай, а скрипт, который считает количество ссылок на заданный сайт с определённым словом в анкоре написать таки придётся.

После этого мысли моей голове расплодились в катастрофических объёмах, а посему из гуманных соображений я решил не грузить вас потоком сознания 😀

P.S: если у вас есть интерес к упомянутому выше скрипту – дайте знать в комментах на сколько он вам интересен.

Поделиться Вконтакте
Плюсануть

22 комментария к “Ван-ту, ван-ту: чек да майкрофон.

  1. >NB(для тех кто в танке): на теплоХОДе не плавают, а ходят, потому и ходоки 😉
    объявлено было действительно в ресторане, а не на теплоходе… теплоход был много раньше

  2. Бомж, если сесть и подумать, то сложностей никаких. Алгоритм вообще элементарен:
    1) Получить список обратных ссылок на сайт
    2) Обойти этот список на предмет проверки их известности Яндексу
    3) Обойти верифицированный список на предмет составления анкор-листа
    4) Оформить результаты в виде красивого отчёта

    Если сервис будет, как и большинство моих сервисов, полностью приватным, то больше делать ничего не надо. Если делать сервис публичным, то придётся обмозговать структуру БД для того, чтобы слишком часто не выкачивать одни и те же страницы. С этим проблем быть не должно, поскольку в прошлой жизни я как раз специализировался на Database development, о чём и справка имеецца 😀
    Только есть у меня очень веские основания полагать, что подобный сервис нужен весьма и весьма ограниченному кругу лиц, причём большинство из них обладают ресурсами, необходимыми для построения своего собственного сервиса, а оставшаяся часть уже такой сервис имеет 🙂

  3. Ты же понимаешь, что построить все ссылки у себя в базе проблем нет(было бы место). А вот делать выборки из этой базы, да не за час, а как было у яндекса – вот это уже проблема.
    Какого объема получится база ссылок по твоим прикидкам, если обойти рунет(рус,укр,бел), начиная с каталога яндекса?

  4. Если делать открытую базу, то ее легко скушает и Яндекс. Идея с сохранением данных конечно интересна, но пока нет четкой схемы реализации. Процесс все равно требует серьезных ресурсов и мне кажется, что нужно уходить от такого вида анализа по каждой ссылке.

  5. Немного спешил…
    Имелось в виду то, что если анализировать так все ссылки (а их число сейчас все больше), то понадобятся не слабые ресурсы и время.
    Я чего-то подумал о немного кривой схеме реализации, где в базе имеется ряд жирных ссылок и выдается пользователям с проверкой на индексацию. Поэтому и сказал о том, что их может также принять во внимание и Яндекс. Слава богу одумался.
    Мне кажется сервис должен вынимать только ссылки с заданными параметрами (скажем PR страницы размещения)и давать им некоторый анализ по ЯНдексу. То есть скажем, например, вытащили бэки по Яху, проверили параметры, выкинули лишнее, а оставшиеся уже проверить на индексацию итд. Тупые каталожные бэки можно просто суммировать и задать им некий коэффициент важности чтоли. НЕ имеет смысла проверять их на индексацию. Таким образом и нам хорошо и Яндекс особо не нагружаем.

  6. А что касается решения задачи в лоб, то сайтов, которые предстоит обойти в первый заход – не более 50K штук, а регулярно обходить придётся и того меньшее количество сайтов – собственно оптимизаторов не так много как кажется, а успешных – и того меньше 🙂

  7. Может я как-то не так представляю процесс?
    Есть скажем сайт, на него идет порядка 1000 ссылок, 900 из них с разных страниц каталогов. Тут речь идет не о 50K сайтов, а громадном числе К страниц =) И таким образом число страниц растет в геометрической прогрессии…

  8. Я не забываю, каталог может иметь скажем по 5 ссылок на странице. И где гарантия, что под фильтр попадает весь сайт? Проверять то придется страницы…

  9. Если в граммах, то, боюсь, мне столько будет не выпить 🙂
    На самом деле подождём чем разродится Вебальта, а там и будет видна необходимость скрипта 😉

  10. Вот завтра и проверим 🙂
    Насчет Вебальты согласна, подождем )
    Обещали разродиться в течении 10 дней, посмотрим.

  11. >1) Получить список обратных ссылок на сайт
    этот пункт требует немалых ресурсов – яндексу известно 3*10^9 страниц, даже если на каждой странице 1 ссылка (а чаще их больше, правда много повторных) и на хранение 1 ссылки будем тратить скажем 50 байт (а это супер экономно, как по мне), база будет объемом 150 Гбайт, а один полный обход “съест” при среднем размере страниц 20 кбайт 6*10^13=60 000 Гбайт входящего траффика, а он обычно недешев….

  12. Ну почему все неявно исходят из предположения, что для реализации сервиса прям таки необходимо выкачать весь рунет? Да количество ссылок на конкретный сайт в рунете ограничено 10^6, а то и 10^5…

  13. но как получить иным способом список ссылок на сайт? мне видится только 2 способа:
    1. выкачать весь рунет
    2. получить результат у какого-то другого сервиса, который уже выкачал весь рунет.

  14. А выкачал весь рунет лишь яндекс и рамблер (глубина индексации вебальтой мне пока не известна).

  15. Уведомление: » Рабочие выходные

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *