Стой Яндекс стой, не вали мои сайты - заходи попозжей

Прислано: andron13

чт, 24/07/2008 - 17:56

Другие статьи по теме:

robotsНе секрет, что другой раз поисковик может положить сайт на лопатки. Яндексу теперь можно запрещать насиловать сайтег. Да, свершилось. Яндекс научился читать Crawl-delay. Не пройдёт и полу-года и яндекс действительно сможет нагуглить всё.

Директива Crawl-delay и поддержка GZIP

1. Теперь вы можете управлять таймаутом, с которым поисковый робот Яндекса закачивает страницы с вашего сервера (Crawl-delay).

Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой "Crawl-delay". Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву "Crawl-delay" необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow").

Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.

Примеры:

    User-agent: Yandex
    Crawl-delay: 2 # задает таймут в 2 секунды

    User-agent: *
    Disallow: /search
    Crawl-delay: 4.5 # задает таймут в 4.5 секунды 

2. Поддержка GZIP

В роботе добавлена поддержка скачивания сжатого контента. Теперь поисковый робот Яндекса при каждом запросе документа говорит: "Accept-Encoding: gzip,deflate".

Это означает, что настроив соответствующим образом свой веб-сервер, вы сможете снизить объем передаваемого трафика между ним и нашим роботом. Однако следует иметь в виду -- передача контента в сжатом виде увеличивает нагрузку на CPU вашего сервера, и, если он сильно загружен, могут возникнуть проблемы. Поддерживая gzip и deflate, робот придерживается стандарта rfc2616, раздел 3.5 (http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.5).

источник

Комментарии


Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Применить"
Опубликовано Химический Али в пт, 25/07/2008 - 05:57.

Аллах акбар!
*побег кастрировать раздутый роботс.тхт*


Опубликовано Valeratal в пт, 25/07/2008 - 06:26.

я плакаль
это свершилось

А по делу, почему так сложно внедрять казалось бы очевидные вещи


Опубликовано Ильич Рамирес Санчес в пт, 25/07/2008 - 06:34.

все равно в случае пары сотен сайтов на сервере это не спасает.

Придется крутить сам вебсервер ограничивая число соединений для подсеток поисковиков.


Опубликовано andron13 в пт, 25/07/2008 - 08:14.

80 тысяч страниц и попытка закачать одновременно по 500 штук и более. сервер отбивался недолго. :(. теперь такого быть не должно


Опубликовано Ильич Рамирес Санчес в пт, 25/07/2008 - 08:18.

яндекс гугль и прочие радуют своей многопоточностью. ага.
меня пока ресурсы железки спасают.

Но вообще месяц-два и тоже придется выкручиваться


Опубликовано gorr в пт, 25/07/2008 - 10:43.

Спасибо, полезно.


Новое на сайте

Ссылки партнёров