Убираем дубликаты страниц Drupal из поисковиков
Прислано: anser
вс, 22/06/2008 - 09:19
Drupal - весьма мощная CMS и позволяет настраивать вид сайта практически как угодно. Однако при этом следует учитывать интересы поисковиков, иначе можно получить санкции со стороны Яндекса и Гугла, а это потеря посетителей и дохода, в том числе в системе sape. Представители всех поисковых систем говорят о том, что нужно закрывать страницы-пустышки и дубликаты от индексирования (например, ответ Платона), оставляя только оригинальный контент.
Проблема с дубликатами страниц возникает, если на вашем сайте на Drupal анонимным юзерам запрещено оставлять комментарии, а сама форма отправки комментариев показывается на отдельной странице. В этом случае под каждым анонсом статьи появляется такой текст:
» Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии.
Здесь слова "войдите" и "зарегистрируйтесь" являются гиперссылками, которые ведут на страницы-пустышки (дубликаты). Основное содержание этих страниц - форма для входа на сайт и форма для регистрации соответственно. В обоих случаях это страницы, которые следует прятать от поисковиков и роботов сапы. Если этого не сделать, то оптимизаторы, покупающие ссылки в сапе, могут быстро поместить "плохой сайт" в черный список (BL), а поисковые системы - наложить свои фильтры.
Что же делать?
На Drupal 5 страницы-дубли имеют похожий вид, например:
site.ru/user/register?destination=comment/reply/641%2523comment-form
site.ru/user/register?destination=comment/reply/562%2523comment-form
.........
site.ru/user/login?destination=comment/reply/562%2523comment-form
site.ru/user/login?destination=comment/reply/641%2523comment-form
.........
Файл robots.txt из стандартной поставки Drupal, который должен закрывать от поисковиков такие страницы-дубликаты, несовершенен. Это приводит к тому, что на момент этой публикации с сайта Mozg.by в индекс попало более 50 дублей в Яндексе и 131 дубль в Гугле.
Для сравнения привожу похожий сайт на Drupal с точно такими настройками - www.afportal.ru, где дублей нет, так как они закрыты от индексации как в Яндексе, так и в Гугле.
Указанная защита на AFPortal.ru обеспечивается всего 2-мя лишними строчками в robots.txt:
Disallow: /user/register?
Disallow: /user/login?
В зависимости от настроек вашего сайта (особенно правил доступа и опции "чистые ссылки"), вам могут быть нужны другие правила в robots.txt. Например, на www.afportal.ru используются еще 2 правила. Первое закрывает доступ к RSS-лентам категорий и является шаблоном (шаблоны понимают как Яндекс , так и Гугл):
Disallow: /taxonomy/term*/feed
Второе правило закрывает доступ к страницам подшивки в "'экспортном" варианте:
Disallow: /book/export/html
Это нужно не только для удаления дублей, но и для перенаправления трафика на обычные страницы сайта, где есть, например, есть контекстная реклама и навигация. С голых страниц подшивки пользы для посетителей было бы гораздо меньше.
Потренироваться в составлении правильного robots.txt можно в своей панели вебмастера на Яндексе. Чтобы выполнить анализ файла robots.txt сайта с позиции поискового робота Google, выполните следующие действия:
- Войдите в инструменты Google для веб-мастеров, используя свой аккаунт Google.
- На панели инструментов выберите URL требуемого сайта.
- Нажмите Инструменты, а затем выберите Анализ robots.txt.
Последний совет по SEO + Drupal.
Если вы хотите закрывать некоторые ссылки от Яндекса, но используете "Filtered HTML", добавьте в разрешенные теги тег <noindex>. Иначе вы будете думать, что закрыли ссылку от Яндекса, а движок Друпала будет втихаря вырезать noindex.
Хорошего вам трафа!
Оригинал статьи выложен на http://serp.by
- anser's blog
- Для комментирования войдите или зарегистрируйтесь
спасибо-)
- Для комментирования войдите или зарегистрируйтесь
Спасибо, полезная статья!
- Для комментирования войдите или зарегистрируйтесь
В мемориз...
- Для комментирования войдите или зарегистрируйтесь
Проблема с дубликатами страниц возникает, если на вашем сайте на Drupal анонимным юзерам запрещено оставлять комментарии, а сама форма отправки комментариев показывается на отдельной странице.
Это фигня, я опасаюсь санкций за дублирование, которое вызывает структура моей таксономии... Яндекс еще не все схавал, посмотрим что будет
- Для комментирования войдите или зарегистрируйтесь
спасибо!
- Для комментирования войдите или зарегистрируйтесь
Спасибо!
- Для комментирования войдите или зарегистрируйтесь
Еще забыты такие строчки в robots.txt как:
# Views and Forum module problem: Disallow: /\*sort= Disallow: *?sort= # Image module problem Disallow: /\*size=
- Для комментирования войдите или зарегистрируйтесь
Проверил в шестой версии:
inurl:/user/login site:example.com
Найдена только одна страница.
По остальным запросам пусто.
В robots.txt уже убрали всё до нас, можно не волноваться:
# Paths (clean URLs) Disallow: /admin/ Disallow: /comment/reply/ Disallow: /contact/ Disallow: /logout/ Disallow: /node/add/ Disallow: /search/ Disallow: /user/register/ Disallow: /user/password/ Disallow: /user/login/ # Paths (no clean URLs) Disallow: /?q=admin/ Disallow: /?q=comment/reply/ Disallow: /?q=contact/ Disallow: /?q=logout/ Disallow: /?q=node/add/ Disallow: /?q=search/ Disallow: /?q=user/password/ Disallow: /?q=user/register/ Disallow: /?q=user/login/
Поправьте, если я не прав.
- Для комментирования войдите или зарегистрируйтесь
Поправьте, если я не прав.
Не правы. Такой же robots.txt был и в 5-м Друпале. Гляньте на индексацию mozg.by и поймете, что robots.txt в стандартной поставке несовершенен.
- Для комментирования войдите или зарегистрируйтесь
Спасибо!
Тогда исправлю
- Для комментирования войдите или зарегистрируйтесь
спасибо, полезно
- Для комментирования войдите или зарегистрируйтесь
тоже надо поправить,спасибо .
спамер ...
- Для комментирования войдите или зарегистрируйтесь
Раньше у меня в роботс стояла защита от этих "войдите или зарегистрируйтесь"
обновлял друпал и поставил дефолтный
теперь смотрю самые популярные страницы за день
1658 Учетная запись пользователя
user/register 2339 мс 1 час 4 минуты
1382 Учетная запись пользователя
user/login 2210 мс 50 минуты 54 секунды
- Для комментирования войдите или зарегистрируйтесь
penexe - следите за лексикой...
- Для комментирования войдите или зарегистрируйтесь
Спасибо!
------------------
Belford High School
- Для комментирования войдите или зарегистрируйтесь
PVasili - ну действительно два спамера объявились chippetto и maleena.
Если так и дальше пойдет, то и будем читать "Спасибо" и спам. Есть же возможность внести свой сайт в подпись или выставить на оценку.
А за подобный спам надо удалять аккаунты, тем более если человек больше ничего не писал
- Для комментирования войдите или зарегистрируйтесь
Согласен! Уже несколько раз натыкался на апдейты тем, в которых весь апдейт - это Спасибо!... Поставить на вид!
- Для комментирования войдите или зарегистрируйтесь
а для шестой версии Друпала эти рецепты работают?
Можно ли добавить в файл robots.txt такое:
Disallow: /user/register?
Disallow: /user/login?
Disallow: /taxonomy/term*/feed
Disallow: /book/export/html
Или это неправильно?
- Для комментирования войдите или зарегистрируйтесь
Только что заметил, что яндекс НЕ РЕАГИРУЕТ на строчки вида:
Disallow: /search/
Disallow: /user/register/
т.е. если набрать
Disallow: /search
Disallow: /user/register
то он таки индексирует, не смотря на robots.txt!
Убрав закрывающий слэш в robots.txt Яндекс перестает индексировать!
P.S. Проверялось через Вебмастер.Яндекс!
- Для комментирования войдите или зарегистрируйтесь
penexe - следите за лексикой...
Он прав, chippetto вставил на точку ссылку. я его пост заблокировал.
- Для комментирования войдите или зарегистрируйтесь













Комментарии