Убираем дубликаты страниц Drupal из поисковиков

Прислано: anser

вс, 22/06/2008 - 09:19

Drupal - весьма мощная CMS и позволяет настраивать вид сайта практически как угодно. Однако при этом следует учитывать интересы поисковиков, иначе можно получить санкции со стороны Яндекса и Гугла, а это потеря посетителей и дохода, в том числе в системе sape. Представители всех поисковых систем говорят о том, что нужно закрывать страницы-пустышки и дубликаты от индексирования (например, ответ Платона), оставляя только оригинальный контент.

Проблема с дубликатами страниц возникает, если на вашем сайте на Drupal анонимным юзерам запрещено оставлять комментарии, а сама форма отправки комментариев показывается на отдельной странице. В этом случае под каждым анонсом статьи появляется такой текст:

» Войдите или зарегистрируйтесь, чтобы получить возможность отправлять комментарии.

Здесь слова "войдите" и "зарегистрируйтесь" являются гиперссылками, которые ведут на страницы-пустышки (дубликаты). Основное содержание этих страниц - форма для входа на сайт и форма для регистрации соответственно. В обоих случаях это страницы, которые следует прятать от поисковиков и роботов сапы. Если этого не сделать, то оптимизаторы, покупающие ссылки в сапе, могут быстро поместить "плохой сайт" в черный список (BL), а поисковые системы - наложить свои фильтры.

Что же делать?
На Drupal 5 страницы-дубли имеют похожий вид, например:

site.ru/user/register?destination=comment/reply/641%2523comment-form
site.ru/user/register?destination=comment/reply/562%2523comment-form
.........
site.ru/user/login?destination=comment/reply/562%2523comment-form
site.ru/user/login?destination=comment/reply/641%2523comment-form
.........

Файл robots.txt из стандартной поставки Drupal, который должен закрывать от поисковиков такие страницы-дубликаты, несовершенен. Это приводит к тому, что на момент этой публикации с сайта Mozg.by в индекс попало более 50 дублей в Яндексе и 131 дубль в Гугле.

Для сравнения привожу похожий сайт на Drupal с точно такими настройками - www.afportal.ru, где дублей нет, так как они закрыты от индексации как в Яндексе, так и в Гугле.

Указанная защита на AFPortal.ru обеспечивается всего 2-мя лишними строчками в robots.txt:

Disallow: /user/register?
Disallow: /user/login?

В зависимости от настроек вашего сайта (особенно правил доступа и опции "чистые ссылки"), вам могут быть нужны другие правила в robots.txt. Например, на www.afportal.ru используются еще 2 правила. Первое закрывает доступ к RSS-лентам категорий и является шаблоном (шаблоны понимают как Яндекс , так и Гугл):

Disallow: /taxonomy/term*/feed

Второе правило закрывает доступ к страницам подшивки в "'экспортном" варианте:

Disallow: /book/export/html

Это нужно не только для удаления дублей, но и для перенаправления трафика на обычные страницы сайта, где есть, например, есть контекстная реклама и навигация. С голых страниц подшивки пользы для посетителей было бы гораздо меньше.

Потренироваться в составлении правильного robots.txt можно в своей панели вебмастера на Яндексе. Чтобы выполнить анализ файла robots.txt сайта с позиции поискового робота Google, выполните следующие действия:

  1. Войдите в инструменты Google для веб-мастеров, используя свой аккаунт Google.
  2. На панели инструментов выберите URL требуемого сайта.
  3. Нажмите Инструменты, а затем выберите Анализ robots.txt.

Последний совет по SEO + Drupal.
Если вы хотите закрывать некоторые ссылки от Яндекса, но используете "Filtered HTML", добавьте в разрешенные теги тег <noindex>. Иначе вы будете думать, что закрыли ссылку от Яндекса, а движок Друпала будет втихаря вырезать noindex.

Хорошего вам трафа!

Оригинал статьи выложен на http://serp.by

Комментарии


Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Применить"
Опубликовано wanders.32 в вт, 24/06/2008 - 12:26.

спасибо-)


Опубликовано Николай Мурашкин в вт, 24/06/2008 - 13:21.

Спасибо, полезная статья!


Опубликовано direqtor в ср, 25/06/2008 - 01:16.

В мемориз...


Опубликовано T-34 в чт, 26/06/2008 - 21:41.

Цитата:

Проблема с дубликатами страниц возникает, если на вашем сайте на Drupal анонимным юзерам запрещено оставлять комментарии, а сама форма отправки комментариев показывается на отдельной странице.

Это фигня, я опасаюсь санкций за дублирование, которое вызывает структура моей таксономии... Яндекс еще не все схавал, посмотрим что будет


Опубликовано achadidi в пн, 30/06/2008 - 18:07.

спасибо!


Опубликовано Dimm в пт, 01/08/2008 - 17:40.

Спасибо!


Опубликовано Shedko в пт, 01/08/2008 - 21:14.

Еще забыты такие строчки в robots.txt как:

# Views and Forum module problem:
Disallow: /\*sort=
Disallow: *?sort=
# Image module problem
Disallow: /\*size=


Опубликовано Nick.Tereh в чт, 16/10/2008 - 21:42.

Проверил в шестой версии:
inurl:/user/login site:example.com
Найдена только одна страница.
По остальным запросам пусто.

В robots.txt уже убрали всё до нас, можно не волноваться:

# Paths (clean URLs)
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /node/add/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
# Paths (no clean URLs)
Disallow: /?q=admin/
Disallow: /?q=comment/reply/
Disallow: /?q=contact/
Disallow: /?q=logout/
Disallow: /?q=node/add/
Disallow: /?q=search/
Disallow: /?q=user/password/
Disallow: /?q=user/register/
Disallow: /?q=user/login/

Поправьте, если я не прав.


Опубликовано anser в пт, 17/10/2008 - 10:19.

Nick.Tereh написал(а):

Поправьте, если я не прав.

Не правы. Такой же robots.txt был и в 5-м Друпале. Гляньте на индексацию mozg.by и поймете, что robots.txt в стандартной поставке несовершенен.


Опубликовано Nick.Tereh в пт, 17/10/2008 - 18:47.

Спасибо!
Тогда исправлю


Опубликовано Valeratal в пн, 22/12/2008 - 13:18.

спасибо, полезно


Опубликовано penexe в пн, 22/12/2008 - 13:39.

"chippetto" написал(а):

тоже надо поправить,спасибо .

спамер ...


Опубликовано Valeratal в пн, 22/12/2008 - 14:38.

Раньше у меня в роботс стояла защита от этих "войдите или зарегистрируйтесь"
обновлял друпал и поставил дефолтный

теперь смотрю самые популярные страницы за день

1658 Учетная запись пользователя
user/register 2339 мс 1 час 4 минуты
1382 Учетная запись пользователя
user/login 2210 мс 50 минуты 54 секунды


Опубликовано PVasili в пн, 22/12/2008 - 14:44.

penexe - следите за лексикой...


Опубликовано maleena в вт, 20/01/2009 - 07:15.

Спасибо!

------------------
Belford High School


Опубликовано kodo в ср, 21/01/2009 - 05:24.

PVasili - ну действительно два спамера объявились chippetto и maleena.
Если так и дальше пойдет, то и будем читать "Спасибо" и спам. Есть же возможность внести свой сайт в подпись или выставить на оценку.
А за подобный спам надо удалять аккаунты, тем более если человек больше ничего не писал


Опубликовано logrise@drupal.org в ср, 21/01/2009 - 05:35.

Согласен! Уже несколько раз натыкался на апдейты тем, в которых весь апдейт - это Спасибо!... Поставить на вид!


Опубликовано sirmax07 в сб, 28/02/2009 - 08:02.

а для шестой версии Друпала эти рецепты работают?
Можно ли добавить в файл robots.txt такое:

Disallow: /user/register?
Disallow: /user/login?
Disallow: /taxonomy/term*/feed
Disallow: /book/export/html

Или это неправильно?


Опубликовано Psi-factor@drup... в пт, 12/02/2010 - 13:03.

Только что заметил, что яндекс НЕ РЕАГИРУЕТ на строчки вида:
Disallow: /search/
Disallow: /user/register/

т.е. если набрать
Disallow: /search
Disallow: /user/register
то он таки индексирует, не смотря на robots.txt!

Убрав закрывающий слэш в robots.txt Яндекс перестает индексировать!

P.S. Проверялось через Вебмастер.Яндекс!


Опубликовано gor в пт, 12/02/2010 - 13:35.

PVasili написал(а):

penexe - следите за лексикой...

Он прав, chippetto вставил на точку ссылку. я его пост заблокировал.


Новое на сайте

Ссылки партнёров