Выбор поискового движка для сайта

Прислано: vlkff@drupal.org

пн, 26/04/2010 - 07:33

Прозводился поиск поискового движка, позволяющего произвести тонкую настройку.
Как минимум, к поисковому движку предъявлялись такие требования:

* Сегментация зон индексирования
* Настройка индексаторов документов (документ, как любой источник данных)
* Кастомизация страницы результатов поиска.
* нет контекстной рекламы поставщика поисковой системы
* индексация неограниченного количества документов

Так же, было желательно удовлетворение следующим требованиям:

* Запуск индексации по расписанию
* Настройка синонимов
* Типы индексируемых документов: pdf / doc / xls /etc
* Поиск по БД и другим источникам кроме веб
* Индексация нескольких доменов - управление зоной индексации
* Простота установки и конфигурации
* Работает на крупных русскоязычных проектах, дает релевантную выдачу для русского языка, хорошо понимает морфологию русского
* Имеет активное, устойчивое сообщество пользователей ( саппорт для платного варианта )
* Бесплатен / стоимость приемлема
* Имеется официальная документация

Для поиска удовлетворяющих требованиям систем использовались среди прочих, источники ниже:

* http://www.sphinxsearch.com
* http://www.developers.org.ua/archives/aleks_raiden/2008/07/24/full-text-...
* http://company.yandex.ru/technology/server/
* http://api.yandex.ru/server/doc/concepts/About.xml
* http://code.google.com/intl/ru/enterprise/gsave/
* http://static.googleusercontent.com/external_content/untrusted_dlcp/www....

После анализа, определились 2 наиболее подходящие системы: Яндекс.Сервер и Sphinx. Так же, дополнительно был исследован Google Search Appliance Virtual edition (GSAVe).
Сравнительная таблица в приложении.
Подробный анализ систем показал:

Яндекс.Сервер удовлетворяет ВСЕМ требованиям, имеет отличную документацию, очень гибко конфигурируется, работает по множеству источников данных, в том числе по БД.

Sphinx удовлетворяет основным требованиям, но работает только с БД и XML, т.е. не индексирует дополнительные типы документов. В целом подходит. Возможно есть нестандартные индексаторы/краулеры, но они не распространены. Очень быстрая и мощная система, хорошо ладит с русской морфологией. Есть модули под Drupal (что не избавляет от необходимости ручной конфигурации движка поиска)

GSAVe - не поддерживается и не распространяется в настоящий момент, официального описания возможностей системы и документации нет. Возможности Коммерческого продукта GSA показал, что система умеет то же самое, что яндекс-сервер, кроме того включает:

* Разграничение прав
* Self-Learning Scorer
* Query Suggestions
* User-Added Results
* adjust search results for different user groups
* Alerts
* File Types Search more than 220 file types, including HTML, Microsoft Office, PDF, PostScript, WordPerfect, Lotus, and many others. (яндекс только распространенные форматы)
* Search Quality Feedback Toolkit

При этом, какие из этих возможностей и как реализованы в GSAVe неизвестно.
Известно что при жизни, GSAVe имел ограничение на индексацию 50k страниц/документов, а его основное назначение было предоставление разработчику "опытного кролика", пока готовился к выходу GSA.
Поиск документации и дистрибутива GSAVe не привел к рузультатам.
Таким образом, 'GSAVe' - не проходит по требованию индексации неограниченного кол-ва документов, при этом есть ряд других явных и потенциальных сложностей.

Таким образом, выбор поисковой системы осуществлялся между Sphinx и Яндекс.Сервер, обе из которых удовлетворяли нашим требованиям в большей или меньшей степени.
Яндекс.Сервер во всех отношениях предпочтительной, кроме скорости поиска(хотя она весьма удовлетворительна) и условий использования.
Sphinx работает с огромной скоростью, но только по БД - необходимо писать свои парсеры под другие типы документов (возможно они и есть, но не распространены или не распространяются открыто).
Т.к. скорость индексации не являлась критически важным параметром, решено было остановить выбор на Яндекс.Сервер.

Вскоре был написан модуль интеграции Я.Сервер и Друпал, подробнее тут:
Интеграция Яндекс Сервер с Друпал

Комментарии


Настройки просмотра комментариев

Выберите нужный метод показа комментариев и нажмите "Применить"
Опубликовано Peritus@drupal.org в пн, 26/04/2010 - 07:56.

Спасибо за анализ.


Опубликовано igor701 в пн, 26/04/2010 - 08:55.

Насколько бесплатен поиск? Или какие ограничения есть?

Подумываю об использовании у себя ...


Опубликовано vlkff@drupal.org в пн, 26/04/2010 - 17:34.

Бесплатен полностью, но согласно лицензии нужно брендировать форму поиска и воставить ссылки на яндекс на результатах. Подробнее тут: http://company.yandex.ru/technology/server/conditions/


Новое на сайте