ApacheSolr и словарь для русского стемминга

Прислано: gasloff@drupal.org

сб, 05/11/2011 - 16:58

Имеем Drupal 7 и Solr 1.4.1. Русский стэмминг реализован стандартным стэммингом от Портера. Он там довольно грубый, думаю все это знают. А вот в случае Sphinx можно для стэмминга подключать пользовательский словарь.

Обновил сегодня Solr до 3.4.0. Обновление прошло без проблем, потребовалось только заменить schema.xml на другой, из папки соответствующего друпаловского модуля.

И вот на 3-м Solr имеется интересная возможность: http://wiki.apache.org/solr/LanguageAnalysis#Customizing_Stemming, а конкретно solr.StemmerOverrideFilterFactory и возможность подключения словаря stemdict.txt.

Сделал его из словаря ispell как описывают в отношении такого же словаря для Sphinx при помощи spelldump. Только заменил символ " > " между терминами и корнями на табуляцию. Подключил.

Просто прописал в schema.xml соответствующие строки:
<filter class="solr.StemmerOverrideFilterFactory" dictionary="stemdict.txt" />
перед строками в стандартном schema.xml:
<filter class="solr.SnowballPorterFilterFactory" language="Russian" protected="protwords.txt"/>

Перезапустил Solr. Создал по новой индекс. Все заработало - вижу что стэмминг стал более аккуратным. Появилась возможность подстраивать стемминг под свои нужды, редактируя stemdict.txt.

Странно, что эта возможность не реализована "из коробки" в друпаловском модуле интеграции Solr, хотя бы для варианта с 3-м Solr'ом, отдельный schema.xml все-таки для тройки же есть.

Но возникают два вопроса:

1) Может что-то делаю не так? Что стоит еще поправить?

Модуль импорта и синхронизации с Живым Журналом

Прислано: gasloff@drupal.org

пн, 01/08/2011 - 05:39

Ищется специалист, кто либо доведет до ума модуль ljsync, либо, что лучше, напишет новый модуль импорта и синхронизации с Живым Журналом.

Основная проблема ljsync давно известна - дублирование записей. Существующий патч ее не решает, потому в известной на друпал.ру сборке это решается дополнительным модулем по удалению дубликатов. Что не есть хорошо, когда речь идет о синхронизации с большими блогами.

Кроме того, необходим следующий функционал:
- темизация комментариев (идея автора ljsync видоизменить комментарии на манер ЖЖ кому-то нравится, а кому-то напротив не подходит)
- импорт и синхронизация сообществ, при наличии пароля от аккаунта смотрителя сообщества
- возможность ограничить синхронизируемые записи и комментарии, например по датам (не синхронизировать записи позднее стольких-то недель/месяцев) или по чекбоксу

На модуль есть определенный бюджет (готов обсудить это в личке).

Готовый модуль будет выложен в паблик.

Ну и, естественно, нужно две версии, под 6-ку и под 7-ку. Под 7-ку вторым этапом.

P.S. Возможно упомянул не все "узкие места" ljsync, дополняйте :)

Нужно разработать модуль граббера контента с форумов на движке SMF

Прислано: gasloff@drupal.org

ср, 09/03/2011 - 16:40

Другие статьи по теме:

[crop] - решено

Немного про лицензии, авторские права и модули

Прислано: gasloff@drupal.org

ср, 18/04/2007 - 14:04

Другие статьи по теме:

Недавно мы уже обсуждали один модуль для Друпала: http://drupal.ru/node/4648 - тогда шла речь о модуле Copyright.

Как я уже писал в том обсуждении мы сейчас ведём работы по локализации Creative Commons лицензий на http://www.ccrussia.org и http://creativecommons.ru

Хотелось бы сказать здесь то, о чем мы говорили с Axel'ем на прошлой неделе.

В стандартном варианте Drupal не имеет особого поля для указания информации о виде лицензии под которой распространяется содержимое сайта. Это влечёт за собой четыре минуса. Два маленьких и два больших.
Первый - каждый вебмастер вставляет информацию о лицензиях и правообладателях куда вздумается (хотя чаще всего данная инфа вставляется в подвал шкурки).
Второй - стандартными средствами указать лицензию на материалы в отдельной ноде, отличную от общей для сайта лицензии возможно только в теле самой ноды
Третий - часто на созданных сайтах информация о лицензии вообще не указывается. Многие думают, что материалы для которых не указаны правила возможного распространения можно копировать и распространять как угодно. На самом же деле, в таком случае авторские материалы наоборот максимально ограничиваются в дальнейшем распространении и видоизменении.
Четвертый - поисковик, индексируя контент на вашем сайте не может ранжировать его по указываемым лицензионным условиям. И это наверное один из самых серьезных минусов.

Просьба о помощи :)

Прислано: gasloff@drupal.org

ср, 18/04/2007 - 12:45

Другие статьи по теме:

Уважаемые друзья!

Сейчас на сайте http://www.ccrussia.org (тоже http://cretivecommons.ru) ведётся работа по русской локализации лицензий Creative Commons.

Может кто из участников сообщества возьмётся сделать шкуру для сайта http://www.ccrussia.org ?

Специально не пишу в разделе форума, где обычно постят объявления о работе, так как разыскивается энтузиаст :) Мы там собственно не коммерческим проектом занимаемся.

Таксономия привязанная не к ноде, а к якорю в тексте ноды

Прислано: gasloff@drupal.org

ср, 18/04/2007 - 12:40

Другие статьи по теме:

Возник следующий вопрос.

Традиционно термины таксономии привязаны к ноде в целом. Для небольших текстов это хорошо.
А вот можно ли как нибудь привязывать термин таксономии не к ноде в целом, а к определенному месту в этой ноде? Обозначенному например каким нибудь якорем?

В объемных текстах это было бы на мой взгляд довольно удобно (с точки зрения навигации).

Рацпредложение по поводу локализации модулей и т.п.

Прислано: gasloff@drupal.org

сб, 10/03/2007 - 14:51

Другие статьи по теме:

Мы сейчас ведём работы по локализации лицензий Creative Commons на сайте http://www.ccrussia.org

Так вот в ходе работы наткнулся на очень достойный инструмент для совместной локализации: скрипт называется Pootle.
О нем: http://translate.sourceforge.net/wiki/pootle
Вот пример как он работает: http://pootle.wordforge.org/
К нему есть GUI-редактор, ссылки можно найти вот здесь: http://translate.sourceforge.net/

Может стоит его использовать для совместных работ по локализации модулей?

drupal5 и многоязычность

Прислано: gasloff@drupal.org

сб, 27/01/2007 - 20:17

Другие статьи по теме:

На оффсайте для 5-го Друпала есть два модуля для достижения "многоязычности" сайта.
Это старый Internationalization и новый Localizer.
Кто имел опыт общения с новым модулем?

Правильно или нет? Распределение нагрузки между базами и ограничения по количеству нод.

Прислано: gasloff@drupal.org

вт, 28/11/2006 - 23:55

Другие статьи по теме:

Мы сейчас делаем несколько сайтов.
1. www.allbeers.org - сайт про пивоварни и сорта пива со всего мира.
2. www.allpubs.org - сайт про пабы, пивные и пивные бары.
На первом сайте будет около 10000 пивоварен (на каждую отдельная нода) и минимум по три сорта пива каждой пивоварни (еще 30000 нод). Кроме того, к каждому сорту у юзеров есть возможность оставить свой рейтинг (по нескольким шкалам) - по ноде на каждый отзыв. Допустим 3 отзыва на каждый сорт - 90000 нод. Получается огромное количество нод :(

Требуется программист для написания модуля

Прислано: gasloff@drupal.org

пн, 11/09/2006 - 14:12

Другие статьи по теме:

Требуется программист для написания модуля:
1) импорт данных из форума SMF, версии 1.1b3

Кто возьмется и сколько это будет стоить?

igor.gasloff@gmail.com

Требуется разработка темы

Прислано: gasloff@drupal.org

ср, 06/09/2006 - 15:00

Требуется специалист для создания темы.
Можно в мыло igor.gasloff@gmail.com

upd: речь о создании темы для сайта Сообщества любителей пабов, пивниц и пивных ресторанов www.allpubs.org

Изменить тип ноды?

Прислано: gasloff@drupal.org

вс, 23/07/2006 - 09:31

Другие статьи по теме:

Возник такой вопрос: Имеется форум в Друпале. В форуме имеется обсуждение. Насколько я понимаю любое обсуждение это нода. Возможно ли изменить тип ноды, чтобы обсуждение форума стало например обычной страницей, или записью в дневнике.
Т.е. вопрос: существует ли какой модуль позволяющий изменять тип ноды?

RSS-материал

Новое на сайте

Ссылки партнёров