ApacheSolr и словарь для русского стемминга
Прислано: gasloff@drupal.org
сб, 05/11/2011 - 16:58
Имеем Drupal 7 и Solr 1.4.1. Русский стэмминг реализован стандартным стэммингом от Портера. Он там довольно грубый, думаю все это знают. А вот в случае Sphinx можно для стэмминга подключать пользовательский словарь.
Обновил сегодня Solr до 3.4.0. Обновление прошло без проблем, потребовалось только заменить schema.xml на другой, из папки соответствующего друпаловского модуля.
И вот на 3-м Solr имеется интересная возможность: http://wiki.apache.org/solr/LanguageAnalysis#Customizing_Stemming, а конкретно solr.StemmerOverrideFilterFactory и возможность подключения словаря stemdict.txt.
Сделал его из словаря ispell как описывают в отношении такого же словаря для Sphinx при помощи spelldump. Только заменил символ " > " между терминами и корнями на табуляцию. Подключил.
Просто прописал в schema.xml соответствующие строки:
<filter class="solr.StemmerOverrideFilterFactory" dictionary="stemdict.txt" />
перед строками в стандартном schema.xml:
<filter class="solr.SnowballPorterFilterFactory" language="Russian" protected="protwords.txt"/>
Перезапустил Solr. Создал по новой индекс. Все заработало - вижу что стэмминг стал более аккуратным. Появилась возможность подстраивать стемминг под свои нужды, редактируя stemdict.txt.
Странно, что эта возможность не реализована "из коробки" в друпаловском модуле интеграции Solr, хотя бы для варианта с 3-м Solr'ом, отдельный schema.xml все-таки для тройки же есть.
Но возникают два вопроса:
1) Может что-то делаю не так? Что стоит еще поправить?
Модуль импорта и синхронизации с Живым Журналом
Прислано: gasloff@drupal.org
пн, 01/08/2011 - 05:39
Ищется специалист, кто либо доведет до ума модуль ljsync, либо, что лучше, напишет новый модуль импорта и синхронизации с Живым Журналом.
Основная проблема ljsync давно известна - дублирование записей. Существующий патч ее не решает, потому в известной на друпал.ру сборке это решается дополнительным модулем по удалению дубликатов. Что не есть хорошо, когда речь идет о синхронизации с большими блогами.
Кроме того, необходим следующий функционал:
- темизация комментариев (идея автора ljsync видоизменить комментарии на манер ЖЖ кому-то нравится, а кому-то напротив не подходит)
- импорт и синхронизация сообществ, при наличии пароля от аккаунта смотрителя сообщества
- возможность ограничить синхронизируемые записи и комментарии, например по датам (не синхронизировать записи позднее стольких-то недель/месяцев) или по чекбоксу
На модуль есть определенный бюджет (готов обсудить это в личке).
Готовый модуль будет выложен в паблик.
Ну и, естественно, нужно две версии, под 6-ку и под 7-ку. Под 7-ку вторым этапом.
P.S. Возможно упомянул не все "узкие места" ljsync, дополняйте :)
Нужно разработать модуль граббера контента с форумов на движке SMF
Прислано: gasloff@drupal.org
ср, 09/03/2011 - 16:40
[crop] - решено
- Для комментирования войдите или зарегистрируйтесь
Немного про лицензии, авторские права и модули
Прислано: gasloff@drupal.org
ср, 18/04/2007 - 14:04
Недавно мы уже обсуждали один модуль для Друпала: http://drupal.ru/node/4648 - тогда шла речь о модуле Copyright.
Как я уже писал в том обсуждении мы сейчас ведём работы по локализации Creative Commons лицензий на http://www.ccrussia.org и http://creativecommons.ru
Хотелось бы сказать здесь то, о чем мы говорили с Axel'ем на прошлой неделе.
В стандартном варианте Drupal не имеет особого поля для указания информации о виде лицензии под которой распространяется содержимое сайта. Это влечёт за собой четыре минуса. Два маленьких и два больших.
Первый - каждый вебмастер вставляет информацию о лицензиях и правообладателях куда вздумается (хотя чаще всего данная инфа вставляется в подвал шкурки).
Второй - стандартными средствами указать лицензию на материалы в отдельной ноде, отличную от общей для сайта лицензии возможно только в теле самой ноды
Третий - часто на созданных сайтах информация о лицензии вообще не указывается. Многие думают, что материалы для которых не указаны правила возможного распространения можно копировать и распространять как угодно. На самом же деле, в таком случае авторские материалы наоборот максимально ограничиваются в дальнейшем распространении и видоизменении.
Четвертый - поисковик, индексируя контент на вашем сайте не может ранжировать его по указываемым лицензионным условиям. И это наверное один из самых серьезных минусов.
Просьба о помощи :)
Прислано: gasloff@drupal.org
ср, 18/04/2007 - 12:45
Уважаемые друзья!
Сейчас на сайте http://www.ccrussia.org (тоже http://cretivecommons.ru) ведётся работа по русской локализации лицензий Creative Commons.
Может кто из участников сообщества возьмётся сделать шкуру для сайта http://www.ccrussia.org ?
Специально не пишу в разделе форума, где обычно постят объявления о работе, так как разыскивается энтузиаст :) Мы там собственно не коммерческим проектом занимаемся.
Таксономия привязанная не к ноде, а к якорю в тексте ноды
Прислано: gasloff@drupal.org
ср, 18/04/2007 - 12:40
Возник следующий вопрос.
Традиционно термины таксономии привязаны к ноде в целом. Для небольших текстов это хорошо.
А вот можно ли как нибудь привязывать термин таксономии не к ноде в целом, а к определенному месту в этой ноде? Обозначенному например каким нибудь якорем?
В объемных текстах это было бы на мой взгляд довольно удобно (с точки зрения навигации).
Рацпредложение по поводу локализации модулей и т.п.
Прислано: gasloff@drupal.org
сб, 10/03/2007 - 14:51
Мы сейчас ведём работы по локализации лицензий Creative Commons на сайте http://www.ccrussia.org
Так вот в ходе работы наткнулся на очень достойный инструмент для совместной локализации: скрипт называется Pootle.
О нем: http://translate.sourceforge.net/wiki/pootle
Вот пример как он работает: http://pootle.wordforge.org/
К нему есть GUI-редактор, ссылки можно найти вот здесь: http://translate.sourceforge.net/
Может стоит его использовать для совместных работ по локализации модулей?
drupal5 и многоязычность
Прислано: gasloff@drupal.org
сб, 27/01/2007 - 20:17
На оффсайте для 5-го Друпала есть два модуля для достижения "многоязычности" сайта.
Это старый Internationalization и новый Localizer.
Кто имел опыт общения с новым модулем?
Правильно или нет? Распределение нагрузки между базами и ограничения по количеству нод.
Прислано: gasloff@drupal.org
вт, 28/11/2006 - 23:55
Мы сейчас делаем несколько сайтов.
1. www.allbeers.org - сайт про пивоварни и сорта пива со всего мира.
2. www.allpubs.org - сайт про пабы, пивные и пивные бары.
На первом сайте будет около 10000 пивоварен (на каждую отдельная нода) и минимум по три сорта пива каждой пивоварни (еще 30000 нод). Кроме того, к каждому сорту у юзеров есть возможность оставить свой рейтинг (по нескольким шкалам) - по ноде на каждый отзыв. Допустим 3 отзыва на каждый сорт - 90000 нод. Получается огромное количество нод :(
Требуется программист для написания модуля
Прислано: gasloff@drupal.org
пн, 11/09/2006 - 14:12
Требуется программист для написания модуля:
1) импорт данных из форума SMF, версии 1.1b3
Кто возьмется и сколько это будет стоить?
Требуется разработка темы
Прислано: gasloff@drupal.org
ср, 06/09/2006 - 15:00
Требуется специалист для создания темы.
Можно в мыло igor.gasloff@gmail.com
upd: речь о создании темы для сайта Сообщества любителей пабов, пивниц и пивных ресторанов www.allpubs.org
Изменить тип ноды?
Прислано: gasloff@drupal.org
вс, 23/07/2006 - 09:31
Возник такой вопрос: Имеется форум в Друпале. В форуме имеется обсуждение. Насколько я понимаю любое обсуждение это нода. Возможно ли изменить тип ноды, чтобы обсуждение форума стало например обычной страницей, или записью в дневнике.
Т.е. вопрос: существует ли какой модуль позволяющий изменять тип ноды?
