Давно не писал новых сообщений в блоге, все больше комментарии об очередных обновлениях в ветке о моем Article Copy Master‘е, посему решил дать отписку.
Этот год неожиданно перевернул и продолжает переворачивать мои ценности вверх дном. Прошлый год принес мне жену, сына и хорошее бабло на ниве seo. Этот год начался с потери двух клиентов из-за проблем с неисполнением обязательств по позициям в Яндексе после декабрьских изменений в алгоритме. Чтобы возместить потери – я выпустил свой софт по размножению статей (вышеупомянутый). И вот, в погоне за новыми плюшками, я опять столкнулся с необходимостью написания модуля для морфоанализа. Задача, изначально, достаточно прикладная – модуль-синонимайзер для программы размножения статей. Но простыми методами (без морфологии) решать не хочется, ибо это тупик. А если идти правильным путем – то задача встает, вобщем-то, нетривиальная. Я уже очень давно облизываюсь на разработку полноценной библиотеки и базы для морфоанализа. Началось все n-цать лет назад, когда я бредил написанием игр и написал функцию для склонения имен по падежам для того, чтоб правильно в маде (MUD) писать «Вася(1) ударил Машу(2) мечом(3)». Реализация, опять-же, была тупиковой, но работоспособной. Забавно, что ниша, в которой я, да и большинство посетителей моего блога, пользователей моего софта, зарабатываем, очень тесно связана с проблемами автоматического морфоанализа. Очевидно, что поисковые системы, в частности Яндекс, на сегодня являются двигателями прогресса в этой области. SEO-специалисты, в свою очередь, – это такие микробы, которые вынуждают поисковики вырабатывать «иммунитет». Чем больше мы говна генерируем, тем более совершенными должны быть методы анализа информации. Тут и практические задачи – с одной стороны генерация псевдоконтента, синонимайзинг, по ту сторону – анализ информации, десинонимайзинг, категоризация, вопросы трастовости и определения первоисточника. Кстати о синонимайзинге – я лично считаю, что написание этого модуля для моей программы – это шаг, конечно, популистский, нежели полезный, т.к. очевидно, что тот-же Яндекс, помимо лемматизации контента, вполне способен приводить текст и к некоторым лексическим «леммам» (незнаю, каким словом это правильно называется, а в wiki лезть неохота). Т.е. задача десинонимайзинга решается аналогично синонимайзингу и полне возможно, что уже решена, пока мы тут в своем муравейнике велосипеды изобретаем. Ну не суть, на продажи это явно положительно повлияет. Так о чем я..
Так вот, тема настолько обширна, что от решения практических задач я пока очень удалился, а занят теорией. Насколько я понял – проблемами автоматического морфоанализа русского языка никто в открытом для общественности виде и не занимается. Понятно, что поисковики и коммерческие разработчики вовсю роют. В инете в поисках словаря Зализняка, который является отправной точкой в работе над системами морфоанализа, наткнулся на такой интересный ресурс. Но вот незадача, его автор и исследователь умер в 2005 году. Есть еще Парсер Mystem под крылом Яндекса, но опять-же, данных для анализа в свободном доступе нет вообще, можно лишь прикинуть, как они описывают данные в базе. Смешно, но базовая задача – реализация принципов, изложенных Зализняком и сбор данных, решена уже не раз, но велосипед приходится изобретать снова и снова, т.к. делиться никто не спешит.
Вобщем, почему я не пишу в блоге часто – понятно. Почему бабло против любопытства – потому что, вместо того, чтоб заниматься практическими задачами и отрабатывать рутину за деньги заказчиков, я переместился в область, страшно сказать, академических знаний, и копаться в этом мне очень нравится. Плохо то, что будет ли результат и когда он будет, какой он будет – хрен его знает. А хрен в карман не положишь.
Март 31st, 2008 в 8:33 пп
может это слово- стемминг ?
интересно конечно ! спасибо за интересную ссылку.
при имеющихся базах синонимов – без использования морфологии – результаты не очень читаемы
либо нужно подбирать синонимы которые не меняются и не зависят от падежей родов и т.д.
вообще слы�?ал что в английском языке эта задача легче ре�?аема