Блог о заработке на контекстной рекламе, интернет-стартапах и поисковом продвижении сайтов - MakeBusiness.Ru
27 Фев
Давно не писал новых сообщений в блоге, все боль?е комментарии об очередных обновлениях в ветке о моем Article Copy Master‘е, посему ре?ил дать отписку.
Этот год неожиданно перевернул и продолжает переворачивать мои ценности вверх дном. Про?лый год принес мне жену, сына и хоро?ее бабло на ниве seo. Этот год начался с потери двух клиентов из-за проблем с неисполнением обязательств по позициям в Яндексе после декабрьских изменений в алгоритме. Чтобы возместить потери - я выпустил свой софт по размножению статей (вы?еупомянутый). ? вот, в погоне за новыми плю?ками, я опять столкнулся с необходимостью написания модуля для морфоанализа. Задача, изначально, достаточно прикладная - модуль-синонимайзер для программы размножения статей. Но простыми методами (без морфологии) ре?ать не хочется, ибо это тупик. А если идти правильным путем - то задача встает, вобщем-то, нетривиальная. Я уже очень давно облизываюсь на разработку полноценной библиотеки и базы для морфоанализа. Началось все n-цать лет назад, когда я бредил написанием игр и написал функцию для склонения имен по падежам для того, чтоб правильно в маде (MUD) писать “Вася(1) ударил Ма?у(2) мечом(3)”. Реализация, опять-же, была тупиковой, но работоспособной. Забавно, что ни?а, в которой я, да и боль?инство посетителей моего блога, пользователей моего софта, зарабатываем, очень тесно связана с проблемами автоматического морфоанализа. Очевидно, что поисковые системы, в частности Яндекс, на сегодня являются двигателями прогресса в этой области. SEO-специалисты, в свою очередь, - это такие микробы, которые вынуждают поисковики вырабатывать “иммунитет”. Чем боль?е мы говна генерируем, тем более совер?енными должны быть методы анализа информации. Тут и практические задачи - с одной стороны генерация псевдоконтента, синонимайзинг, по ту сторону - анализ информации, десинонимайзинг, категоризация, вопросы трастовости и определения первоисточника. Кстати о синонимайзинге - я лично считаю, что написание этого модуля для моей программы - это ?аг, конечно, популистский, нежели полезный, т.к. очевидно, что тот-же Яндекс, помимо лемматизации контента, вполне способен приводить текст и к некоторым лексическим “леммам” (незнаю, каким словом это правильно называется, а в wiki лезть неохота). Т.е. задача десинонимайзинга ре?ается аналогично синонимайзингу и полне возможно, что уже ре?ена, пока мы тут в своем муравейнике велосипеды изобретаем. Ну не суть, на продажи это явно положительно повлияет. Так о чем я..
Так вот, тема настолько об?ирна, что от ре?ения практических задач я пока очень удалился, а занят теорией. Насколько я понял - проблемами автоматического морфоанализа русского языка никто в открытом для общественности виде и не занимается. Понятно, что поисковики и коммерческие разработчики вовсю роют. В инете в поисках словаря Зализняка, который является отправной точкой в работе над системами морфоанализа, наткнулся на такой интересный ресурс. Но вот незадача, его автор и исследователь умер в 2005 году. Есть еще Парсер Mystem под крылом Яндекса, но опять-же, данных для анализа в свободном доступе нет вообще, можно ли?ь прикинуть, как они описывают данные в базе. Сме?но, но базовая задача - реализация принципов, изложенных Зализняком и сбор данных, ре?ена уже не раз, но велосипед приходится изобретать снова и снова, т.к. делиться никто не спе?ит.
Вобщем, почему я не пи?у в блоге часто - понятно. Почему бабло против любопытства - потому что, вместо того, чтоб заниматься практическими задачами и отрабатывать рутину за деньги заказчиков, я переместился в область, стра?но сказать, академических знаний, и копаться в этом мне очень нравится. Плохо то, что будет ли результат и когда он будет, какой он будет - хрен его знает. А хрен в карман не положи?ь.
Один отзыв на «Бабло против любознательности и немножко о морфоанализе»
может это слово- стемминг ?
интересно конечно ! спасибо за интересную ссылку.
при имеющихся базах синонимов - без использования морфологии - результаты не очень читаемы
либо нужно подбирать синонимы которые не меняются и не зависят от падежей родов и т.д.
вообще слы?ал что в английском языке эта задача легче ре?аема
Оставьте отзыв
Вы должны войти, чтобы оставить отзывы.