В России, в Институте системного программирования, создана и успешно используется новейшая компьютерная система, с помощью которой можно в автоматическом режиме проводить лингвистический анализ текстов на английском и русском языках, осуществлять информационный поиск, а также анализировать мнения, представленные в текстах. Называется система «Текстерра».
Система способна обрабатывать неформальные сообщения из социальных сетей и анализировать их. Система оперирует 7-ю миллионами понятий. В Британской энциклопедии содержится 65 тыс. понятий. База знаний «Текстерры» пополняется автоматически на основе информации из интернет-энциклопедии Википедия и таких ресурсов, как MediaWiki и LinkedData.
«Текстерра» состоит из трех основных модулей: лингвистического анализа, извлечения информации, а также анализа мнений.
Первый модуль содержит базовые алгоритмы анализа текста: определение языка текста, разбиение текста на предложения, синтаксический разбор, исправление орфографических ошибок и опечаток.
Второй модуль ориентирован на извлечение фактической информации из текстов. Например, с помощью этого модуля можно выбрать конкретного человека из нескольких однофамильцев, даже если в тексте указана только фамилия. Функция выделения ключевой сущности, к которой может относиться конкретный человек или определенное место, позволяет выбрать из множества найденных значений те, которые являются наиболее существенными для данного текста.
Третий модуль включает алгоритмы анализа эмоциональной окраски текста в целом. Модуль нужен для работы с социальными сетями и обычно применяется к коротким или развернутым комментариям, отзывам и даже хештэгам. Например, если нужно собрать максимум информации о публичной персоне, «Текстерра» анализирует массив страниц, выделяя только упоминания нужного человека. Причем система заметит все упоминания, даже если в документе нет фамилии интересующей персоны, но указана его должность или о нем сказано иносказательно, на языке сленга.
Система умеет самостоятельно формулировать вопросы в социальных сетях для получения дополнительных сведений об интересующей персоне, и анализировать реакцию пользователей на опубликованную системой информацию.
Первые испытания «Текстерры» на английском проходили в мае-июне 2016 года. Несмотря на неожиданный результат, испытания системы были признаны успешными на состоявшемся заседании Совета Безопасности РФ. После внесения разработчиками необходимых изменений и с учётом рекомендаций, данных СБ РФ, система была повторно запущена осенью того же 2016 года.
В настоящее время система используется в прикладных целях в поисках утечек информации в государственных органах, в банковской сфере, в ВПК. Принято решение адаптировать «Текстерру» с целью использования японского и корейского языков. Сегодня система является единственной, которая может не просто читать текст, а вдумываться в смысл написанного.
нет.
да, но они что-то пытаются сделать своё, и, судя по всему, чего-то добились. В любом случае, это лучше чем ничего не делать.
не готов обсуждать качество проекта.
С другой стороны, если это уровень студенческой курсовой, почему бы этим студентам не собраться и сделать что-то выдающееся?