Для общего развития. Мы, конечно, ватники. Особенно в IT.

В России, в Институте системного программирования, создана и успешно используется новейшая компьютерная система, с помощью которой можно в автоматическом режиме проводить лингвистический анализ текстов на английском и русском языках, осуществлять информационный поиск, а также анализировать мнения, представленные в текстах. Называется система «Текстерра».

Система способна обрабатывать неформальные сообщения из социальных сетей и анализировать их. Система оперирует 7-ю миллионами понятий. В Британской энциклопедии содержится 65 тыс. понятий. База знаний «Текстерры» пополняется автоматически на основе информации из интернет-энциклопедии Википедия и таких ресурсов, как MediaWiki и LinkedData.

«Текстерра» состоит из трех основных модулей: лингвистического анализа, извлечения информации, а также анализа мнений.

Первый модуль содержит базовые алгоритмы анализа текста: определение языка текста, разбиение текста на предложения, синтаксический разбор, исправление орфографических ошибок и опечаток.

Второй модуль ориентирован на извлечение фактической информации из текстов. Например, с помощью этого модуля можно выбрать конкретного человека из нескольких однофамильцев, даже если в тексте указана только фамилия. Функция выделения ключевой сущности, к которой может относиться конкретный человек или определенное место, позволяет выбрать из множества найденных значений те, которые являются наиболее существенными для данного текста.

Третий модуль включает алгоритмы анализа эмоциональной окраски текста в целом. Модуль нужен для работы с социальными сетями и обычно применяется к коротким или развернутым комментариям, отзывам и даже хештэгам. Например, если нужно собрать максимум информации о публичной персоне, «Текстерра» анализирует массив страниц, выделяя только упоминания нужного человека. Причем система заметит все упоминания, даже если в документе нет фамилии интересующей персоны, но указана его должность или о нем сказано иносказательно, на языке сленга.

Система умеет самостоятельно формулировать вопросы в социальных сетях для получения дополнительных сведений об интересующей персоне, и анализировать реакцию пользователей на опубликованную системой информацию.

Первые испытания «Текстерры» на английском проходили в мае-июне 2016 года. Несмотря на неожиданный результат, испытания системы были признаны успешными на состоявшемся заседании Совета Безопасности РФ. После внесения разработчиками необходимых изменений и с учётом рекомендаций, данных СБ РФ, система была повторно запущена осенью того же 2016 года.

В настоящее время система используется в прикладных целях в поисках утечек информации в государственных органах, в банковской сфере, в ВПК. Принято решение адаптировать «Текстерру» с целью использования японского и корейского языков. Сегодня система является единственной, которая может не просто читать текст, а вдумываться в смысл написанного.

avror

Санкт-Петербург

3 925

с 12 марта 2013

12 Комментариев

avror
09 сентября 2018, 16:37
Ждун,
ничего удивительного.
В наркотиках совсем не разбираюсь.
+2
Константин
09 сентября 2018, 16:37
А нельзя адаптировать «Текстерру» для поиска казнокрадов/распильщиковБюджета/друзей наитемнейшего?
0
Александр Свирский
09 сентября 2018, 17:14
153 от меня
+1
Ivan not Great, not Terrible
09 сентября 2018, 17:39
Знаком с этим проектом и тем кто его делает. Довольно тривиальная поделка на опен-сорс нейронках. Несколько лет безуспешно пытались ее монетизировать на коммерческих заказчиках, ничего не вышло. Сейчас видимо нашли кому можно вешать лапшу на уши — достаточно просто посмотреть на состав и возраст Совбеза.
0

Читайте на SMART-LAB:

NAT.GAS: Газовый арбитраж на пороге взрыва — зажжет ли Европа американский хаб?

На европейских рынках котировки на природный газ (TTF) сегодня взлетели на 45%, превысив отметку €46/МВт·ч ($570 за 1000 м³). Европа критически зависит от танкеров из Катара, которые сейчас...

Tickmill

02.03.2026

Подводим итоги по вводу жилья с начала года

Друзья, мы продолжаем делиться результатами нашей работы и сегодня подводим итоги по вводу с начала года. 🔥 Поддерживаем высокий темп: за январь-февраль этого года мы передали клиентам 5 445...

Самолет

02.03.2026

Сегмент Non-Life RENI опубликовал отчетность по ОСБУ за 2025 год

Сегодня на e-disclosure.ru мы опубликовали отчетность ПАО «Группа Ренессанс Страхование» по ОСБУ за 12 месяцев 2025 года, которая включает в себя только наш бизнес по Non-Life. Операции по...

Ренессанс страхование

02.03.2026

Мой Рюкзак #64: Усиление в банковском секторе в ожидании справедливой переоценки

Февраль продолжает радовать стоимостных и смелых инвесторов Прошлый пост тут — smart-lab.ru/company/mozgovik/blog/1265828.php Было 26,3 млн на 13.02.25 Стало...