Блог им. avror

Для общего развития. Мы, конечно, ватники. Особенно в IT.

    • 09 сентября 2018, 13:49
    • |
    • avror
  • Еще

В России, в Институте системного программирования, создана и успешно используется новейшая компьютерная система, с помощью которой можно в автоматическом режиме проводить лингвистический анализ текстов на английском и русском языках, осуществлять информационный поиск, а также анализировать мнения, представленные в текстах. Называется система «Текстерра».

 

Система способна обрабатывать неформальные сообщения из социальных сетей и анализировать их. Система оперирует 7-ю миллионами понятий. В Британской энциклопедии содержится 65 тыс. понятий. База знаний «Текстерры» пополняется автоматически на основе информации из интернет-энциклопедии Википедия и таких ресурсов, как MediaWiki и LinkedData.

 

«Текстерра» состоит из трех основных модулей: лингвистического анализа, извлечения информации, а также анализа мнений.

 

Первый модуль содержит базовые алгоритмы анализа текста: определение языка текста, разбиение текста на предложения, синтаксический разбор, исправление орфографических ошибок и опечаток.

 

Второй модуль ориентирован на извлечение фактической информации из текстов. Например, с помощью этого модуля можно выбрать конкретного человека из нескольких однофамильцев, даже если в тексте указана только фамилия. Функция выделения ключевой сущности, к которой может относиться конкретный человек или определенное место, позволяет выбрать из множества найденных значений те, которые являются наиболее существенными для данного текста.

 

Третий модуль включает алгоритмы анализа эмоциональной окраски текста в целом. Модуль нужен для работы с социальными сетями и обычно применяется к коротким или развернутым комментариям, отзывам и даже хештэгам. Например, если нужно собрать максимум информации о публичной персоне, «Текстерра» анализирует массив страниц, выделяя только упоминания нужного человека. Причем система заметит все упоминания, даже если в документе нет фамилии интересующей персоны, но указана его должность или о нем сказано иносказательно, на языке сленга.

Для общего развития. Мы, конечно, ватники. Особенно в IT.

 

Система умеет самостоятельно формулировать вопросы в социальных сетях для получения дополнительных сведений об интересующей персоне, и анализировать реакцию пользователей на опубликованную системой информацию.

 

Первые испытания «Текстерры» на английском проходили в мае-июне 2016 года. Несмотря на неожиданный результат, испытания системы были признаны успешными на состоявшемся заседании Совета Безопасности РФ. После внесения разработчиками необходимых изменений и с учётом рекомендаций, данных СБ РФ, система была повторно запущена осенью того же 2016 года.

 

В настоящее время система используется в прикладных целях в поисках утечек информации в государственных органах, в банковской сфере, в ВПК. Принято решение адаптировать «Текстерру» с целью использования японского и корейского языков. Сегодня система является единственной, которая может не просто читать текст, а вдумываться в смысл написанного.

 


Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.

    487
    12 комментариев
    Ждун,
    ничего удивительного.
    В наркотиках совсем не разбираюсь.
    avatar
    А нельзя адаптировать «Текстерру» для поиска казнокрадов/распильщиковБюджета/друзей наитемнейшего?
    avatar
    Константин Коновалов, 
    нет.
    avatar
    Константин Коновалов, вот интересно откуда такие *ебилы как ты повылазили?! Где вы были когда орудовали казнокрады, распильщики бюджета и друзья американского резидента Ельцина?! Сидели в какой-то норе до приказа из Вашингтона?! *ебилы, бля!
    153 от меня
    Александр Свирский, 
    спасибо. Свои тимофейчики я сразу же раздал, теперь буду тратить Ваши. :-)
    avatar
    Знаком с этим проектом и тем кто его делает. Довольно тривиальная поделка на опен-сорс нейронках. Несколько лет безуспешно пытались ее монетизировать на коммерческих заказчиках, ничего не вышло. Сейчас видимо нашли кому можно вешать лапшу на уши — достаточно просто посмотреть на состав и возраст Совбеза. 
    avatar
    Radovid the Stern, 
    да, но они что-то пытаются сделать своё, и, судя по всему, чего-то добились. В любом случае, это лучше чем ничего не делать.
    avatar
    avror, Ну как сказать. За государственные деньги они сделали поделку, которую сейчас делают студенты в качестве курсовой. Не уверен что это лучше чем делать ничего. 
    avatar
    Radovid the Stern, 
    не готов обсуждать качество проекта.

    С другой стороны, если это уровень студенческой курсовой, почему бы этим студентам не собраться и сделать что-то выдающееся?
    avatar
    Естественно власть будет использовать для себя, против вражин.))
    avatar

    Читайте на SMART-LAB:
    Фото
    Доллар держит позицию, но теряет импульс перед отчетом по занятости
    Евро в пятницу показывает уверенный рост против доллара, хотя новостной фон формально не выглядит благоприятным для риска. Рынок получил новый...
    Селигдар не будет платить дивиденды за 2025 год
    Совет директоров Селигдара ожидаемо отказался от дивидендных выплат за 2025 год. Решение полностью укладывается в финансовую картину компании. По...
    Фото
    Блогерам рассчитали пенсию
    По данным опроса RENI, чуть больше половины россиян полностью полагаются на госпенсию. Свыше трети респондентов ответили, что пока только...
    Фото
    Исповедь по Магниту: пришло время каяться за свои грехи. Самый подробный разбор отчета за 2025 год 
    Магнит — это как сыр с плесенью. Удовольствие для гурманов 😁 Примитивная оценка акций Магнита делается через мультипликатор EV/EBITDA...

    теги блога avror

    ....все тэги



    UPDONW
    Новый дизайн