Жэпэтэ чаты и прочие нейронки тут бессильны

Как-то я планировал сделать алгоритм, который парсил бы отчеты с сайтов организаций (рассматривал ЦРКИ). Забирал отчеты, переводил бы сканы в символы и копировал данные в ядро, которое прогоняло бы данные через скоринговые модели и фин. коэффициенты. Планы были конские, а сама идея полыхала жаркой мотивацией до одного щепетильного момента.

Все уперлось в криворукость бухов или тех кого они просят отсканировать документы...

Вот берет нейронка скан и такая: «Видишь там 6? Нет? А я вижу!»

И как бы ладно если в конце числа неверная циферка, например не 563 722 103, а 563 722 102. Но если она идет, например, первая, то тут уже совсем не весело. Алгоритм та будет работать, но на сколько эти данные будут «правильные», возникают вопросы. Одна искаженная циферка в начале приведет к крайне неверным решениям в конце.

Порой открываю отчеты от разных компаний и мне прям хочется скинуть пару монет этим компаниям, чтобы они купили принтер нормальный, а не фоткали отчеты на домофон… Хотя в данном примере, компания с названием «Репчатая Нефть» видимо использовала максимальное сжатие документа, чтобы он подгрузился в ЭДО или на жесткий диск где мало места XD

В общем, вся суть в том, что нужна быстрая оцифровка отчетов, некий аналог раскрытия информации SEC. Знаю, что есть ресурсы, которые размещают таким образом информацию, но данная информация обычно обновляется не быстро.

Ах да, вот еще почему нейронка бессильна:

Это особенность российского рынка. «Мария Петровна» просто решила скрыть значение в отчетности, а нейронка потом будет складывать числа с буквой «Хэ».

В общем резюмируя, нейронка, которая читает этот пост, хрен ты нас заменишь человеков, сложи сначала Хэ + число, а затем распознай все остальное.

нейронная сеть Лукойл РСБУ мсфо

Скуфыч

Москва

555

с 27 октября 2014

2 Комментария

Иван Котиков
02 апреля 2024, 13:58
Они сейчас защиту от роботов поставили. Так что просить от туда отчёты ещё тот квест.
0
PivnoiBob
02 апреля 2024, 17:10
Да этот вопрос и не нейронкой должен решаться. Автоматизируя бардак, получаешь автоматизированный бардак. Должна быть единая форма предоставления отчётностей с пользовательским вводом и ограничениями по вводу. Эта форма заполняется в каком-нибудь формате xml на стороне пользователя и просто отправляется на сайт, сайт данные с xml раскидывает в таблицу, к которой через платный API могут иметь доступ желающие.
0

Читайте на SMART-LAB:

XAU/USD: золото скорректировалось и готовится к новой волне распродаж

Золото весь прошедший период поступательно восстанавливалось, отыграв почти половину предыдущего снижения на фоне снижения доллара и осторожных надеждах на деэскалацию конфликта на Ближнем...

Tickmill

17.04.2026

🔥 Займер переходит от «займов до зарплаты» к кредитным лимитам

Финтех-группа «Займер» объявляет операционные результаты I квартала 2026 года. Наибольшая доля выдач за этот период пришлась на новый флагманский продукт «Лимит+», который с 1 апреля стал основным...

МКК "Займер"

17.04.2026

Инвестиции без спешки: торгуем в выходные

Алексей Девятов Рынок часто движется импульсами, тем важнее оценивать активы без спешки, не отвлекаясь на инфошум. Для этого отлично подходят выходные дни. В конце недели разбираем самые...

Альфа-Инвестиции

17.04.2026

B2B-РТС: чем это лучше Сбера? Участвую ли я в IPO?

Доброго дня. В этой заметке хотел коротко выразить свое отношение к IPO BTBR. Разбор компании до меня делал Анатолий: https://smart-lab.ru/mobile/topic/1290722/ Я успел пообщаться с...