
Лаборатория искусственного интеллекта «Финама» представила масштабное исследование, в рамках которого был создан новый стандарт для оценки нейросетей в финансовой сфере. Эксперты разработали уникальный набор бенчмарков для проверки качества моделей, включающий 4 общедоступных и 7 собственных наборов данных. Эти тесты имитируют реальные экзамены для аналитиков и задачи трейдеров, что позволяет максимально объективно оценить способности ИИ-моделей к работе с финансовыми инструментами.
Проблема, с которой столкнулись исследователи, заключалась в том, что существующие «академические» тесты для ИИ не отражали их реальных способностей в узкоспециализированной области. В публикациях крупных игроков рынка ИИ обычно демонстрируются впечатляющие результаты, однако тесты экспертов «Финама» показали неожиданную картину: разница в качестве между моделями оказалась огромной. Модели с высокими баллами в теории нередко проваливались на практических задачах. Интересно, что наблюдалась и обратная ситуация. Например, ряд моделей, которые многие считали не самыми удачными, продемонстрировала неожиданно хорошие результаты в финансовой сфере.
Чтобы получить реалистичную оценку, в «Финаме» создали собственные, более сложные «экзамены». В их основу легли:
Ключевые результаты тестирования
Исследование подтвердило лидерство OpenAI. Их модели по-прежнему демонстрируют высокие результаты при работе с финансовыми задачами. Кроме того, особенно перспективными выглядят новые модели Minimax. При этом отечественные модели показывают разные результаты: есть как успехи, так и не самые обнадеживающие показатели.
В ближайшее время Лаборатория ИИ «Финама» планирует опубликовать результаты своих работ по улучшению моделей в области финансов. Сейчас команда занимается систематизацией полученных данных, которые обещают быть крайне информативными для всего сообщества.
Открытость для всех
Важнейшим итогом проекта стал не только рейтинг моделей. Команда Лаборатории ИИ «Финама» сделала все свои наработки — тесты, методику оценки и результаты — полностью открытыми, опубликовав их на GitHub. Это уникальный шаг для финансового сектора, поскольку подобных материалов еще нет в открытом доступе, а их создание требует значительных инвестиций и экспертизы. Таким образом, «Финам» становится активным участником глобального развития искусственного интеллекта, внося ощутимый вклад в эволюцию технологий ИИ в финансовой сфере.
«Наша цель — создать открытый и объективный стандарт оценки LLM в финансах, который будет развиваться вместе с сообществом. Теперь любой разработчик или компания может использовать этот “финансовый ЕГЭ”, чтобы проверить свою модель и внести вклад в развитие технологии», — подчеркивает лидер проекта, руководитель Лаборатории искусственного интеллекта «Финама» Дмитрий Змитрович.
❗ Еще больше деталей проекта — на «Хабре».
✅ Подписывайтесь на телеграм-канал Финам Инвестиции и Торговые сигналы