Марат
Марат личный блог
19 января 2021, 09:08

NLP, сантименты, фондовый рынок.

Решил покопаться в парсинге и сантиментах. То бишь пишем код, который цепляется к какому то сайту, выкачивает оттуда новости, а затем на ее основе делаем сантимент анализ и строим какие то прогнозы. Полистал иностранную литературу (на русском ничего не нашел, если у кого есть ссылки — кидайте), и нашел 2 схемы оценки сантиментов для фондовых рынков. Первое это Natural Language Processing, которые на основе ЛИНГВИСТИЧЕСКОГО анализа оценивают текст — позитивный он, негативный, или нейтральный.  Вторая схема — когда ты читаешь новости и вручную ставишь лейблы — позитивные это новости для фондового (или какой то конкретной бумажки) или негативные. А затем векторизация и уже на новых новостях железный болван ставит лейблы сам. Из прочитанного мною, нигде в заключении вроде не писали о каких то позитивных результатах, но чтобы не стоять на месте и узнать что, то новое, разобрать эту тему все равно будет полезно.
Все что я пишу очень сыро и пишу в том числе чтобы самому структурировать для себя эту новую тему и получить отклик от людей которые этим занимались.
Какие вижу траблы — во первых все найденные коды для анализа новостей на английском, а торгую я на отечественной бирже. А заниматься хочется именно чем то прикладным, хотя бы гипотетически полезным. Есть на пайтоне библиотека dostoevsky, работающая с русским языком, но поставить мне ее не получилось. Во вторых — откуда скачивать финансовые новости? Я принципиально не читаю новости, так как не хочу вносить хаос в свой уютный внутренний мир алготрейдера сопли, хейт, балобольство внешнего мира. Поэтому так сразу и не скажу откуда можно выкачать какой то длинный архив новостей касающийся отечественных компаний. Если кто в курсе — подсказывайте. 
 
27 Комментариев
  • Pringles
    19 января 2021, 09:11
    посмотреть рекомендации аналитиков и сделать наоборот )))
  • Тимофей Мартынов
    19 января 2021, 09:14
    Не самый быстрый способ обогащения на рынке ты выбрал
  • Михаил
    19 января 2021, 09:24

    Мне кажется, задача неподъемная для одного человека. Собрать нормальный датасет будет сложно.

    Положительный выхлоп под большим вопросом. Видел пару соревнований, где была макетдата и новости — выйгрышные решения новости не использовали. Новости сильно отстают по времени, даже для супер специальных источников. А вы скорее сможете использовать что-то страшно казуальное, так как не потянете подписку на платные фиды с оперативными новостными потоками. 

    Наиболее известная библиотека для русского NLP deep pavlov.

  • CloseToAlgoTrading
    19 января 2021, 11:18
    Когда то уже упоминалось, на кагле был челендж от 2sigma, как раз что бы по новостям выбирать нужные бумаги в портфель. Однако, или же задача поставлена была не верно или же людям не удалось все это как то применить, так как информация о цене несла куда больше информации. 

    Еще есть варинт попроще, но наверное с вашим брокером не прокатит, у ИБ все мелкие новости имеют уже уровень сентимента или рейтинг, не знаю как они его считают, вот можно на нем попробовать, а уж русские или не русские компании брать, мне кажется это дело 10е )

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн