Блог им. afecn19

NLP, сантименты, фондовый рынок.

Решил покопаться в парсинге и сантиментах. То бишь пишем код, который цепляется к какому то сайту, выкачивает оттуда новости, а затем на ее основе делаем сантимент анализ и строим какие то прогнозы. Полистал иностранную литературу (на русском ничего не нашел, если у кого есть ссылки — кидайте), и нашел 2 схемы оценки сантиментов для фондовых рынков. Первое это Natural Language Processing, которые на основе ЛИНГВИСТИЧЕСКОГО анализа оценивают текст — позитивный он, негативный, или нейтральный.  Вторая схема — когда ты читаешь новости и вручную ставишь лейблы — позитивные это новости для фондового (или какой то конкретной бумажки) или негативные. А затем векторизация и уже на новых новостях железный болван ставит лейблы сам. Из прочитанного мною, нигде в заключении вроде не писали о каких то позитивных результатах, но чтобы не стоять на месте и узнать что, то новое, разобрать эту тему все равно будет полезно.
Все что я пишу очень сыро и пишу в том числе чтобы самому структурировать для себя эту новую тему и получить отклик от людей которые этим занимались.
Какие вижу траблы — во первых все найденные коды для анализа новостей на английском, а торгую я на отечественной бирже. А заниматься хочется именно чем то прикладным, хотя бы гипотетически полезным. Есть на пайтоне библиотека dostoevsky, работающая с русским языком, но поставить мне ее не получилось. Во вторых — откуда скачивать финансовые новости? Я принципиально не читаю новости, так как не хочу вносить хаос в свой уютный внутренний мир алготрейдера сопли, хейт, балобольство внешнего мира. Поэтому так сразу и не скажу откуда можно выкачать какой то длинный архив новостей касающийся отечественных компаний. Если кто в курсе — подсказывайте. 
 
★2
27 комментариев
посмотреть рекомендации аналитиков и сделать наоборот )))
avatar
Pringles, ну дык почему нет?! главное перед этим получить оценки что это работает
avatar
Марат, 
100% работает!
все думают одинаково и логично, а потом большинство сливает
если бы все были в плюсе, значит аналитики не врут 
avatar
Не самый быстрый способ обогащения на рынке ты выбрал
Тимофей Мартынов, а ты знаком с таким опытом? пришел и сразу зарубил тему. А было интересно
avatar
Андрей К, вово. тем более поюзать новую тему, скилы прокачать — уже польза )
avatar
Андрей К, ну почему сразу зарубил то)

Мне кажется, задача неподъемная для одного человека. Собрать нормальный датасет будет сложно.

Положительный выхлоп под большим вопросом. Видел пару соревнований, где была макетдата и новости — выйгрышные решения новости не использовали. Новости сильно отстают по времени, даже для супер специальных источников. А вы скорее сможете использовать что-то страшно казуальное, так как не потянете подписку на платные фиды с оперативными новостными потоками. 

Наиболее известная библиотека для русского NLP deep pavlov.

avatar
Михаил, ну так присоединяйтесь. с вас парсинг, с меня оценка сантимента)

avatar
Михаил, так слово сантимент вроде как говорит о том, что тут скорость не нужна. То что отстают, не так страшно
avatar
Андрей К, реакция на информацию обычно очень быстрая. Если вы данные о новостях получаете с сильной задержкой, то вся информация уже будет в ценах. Цены анализировать гораздо проще, чем построить нормальную NLP модель. 
avatar
Михаил, «торговля на фундаменте» — это не скальпинг памп-энд-дампов, это долгосрочные стратегии, на годы, не менее. Когда Илон вошел в рынок с Теслой, первая волна новостей была весьма скептической. По мере входа в рынок Родстера и заявления планов на новые модели, общий фон комментариев «теплел», а когда Илон заявил свои амбиции войти в список крупнейших мировых производителей — новостные ленты бились в экстазе. Это было в начале 2016 года, на анонсе Модел3.
В 2020 году Тесла сделала капитализацию х7 за год.
Аналогичная фигня с Джеком Ма и со Стивом Джобсом. Между экстазом в новостных лентах и стабильными иксами в год по капитализации — проходили годы.

Это просто для общего понимания горизонтов инвестирования по новостному фону.
avatar
Kolya Marketolog, ключевой вопрос — добавляет ли новостной фон какое-нибудь велью по сравнению просто с наблюдением за котировками, объемами сделок, открытым интересом по опционами и фьючерсами и другой маркет датой. У меня большое сомнение, что новости могут чего-то предсказать на много лет вперед, что не будет видно в маркет дате. 

Второй вопрос, окупает ли это добавочное велью затраты на сбор данных и построение NLP модели для извлечение этого велью. 

Добавочное велью в направленных моделях, если и есть всегда очень невелико. Издержки построения модели для крупного фонда наверное незначительны, так как он и так имеет все необходимые фиды с нвостями. Для физика они на мой взгляд совершенно неподъемны. 

avatar
Михаил, я вам навскидку озвучу идею. Вот допустим российский неликвид. И вдруг этот нелеквид начинает резко расти, объемы появляются. Я задаю вопрос — а был ли перед этим какой то возросший информационный шум вокруг этой фишки? Стоит потестить идею и создать какой то фильер который отслеживает динамику новостей вокруг той или иной фишки? По моему стоит. Ну хотя бы в «академических целях». А есть другие примеры когда фишка переставала показывать волатильность. Вот например я физически ощущал как ВТБ была своего рода провинциальным отражением Сбера. Сбер носила туда сюда, а ВТБ просто замерз. Было ли этому отражение в новостном потоке?! Незнаю. Но почему бы и не глянуть… в «академических целях» так сказать ))
avatar
Марат, в эшелонах обычно новости держат до последнего (кроме как вход нового крупного акционера, здесь утаить нельзя по закону), так как там сложно войти. Входят долго и муторно на внебиржевом рынке. Потом вбрасывается новость, когда уже входить поздно
avatar
Марат,  тоже пытался смотреть в этом направлении. Пришел к выводу, что, в паре инфошум и цена, цена первична. Объем информационного шума сильно коррелирует с волатильностью.
avatar
Sergey_B, а это «пробовал смотреть» вылилось в какие то коды, програмы, результаты?

avatar
Марат, в 2007-м это было. Пытался смотреть ленту аналитики и комментариев Финама. Считал встречаемость упоминания компаний. 
Скриптов не сохранилось. Осталось только вышеозначенное мнение.
avatar
Михаил, в топике речь про сантимент, который формируется не одну торговую сессию
avatar
Михаил, Нуу, разные же подходы возможны. Можно в духе hft пытаться быстрее всех понять, что за новость и отыграть. Т.е. быстро сообразить, что щас будет делать толпа, которая «руками» новость читает. И сделать это первым — да, там важна технологическая гонка и нужна команда, ресурсы и все прочее такое, вероятно. Но это слишком в лоб, можно процессить новостной фон и, извлекать из него разные фичи, которые уже потом в обычный бустинг, например заряжать. Если раздвинуть горизонт, вполне, уверен, можно для медленных алгоритмов использовать.
avatar
Replikant_mih, Скальпить на новостях — путь в никуда.
avatar
Михаил, ещё natasha есть), легче, быстрее, чуть слабее.
avatar
Дорогие товарищи, напишу всем сразу. Я не против любых экспериментов, если они приносят деньги или интеллектуальное удовлетворение. 

При этом у меня большое сомнение, что сентимент который что-то формирует на долго не будет виден в маркет дате — динамике цен, объемов, открытых интересов в производных инструментах и т.д.

Маркет дату для физика получать не сложно. Даже достаточно сложные DL модели на маркет дате можно вертеть на достаточно простом компе. 

Получить хорошие данные для NLP моделей непросто даже в нефинансовой сфере, где люди часто объединяются всем миром и создают специальные общественные датасеты. 

Нормальные NLP модели очень тяжелые, для них нужны специальные компьютеры. 

С учетом этого имхо, для физика это все не сильно доступно с прикладной точки зрения извлечения дополнительного дохода. Для интеллектуального развлечения — почему бы и нет.
avatar
Когда то уже упоминалось, на кагле был челендж от 2sigma, как раз что бы по новостям выбирать нужные бумаги в портфель. Однако, или же задача поставлена была не верно или же людям не удалось все это как то применить, так как информация о цене несла куда больше информации. 

Еще есть варинт попроще, но наверное с вашим брокером не прокатит, у ИБ все мелкие новости имеют уже уровень сентимента или рейтинг, не знаю как они его считают, вот можно на нем попробовать, а уж русские или не русские компании брать, мне кажется это дело 10е )
avatar
CloseToAlgoTrading, Да, торгуют люди, даже если институционалы или роботы, за ними все равно люди, информационный фон закладывается, отыгрывается. Ну как минимум можно искать расхождения, фон есть, а движа нет? — спред, вероятно, скорее схлопнется, чем нет. Или есть движ, а фона нет — аналогично схлопнется.
avatar
CloseToAlgoTrading, да это обычная история для Каггл. Сортировать кошечек и собачек и прочую непрактичную хню они научились, а как доходит то чего то реального (а трейдинг это реально, потому что там деньги можно выкачивать), то тут у них что то не поулчается
avatar

теги блога Марат

....все тэги



UPDONW
Новый дизайн