Replikant_mih
Replikant_mih личный блог
29 октября 2021, 11:32

ML в трейдинге, причины эффекта падения метрики качества с ростом вероятности.

К предыдущему посту с тоже конкретным ML вопросом получил отличный фидбек от толковых комментаторов, превзошло мои ожидания, очень круто, ещё раз всем спасибо! 

Уверен, что и по этому вопросу людям будет что сказать.


В общем использую ML для нахождения закономерностей в осмысленных признаках — так можно кратко описать мой подход). Так вот часто наблюдаю такие эффекты и не сформировал пока четкой позиции по их интерпретации, возможно, кто-то в эту сторону уже копал и как-то дальше продвинуться, буду рад почитать какие-то инсайты или просто рассуждения на эту тему. Добро пожаловать в комментарии опять.


Суть явления: всегда оцениваю зависимость между метрикой качества сигналов и вероятностью, выдаваемой моделью по сигналу. Хорошие признаки хорошая модель построит монотонно растущую зависимость. Может быть хаос вместо монотонного роста — значит модель не вывезла — или модель не алё, либо признаковое описание не але, либо слишком много признаков для такого кол-ва данных и т.д. Но часто даже если видно, что модель нащупала смысл в данных, начиная с какой-то вероятности наблюдаются разные явления.

А именно:

1. Начиная с некоторой вероятности, метрику качества начинает колбасить из-за того что кол-во случаев падает значительно. Тут все понятно, выборка становится нерепрезентативной, колебания объяснимы — вопросов нет. 

2. Закономерность явная, монотонность четкая, но на самых высоких значениях вероятности график зависимости начинает по непонятным причинам загибаться вниз, в отличии от (1) репрезентативность там нормальная, т.е. это не похоже на загиб связанный с нерепрезентативностью. Думал-думал, придумал возможное объяснения — такие ситуации на рынке выглядят для участников как верняковый верняк — все карты сходятся, вероятно или манипуляторы используют эту повышенную «верняковость» для развода толпы, либо — если без теорий заговора — эта же избыточная верняковость сама за счет естественных каких-то механик играет наоборот. 

Но, возможно, эти объяснения ни о чем и есть причины совсем другой природы. Что думаете?

3. Каким бы ни было «пустым» признаковое пространство, каким бы эффективным не был рынок, на котором тестишь, почти всегда сначала (на графике зависимости целевой метрики от вероятности, выдаваемой моделью, напомню) видно, что модель что-то нащупала и график начинает монотонно расти, но в какой-то момент опять начинается хаос. Этот не сильный, но рост графика выглядит закономерным — слишком часто это вижу и слишком явно это выглядит, но потом начинается хаос (опять таки на нормальных выборках, не про нерепрезентативность). Отличие от (2) — то что это более мимолетная схваченная связь и довольно быстро она пропадает. Тут я вообще теряюсь в догадках и не придумал, как интерпретировать.


Зачем этот вопрос и зачем исследовать эту зависимость в принципе — это ответ на вопросы:

— Сравнение моделей/стратегий между собой, сравнение разных таргетов, признаковых описаний, гипер-параметров модели и т.д.
— Оценка робастности.
— Оценка качества закономерности в целом.
— Наверняка, если понимать, причины поведения графика зависимости метрики от вероятности, можно осмысленно задействовать какие-то рычаги для улучшения модели!

В общем если есть что сказать по теме — добро пожаловать в комментарии!


P.S. Зависимость эту строю всегда на OOS.
32 Комментария
  • wrmngr
    29 октября 2021, 11:42
    звучит красиво. Просто любопытно удалось найти хоть одну tradeable закономерность, которая не описана как stylized fact (и является одной из стандартных risk premiums)? 
  • Sergey Pavlov
    29 октября 2021, 12:00
    оцениваю зависимость между метрикой качества сигналов и вероятностью
    разве это не одно и то же по смыслу?
  • wrmngr
    29 октября 2021, 12:49
    Сергей Сергаев, вот да, можно к примеру сделать short-vol trade (с целью сбора variance risk premium) тысячью разных способов на разных инструментах, но итоговый результат будет почти неотличим по risk-adjusted метрикам на дистанции
  • Пафос Респектыч
    29 октября 2021, 13:26

    Ты наверняка про дисперсию забыл. Всегда есть две чиселки — матожидание и дисперсия, ты смотришь только на оценку матожидания и радуешься что она у тебя выросла условно в 4 раза, а оценка дисперсии (и дисперсия оценки) в то же самое время могла вырасти тоже условно в 40 раз.

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн