Replikant_mih
Replikant_mih личный блог
29 октября 2021, 11:32

ML в трейдинге, причины эффекта падения метрики качества с ростом вероятности.

К предыдущему посту с тоже конкретным ML вопросом получил отличный фидбек от толковых комментаторов, превзошло мои ожидания, очень круто, ещё раз всем спасибо! 

Уверен, что и по этому вопросу людям будет что сказать.


В общем использую ML для нахождения закономерностей в осмысленных признаках — так можно кратко описать мой подход). Так вот часто наблюдаю такие эффекты и не сформировал пока четкой позиции по их интерпретации, возможно, кто-то в эту сторону уже копал и как-то дальше продвинуться, буду рад почитать какие-то инсайты или просто рассуждения на эту тему. Добро пожаловать в комментарии опять.


Суть явления: всегда оцениваю зависимость между метрикой качества сигналов и вероятностью, выдаваемой моделью по сигналу. Хорошие признаки хорошая модель построит монотонно растущую зависимость. Может быть хаос вместо монотонного роста — значит модель не вывезла — или модель не алё, либо признаковое описание не але, либо слишком много признаков для такого кол-ва данных и т.д. Но часто даже если видно, что модель нащупала смысл в данных, начиная с какой-то вероятности наблюдаются разные явления.

А именно:

1. Начиная с некоторой вероятности, метрику качества начинает колбасить из-за того что кол-во случаев падает значительно. Тут все понятно, выборка становится нерепрезентативной, колебания объяснимы — вопросов нет. 

2. Закономерность явная, монотонность четкая, но на самых высоких значениях вероятности график зависимости начинает по непонятным причинам загибаться вниз, в отличии от (1) репрезентативность там нормальная, т.е. это не похоже на загиб связанный с нерепрезентативностью. Думал-думал, придумал возможное объяснения — такие ситуации на рынке выглядят для участников как верняковый верняк — все карты сходятся, вероятно или манипуляторы используют эту повышенную «верняковость» для развода толпы, либо — если без теорий заговора — эта же избыточная верняковость сама за счет естественных каких-то механик играет наоборот. 

Но, возможно, эти объяснения ни о чем и есть причины совсем другой природы. Что думаете?

3. Каким бы ни было «пустым» признаковое пространство, каким бы эффективным не был рынок, на котором тестишь, почти всегда сначала (на графике зависимости целевой метрики от вероятности, выдаваемой моделью, напомню) видно, что модель что-то нащупала и график начинает монотонно расти, но в какой-то момент опять начинается хаос. Этот не сильный, но рост графика выглядит закономерным — слишком часто это вижу и слишком явно это выглядит, но потом начинается хаос (опять таки на нормальных выборках, не про нерепрезентативность). Отличие от (2) — то что это более мимолетная схваченная связь и довольно быстро она пропадает. Тут я вообще теряюсь в догадках и не придумал, как интерпретировать.


Зачем этот вопрос и зачем исследовать эту зависимость в принципе — это ответ на вопросы:

— Сравнение моделей/стратегий между собой, сравнение разных таргетов, признаковых описаний, гипер-параметров модели и т.д.
— Оценка робастности.
— Оценка качества закономерности в целом.
— Наверняка, если понимать, причины поведения графика зависимости метрики от вероятности, можно осмысленно задействовать какие-то рычаги для улучшения модели!

В общем если есть что сказать по теме — добро пожаловать в комментарии!


P.S. Зависимость эту строю всегда на OOS.
32 Комментария
  • wrmngr
    29 октября 2021, 11:42
    звучит красиво. Просто любопытно удалось найти хоть одну tradeable закономерность, которая не описана как stylized fact (и является одной из стандартных risk premiums)? 
      • wrmngr
        29 октября 2021, 12:24
        Replikant_mih, При таком подходе есть серьезная опасность получить набор разных на первый взгляд паттернов, но которые будут сонаправленны по риск-факторам и это не очень хорошо
          • wrmngr
            29 октября 2021, 12:30
            Replikant_mih, корреляции по эквити это вершина айсберга. Нужно понимать чувствительности портфеля к разным параметрам. А в такие блекбоксах это неочевидная вещь
              • wrmngr
                29 октября 2021, 12:43
                Replikant_mih, да, это, но чуть более общий уровень — чувствительность к изменению ставок денежного рынка например или внезапному джампу цены, режиму волы. В общем разные греки + макрофакторы +микроструктурные эффекты
          • wrmngr
            29 октября 2021, 12:33
            Replikant_mih, и разбиение на типы признаков здесь не особо помогает
              • wrmngr
                29 октября 2021, 12:45
                Replikant_mih, не спасает конечно, но когда правила явным образом заданы, то все понятно по рискам
    • A2format
      29 октября 2021, 12:04
      wrmngr,

      Просто любопытно удалось найти хоть одну tradeable закономерность, которая не описана как stylized fact (и является одной из стандартных risk premiums)?

      Если pattern и найдена, то the author она unlikely будет distribute всем free.
      • wrmngr
        29 октября 2021, 12:10
        A2format, я и не прошу full disclosure, токмо сам факт наличия obviously
        • A2format
          29 октября 2021, 12:26
          wrmngr, Да, of course.
  • Sergey Pavlov
    29 октября 2021, 12:00
    оцениваю зависимость между метрикой качества сигналов и вероятностью
    разве это не одно и то же по смыслу?
  • Пафос Респектыч
    29 октября 2021, 13:26

    Ты наверняка про дисперсию забыл. Всегда есть две чиселки — матожидание и дисперсия, ты смотришь только на оценку матожидания и радуешься что она у тебя выросла условно в 4 раза, а оценка дисперсии (и дисперсия оценки) в то же самое время могла вырасти тоже условно в 40 раз.

      • Пафос Респектыч
        29 октября 2021, 13:58
        Replikant_mih, что почему, очень просто — у точек с большой доходностью дисперсия больше, там волатильность больше, колбаснуть может как в одну так и в другую сторону, процесс-то случайный ) да и точек таких меньше как ни крути.
  • SergeyJu
    29 октября 2021, 14:01
    Может, Вы используете и стандартные метрики, но хотелось бы понять, какие именно. 
      • Пафос Респектыч
        29 октября 2021, 14:34
        Replikant_mih, это не статистические метрики, ты вообще не туда смотришь )
          • Пафос Респектыч
            29 октября 2021, 15:27

            Replikant_mih, да какой ты трейдер, не смеши )

            Прежде чем строить на основе модели ТС, тебе надо убедиться что твоя модель вообще работает, чисто с математической точки зрения. Для этого считают всякие показатели ошибок, статистические тесты смотрят, статистическую значимость, вот это вот всё. Потому что если у тебя сама модель не работает, то ТС на её основе будет торговать случайно.

            Все элементы ТС из которых она состоит должны быть работоспособны и проверены по отдельности ещё до того как их собирать всех вместе и смотреть что получается, иначе можно бесконечно этим заниматься, то вроде работает, то ой хаос. Ну такое.

          • Пафос Респектыч
            29 октября 2021, 15:29
            Replikant_mih, можешь именовать себя трейдер-энтузиаст так и быть )
      • Кирилл Гудков
        29 октября 2021, 17:28
        Replikant_mih, по winrate и PF стратегия B&H (ну или иногда short & hold) абсолютно непобедима. Может стоит что-то другое использовать?

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн