wrmngr
wrmngr личный блог
05 декабря 2022, 12:12

Но моя модель машинного обучения может прогнозировать цены на активы!

  Минутка обучающего контента
   Перевод (twitter.com/bennpeifert/status/1587433226514989057)

Стационарность — одно из важнейших понятий теории вероятностей и статистики.

Суть его значения в том, что конкретный паттерн, который вы пытаетесь понять, постоянен в вероятностном смысле.

Технически это означает, его безусловное совместное распределение вероятностей не меняется со временем.

В блэкджеке правила игры известны и постоянны, и, основываясь на виденных до сих пор картах, мы можем узнать вероятности исходов следующей руки.

В финансах базовая структура мира сложна, неизвестна и меняется со временем. на пути к объективной, достоверной истине мало что есть. Любой анализ исторических данных, предполагающий иное, занижает неопределенность перспективных прогнозов.

Учебники сосредоточены на простых и очевидных случаях, таких как тот факт, что уровни цен на активы (в отличие от изменений) нестационарны. это, конечно, правда, и именно поэтому твиттер-шарлатаны постоянно публикуют графики ложной корреляции двух переменных во времени.

Но гораздо меньше академического внимания уделяется непредсказуемым изменениям в процессах генерации данных для доходности, волатильности, корреляции и т. д.

 

Отрицательные цены на нефть в марте 2020 года из-за нехватки хранилищ — один очень простой пример.

Академикам нравятся модели переключения режимов (regime switching models), но на практике они гораздо лучше подходят к историческим данным, чем к пониманию того, что такое истинные «режимы», и которые помогают наблюдать и прогнозировать изменения в реальном времени.

Когда кто-то пытается подогнать сильно нелинейную модель со многими неявными или явными параметрами к сложной динамической системе с процессом генерации данных, который меняется со временем, то результатом является прекрасное соответствие обучающей выборке и совершенно бесполезное прогнозирование на будущих данных.

Большинство методов AI/ML были разработаны для стационарных задач с высоким отношением сигнал/шум, например, для обработки изображений. Да, есть аналогичные задачи и в финансах, для которых они отлично подходят; на ум приходит автоматизация ручных задач, таких как сопоставление идентификаторов неизвестного формата.

Но наивное предсказание доходности активов не входит в их число. Трюки, которым они учат в классе (валидация с разделением выборки и т. д.), отчасти помогают, но не решают основную проблему, заключающуюся в том, что сигнал очень слаб по сравнению с шумом, и сигналы смещаются быстрее, чем вы можете научиться.

(это всегда было весело)

Есть некоторые очень специфические случаи, когда эта критика менее верна — например, HFT market making, когда имеется огромный объем данных за очень короткие периоды времени, когда основная динамика достаточно постоянна, а модели могут быстро адаптироваться.

B не подходите ко мне с тестами ADF, которые могут разумно ответить только на единственный вопрос типа «это полное безумие, чтобы запустить эту регрессию или посмотреть на этот график?», но не все остальное.

Мы можем научить компьютер играть в ГО, потому что структура игры не меняется. Поэтому мы можем смоделировать миллион игр и обучить нейронную сеть, и следующая игра будет точно такой же, как первый миллион, на котором мы обучались.

Опять же, речь идет не о том, что «машинное обучение бесполезно», совсем наоборот. Но вы должны думать о том, для каких задач оно полезно, как вы применяете это осмысленным образом и как быстро распознать ту чушь, которую вам внушают.

Я раскрываю здесь эту тему с точки зрения финансов, но та же история в целом верна для других сложных явлений, где структура проблемы неизвестна или непостоянна.

Например «мы решаем задачи здравоохранения, используя алгоритмы машинного обучения для диагностики заболеваний». Нет, вы не делаете этого.

61 Комментарий
  • Неудержимый трейдер
    05 декабря 2022, 12:16
    В блэкджеке правила игры известны и постоянны, и, основываясь на виденных до сих пор картах, мы можем узнать вероятности исходов следующей руки.
    Дальше читать уже не хочется :)
  • Pringles
    05 декабря 2022, 12:19
    прогнозировать может кто угодно 
  • Главком Главком
    05 декабря 2022, 12:21
    Берем ОбувьРоссии и прогрнозируем
  • Большой Брат
    05 декабря 2022, 12:22
    Give me four parameters and I shall describe an elephant; with five, it will wave its trunk (Дайте мне четыре параметра, и я опишу слона; с пятью он будет махать хоботом).

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн