О распределении приращений логарифмов H+L дней («давно я не брал в руки шашек»)

Это исследование я сделал под влиянием бурной дискуссии на форуме о распределении «хвостов» приращений логарифмов цен, возникшей, казалось, на «пустом месте»: насколько корректны доверительные интервалы для оценок параметров линейной регрессии в альфа-бета модели?

Кроме указанной ссылки, дискуссия продолжилась в еще двух ветках: тут и тут.

Действительно, эти оценки в классическом случае строятся на основе центральной предельной теоремы для статистик оценок параметров линейной регрессии. Однако, как я уже писал на смартлабе, необходимым условием которой является скорость роста дисперсии суммы слагаемых как О(N), N – число слагаемых, а для быстрой сходимости в центральной области еще и требуется конечность абсолютного третьего момента любого слагаемого (если говорить о сходимости на всей прямой, включая «большие уклонения», то еще требуется и конечность всех моментов отдельных слагаемых). Однако эти условия не выполняются для части распределений Парето и Стьюдента с полиномиальной скоростью убывания «хвостов» и поэтому для «хорошего» приближения суммы таких слагаемых нормальным законом требуется очень большое число испытаний, которых, как правило, в альфа-бета модели, построенной на дневных данных, нет. А значит традиционные методы построения доверительных интервалов для оценок параметров этой модели «не работают».

Собственно дискуссия в дальнейшем свелась к вопросу: распределены ли «хвосты» дневных приращений логарифмов цен по распределению Парето, т. е. c полиноминальным убыванием О(х^-а) или мы имеем дело с экспоненциальным убыванием вида О(e^-^axx^b), а>0, b-любое.

Первый результат основан на выделении отдельно «хвостов» и их приближении распределением Парето. При этом центральная область игнорируется, так как приблизить все распределение приращений логарифмов цен распределением Парето никак не получается. А что говорит в пользу второй гипотезы?

В своем видео с 21-й по 32-ю минуту я привожу рассуждения, на основании которых для приращений логарифмов H+L (h_t) дней будет иметь место распределение

со скоростью убывания «хвостов» О(e^-^axx^-1/2), K₀-функция Макдональда.

Там же показана графическая «похожесть» этого распределения на распределение приращений логарифмов H+L фьючерса на индекс РТС в 2005-2016 годах с выброшенным периодом «кризиса» с 17 сентября 2008-го по 28 февраля 2009-го. Однако никаких результатов статистических исследований не приведено. Восполним данный пробел на примере SPY на данных с 29.01.1993 по 24.05.2021.

Прежде чем переходить к результатам поясним, что из себя представляют приращения логарифмов H+L. В начале 2000-х я выяснил, что для РАО ЕЭС и Газпрома они имеют корреляцию больше 0,99 с приращениями логарифмов средневзвешенных цен дневок. Т. е. мы имеем дело с рядом приращений логарифмов средневзвешенных цен дневок, которые, ИМХО, более точно отражают картину дневных настроений, чем цены закрытия, т. е. цены в отдельный момент дня. А почему SPY, а не S&P500, история которого гораздо длиннее? Все дело в том, что в данных индекса не учитываются междневные гэпы из-за равенства открытие сегодня=закрытию вчера. И при наличии гэпа мы получаем, что в H или L могут присутствовать цены, которых вообще не было на торгах.

Возьмем весь ряд дневных приращений логарифмов и приблизим указанным распределением. Для плотностей получаем следующую картинку

Здесь и далее на графиках синим цветом обозначена гистограмма вероятностей распределения приращений логарифмов цен, нормированных среднеквадратичным отклонением, зеленым – аналогичная наиболее «близкая» гистограмма, для распределения с вышеприведенной плотностью (обозначим ее Kо по аналогии с функцией Макдональда), а красным – та же гистограмма для нормального распределения с таким же средним, как у нормированных приращений логарифмов цен и дисперсией 1 (напомним, что дисперсия нормированного ряда приращений логарифмов тоже равна 1). Из этих гистограмм вероятностей получают функции распределения для сравнения по критерию Колмогорова.

Несмотря на визуальную «близость» зеленого и синего графика значение статистики Колмогорова отвергает гипотезу совпадения распределений с вероятностью ошибки первого рода 0.05 (см. сводную таблицу ниже: критическое значение статистики для вероятности ошибки первого рода 0.05 – 1.36). Итак, на всей истории получить приближение указанным распределением не удалось. Впрочем, и в вышеупомянутом видео я выбрасывал значения выборки для кризисного периода с 17 сентября 2008-го по 28 февраля 2009-го, специально оговорив, что в этот период, вероятней всего, данное распределение далеко от реальности.

А давайте по аналогии с факторным анализом из видео разобьем весь период на кластеры «волатильности» и посмотрим, что получается отдельно на каждом из кластеров.

Под текущей «волатильностью», как и в случае факторного анализа, мы будем понимать максимум из двух величин:

— оценка сигма из упомянутого распределения по приращениям логарифмов H+L за 50 последних дней (меньше нельзя из-за ошибки оценки), т. е. в предположении, что параметры этого распределения были постоянны в эти 50 дней;

— СКО тех же приращений логарифмов за последние 10 дней.

Почему так? Вторая оценка очень неточная, но она позволяет быстро среагировать на рост волатильности. В то время как первая «увидит» реальный рост только примерно через 25 торговых дней в силу сдвига «окна» расчета. Основной ошибкой такого расчета является то, что однодневный всплеск приращения логарифма можно принять за новый кластер более высокой волатильности в течении 9 дней, пока этот однодневный всплеск не уйдет из расчета. Но с точки зрения рисков — эта ошибка менее критична, чем ошибка пропустить реальный рост волатильности, которая при таком подходе менее вероятна.

И, кстати, для достаточно сильно разнесенных отрезков времени оценки сигма могут сильно отличаться, что свидетельствует о том, что этот параметр нестационарен. Однако больших «ступенек» (больше 25% от предыдущей величины) ни в одном из его выборочных рядов, разнесенных на 25 точек, нет. Что говорит об отсутствии больших «гэпов» (в разы) в этой величине и ее относительно «плавной» изменчивости. А это значит, что те же «хвосты» в исходной последовательности, либо серийны и появляются в результате постепенного нарастания «волатильности», либо единичны и крайне редки («черные лебеди»).

Вот какие у нас получились кластеры

О столбце «Без кризисов» чуть позже.

Начнем с кластера «низкой» волатильности

И мы сразу получаем по критерию Колмогорова, что гипотеза о совпадении распределений для нашего распределения не может быть отвергнута. Хотя гипотеза нормальности отвергается по этому критерию.

Еще лучше по тому же критерию получается для «средней» волатильности

Нормальное распределение, по прежнему, «вне игры».

И для «высокой» «волатильности» критерий Колмогорова дает нам совпадение с нашим распределением

И даже совпадение с нормальным получается по этому критерию. Но надо учесть, что после нормировки мы получили совсем уж «вычурное» распределение, лежащее в диапазоне [-2,2] и всего из 42-х точек. Кстати, «вычурность» этого распределения косвенно свидетельствует о том, что «сверхтяжелые хвосты» являются порождением «волатильности» в нашем определении.

Также отметим, что из 42-х последних точек, 40 попали на периоды 17.09.2008-15.12.2008 и 24.02.2020-10.04.2020, т. е. на «острые фазы кризисов». Поэтому последним шагом выбросим из данных эти периоды и посмотрим что получилось «Без кризисов»

И даже для этой выборки критерий Колмогорова дает нам совпадение с распределением Kо, хотя и «на тоненького». Ну а нормальное по прежнему «вне игры». Сводные данные по значениям статистики Колмогорова приведены в следующей таблице

Отметим также явную зависимость значений статистики Колмогорова от размаха колебаний нашей «волатильности» на выбранном периоде, что говорит о том, что для периодов с меньшим размахом, вероятней всего, приближение выборочного распределения распределением Ко будет еще лучше.

Таким образом, высказанная в видео гипотеза о том, что приведенное распределение хорошо «объясняет» одномерное распределение приращений логарифмов цен Н+L дневок вне периодов «острых фаз кризисов» полностью подтвердилась на SPY.

статистика для трейдера торговые роботы трейдинг

howtotradeag

А. Г.

Москва

1723

79 377

с 17 января 2011

52 Комментария

Тимофей Мартынов
28 мая 2021, 20:32
Тема крутая, но думаю мало кто поймет😁
+5
- А. Г.
  28 мая 2021, 20:36
  Тимофей Мартынов, писал больше для себя и «узкого круга» дискуссантов.
  +2
- Tenant
  28 мая 2021, 21:49
  Тимофей Мартынов, на смартлабе давно пора сделать возможность писать формулы в LaTex, чтобы люди не мучались и не вставляли их в виде картинок.
  +2
- Mors
  29 мая 2021, 01:29
  Тимофей Мартынов, Да понятно.Хорошо, что АГ всё это постит на СЛ.«Имеющий уши да услышит»
  0
Андрей
28 мая 2021, 20:46
Прочитать не сумел, но плюсик поставил. Жалею, что так глубоко не могу уйти в рынок ((( я б с удовольствием, но для этого надо увольненяться…
0
Boris
28 мая 2021, 21:01
Знаю что у Финам есть выход на американские индексы, поэтому хочу спросить у Вас как математика, 1-2 числа есть такая вероятность что «бычья ловушка» на снп500 схлопнется или и оно и дальше на «домохозяйках» и байбеках, будет продолжать «улыбаться»?
0
- А. Г.
  28 мая 2021, 21:10
  Boris, меня бесполезно спрашивать о вероятности смены тенденции по прошлым ценам, так как ничего лучше, чем 50 на 50 в части прогнозирования этих точек, я не нашел, а потому работаю в рамках гипотезы продолжения движения и как можно более «быстрого» выявления прошедшей(!) точки ее смены. А что касается макрофакторов, то основной признак будущего глобального падения в США — это повышение ставок ФРС или высокая вероятность их повышения в ближайшем будущем. Ну а просадки «сиплого» до 10% — это «легкие флуктуации» в глобальном масштабе, который прогнозируется на основе макрофакторов.
  +8
  - Boris
    28 мая 2021, 21:22
    А. Г., А как Вы относитесь к паттернам и объемам? Там ведь не 50 на 50, а виден уже более конкретный перевес сил?
    Просто хотелось бы знать математика, одобряет патерны или в контрах с ними? Расчеты-это долгий процесс, поэтому я выбрал такой подход, который можно на коленке состряпать за несколько минут, а эффект будет не хуже.
    +1
    - А. Г.
      28 мая 2021, 21:40
      Boris, паттерны надо уметь формализовать и искать на истории с помощью программы, а не «на глазок», а для сложных паттернов — это сложно. Ну а простейшие типа «трех белых солдат» или «трех черных ворон» — не рабочие. Что касается объемов, то никакой связи между их динамикой и трендами в несколько дней, я не нашел.
      +6
      - Boris
        28 мая 2021, 22:23
        А. Г., Простейшие я не рассматриваю, хотя и учитываю в некоторых случаях. Я больше торгую по таким патернам как: «Гартли»,«Зонтик»,«Надгробье»,«Повешенный», «Треугольник»,«Флаг»,«Звезды»,«Молоты» итд.
        Но что самое интересное что не на каждом инструменте они отрабатываются на все 100%. И вот что я понял, на высоколиквидных и волотильных инструментах существуют так называемые «паттерны ловушки» с ложным выносом стопов и захватом ликвидности. Я называю это «загребать жар, чужими руками». Но ложные паттерны я использую для контр-трендовой стратегии. Вы спросите: а как я понимаю что паттерн ложный или нет? А вот для этого использую объемы, фьючерсные, опционные, ну и учитываю корреляцию взаимосвязанных инструментов. «Примаркет-закрытие» и отработка «фундаментала», до выхода новостей. Как бы много, много всего, но если разложить это по полочкам, в зоне доступа, то процесс занимает несколько минут. С учетом того что надо еще найти коридор банковского интереса и ММ, учитывая АТР.
        Существует негласная поговорка: примаркет для «молодежи», закрытие для «старичков». Придерживаюсь такого же мнения.
        
        Просто уверен, что не один спикер об этом не расскажет, а тем более не покажет наглядно. Вот даже Вы говорите что это все в рамках гипотезы и 50 на 50. А я считаю что это не так.
        +1
        А. Г.
        28 мая 2021, 23:19
        Boris, про «50 на 50» — это касалось только прогноза будущих точек смены тенденции.
        0
Сергей
28 мая 2021, 21:07
А что станет со статистикой хвостов построенной для S&P500 если при этом ночные сессии (гепы) внести как отдельные свечи иными словами удвоить количество торговых дней в году?
0
- А. Г.
  28 мая 2021, 21:14
  Сергей, не проверял. Да и разница в объемах торгов SPY во время их сессии (9:30-16:00 по времени восточного побережья США) и вне ее настолько велика, что я думаю, что с точки зрения приращений средневзвешенных цен период вне их торгов лучше вообще выбросить.
  0
Rostislav Kudryashov
28 мая 2021, 21:14
Сомневаюсь я, что открытые или завуалированные действия ФРС следуют какому-то «закону распределения». А ведь расхожее мнение в том, что движения рынка подчинены именно действиям ФРС. Неужто все так ошибаются!?
Так что столь глубокие исследования «распределений» были бы интересны для «внутри дня» на секундной-минутной дискретизации.
0
- А. Г.
  28 мая 2021, 21:16
  Rostislav Kudryashov, ну где ФРС и где дневные приращения? ФРС влияет на более длинные движения, но никак не на серии дней.
  0
Александр Сережкин
28 мая 2021, 21:22

0
Сергей
28 мая 2021, 21:32
Поясните для тупых какое резюме -> продавать путы с 6% дельтой на SPY лучше расчитывая волатильность исходя из функции Макдональда?
0
- А. Г.
  28 мая 2021, 22:02
  Сергей, к опционам это имеет лишь опосредованное отношение, так как одномерное распределение ничего не говорит о временных зависимостях. А нам для эффективной торговли опционами нужно распределение приращения цены (или логарифма цены) до экспирации, которая далеко не завтра.
  +1
- kvazar
  29 мая 2021, 19:48
  Сергей, точно, закажу-ка я в макдональдсе…
  0
bozon
28 мая 2021, 22:45
Это всё, конечно, интересно, но какой в этом практический смысл? Есть реальные биржевые котировки со своими трансакционными издержками, которым всё-равно, правильная у Вас модель или нет. К тому же Ваш подход упирается в один банальный факт: Вы пытаетесь усреднить нестационарное распределение, которое усреднением не решается. Не проще ли принять за основу торгуемую на рынке «улыбку» и относительно неё строить свои «правильные» греки?
0
- ch5oh
  28 мая 2021, 23:07
  bozon, проще. Но тогда вопрос: "Откуда деньги?"
  0
  - bozon
    29 мая 2021, 07:08
    ch5oh, можно угадывать динамику IV и делать деньги на веге, можно котировать и собирать спред, можно как-то дельтой угадывать сам рынок.
    0
    - Kot_Begemot
      29 мая 2021, 11:50
      bozon, и что из этого перечня у вас получается, если не секрет?
      0
      - bozon
        29 мая 2021, 20:15
        Kot_Begemot, ничего. Не располагаю достаточными финансовыми ресурсами.
        0
- А. Г.
  28 мая 2021, 23:28
  bozon, ну во всех моих системах «коридор безразличия» строится по текущей «волатильности», умноженной на k, где k — оптимизируемый параметр. А в основе моей «волатильности» лежит эта модель, хоть в локальном варианте.
  
  А что касается опционов, то я только в предыдущем своем посте писал, что эффективные стратегии на них могут быть основаны только на отличии реального распределения приращения цены (логарифма цены) до экспирации от того, которое «подразумевает» рынок «в моменте». Текущая «ухмылка волатильности» — это лишь «кривое зеркало» подразумеваемого рынком распределения, ничего не говорящая о реальном.
  0
ch5oh
28 мая 2021, 23:16
Правильно ли Вас понял, что Вы изучали следующие величины:
M[n] = (H[n]+L[n]) / 2
M[n-1] = (H[n-1]+L[n-1]) / 2

после чего переходили к нормированным приращениям их логарифмов
X[n] = LN( M[n]/M[n-1] ) / S[n]

где S[n] — оценка СКО величин X на момент n?

Которые и показали такое интересное распределение?
0
- А. Г.
  28 мая 2021, 23:25
  ch5oh, да, так. Только 2 в первых двух формулах лишняя (она сокращается в X[n]) и S[n] для каждого кластера считалась по всем его значениям.
  +1
  - Kot_Begemot
    29 мая 2021, 03:23
    А. Г., а какой смысл в кластерах, если можно пройтись оценкой S по всей выборке непрерывно? Или вы считаете, что волатильность сама по себе дискретна и претерпевает квантовые изменения?
    +1
    - wistopus
      05 января 2025, 09:30
      Kot_Begemot,
      хороший, кстати, вопрос ....
      пройтися S по всей выборке, чтобы иметь ориентировочное представление на предмет в будущем, что вот она появилася волатильность, выходящая за доверительный интервал…
      0
      - А. Г.
        29 мая 2021, 09:27
        wistopus, в видео в указанные минуты я как раз и объясняю почему обычное СКО по некоторому «окну» в среднем завышает реальную волатильность рынка и почему оценивать надо именно сигма в рамках данной модели.
        
        И, кстати, там же даётся альтернативный эмпирический вариант «оценки» сигма, который очень прост.
        +3
        wistopus
        05 января 2025, 09:33
        А. Г.,
        я как раз и объясняю почему обычное СКО по некоторому «окну» в среднем завышает реальную волатильность рынка
        у меня есть такое же ощущение на чисто субъективном уровне
        но меня интересует в большей степени волатильность при отрицательных приращениях цены, поэтому вполне устраивает тот факт, что СКО завышает реальную волатильность по рынку... ибо если «окно» пробито, то ни каких сомнений — позиция на выход…
        0
    - А. Г.
      29 мая 2021, 09:13
      Kot_Begemot, кластеры делались по двум причинам. В факторном анализе для того, чтобы понять как торгуют системы на отдельных кластерах. А в данной задаче исключительно для того, чтобы уменьшить размер по «волатильности» на выборке и не делать «подгонку» по самим значениям выборки.
      +2
Serj90
28 мая 2021, 23:29
Странно, вроде здесь на СЛ на каждом углу твердят что модель должна быть максимально простой, а здесь че то прям совсем глубоко, работа с логарифмами. Вот и думаю добавлять в избранное, а зачем. чтобы потом почитать когда еще знаний наберусь. А дойду ли до таких глубоких мат моделей. С другой стороны добавить в избранное один клик. Добавлю короче… а может получиться как анекдоте про эстонца «не пригодилось».
0
- А. Г.
  28 мая 2021, 23:46
  Serj90, ну из всего написанного в активной торговле я использую только текущую «волатильность». Но должно же быть какое-то и обоснование, почему принципы, заложенные в системы, работают, работали и будут работать.
  +3
  - Serj90
    29 мая 2021, 22:06
    А. Г., а вот этот ответ уже немного делает топик лично для меня понятным! Спасибо)
    0
- SergeyJu
  29 мая 2021, 12:38
  Serj90, логарифмы — это, вообще-то, средняя школа. Впрочем, для простого инвестирования ничего сложнее арифметики и не нужно.
  +1
  - Serj90
    29 мая 2021, 22:04
    SergeyJu, ну в средней школе мне не говорили что логарифм применим в трейдинге) Хотя в его полезности в спекуляциях до определенного момента сомневался
    0
    - А. Г.
      31 мая 2021, 15:53
      Serj90, ну просто же все. При 0<x<0,2 ln(1+x)~x. Т. о. если относительные приращения цен меньше 20%, то их значения практически совпадают с приращениями логарифмов цен. А относительные приращения — это «альфа и омега» практически всех экономических и финансовых данных.
      0
wrmngr
29 мая 2021, 01:22
returns / vol = N(mu,sigma). А единичные хвосты практически не меняют картины
0
- А. Г.
  30 мая 2021, 10:23
  wrmngr, как видите, при выравнивании sigma у выборки и нормального так не получается. А если «подгонять» центр, то расхождение не в единичных случаях, а в 15-25%% выборки.
  0
Врач-бондиатОр
29 мая 2021, 09:45
Жесткая математика...
Пара вопросов:
1) Каким критерием можно оценить правильность распределения, если количество данных 4000-5000?
2) каким критерием можно проверить, что у данных логнормальное распределение?
0
- А. Г.
  29 мая 2021, 10:18
  Врач-бондиатОр, не понял, что значит «правильность». Если сравнивать две выборки из неизвестного распределения, то лучше всего критерий Манна-Уитни. А если сравниваем одну выборку с известным непрерывным распределением, то критерий Колмогорова.
  +1
Маркиз Лафайет
29 мая 2021, 11:07
«Ничего не понял, но очень интересно»
+2
SergeyJu
29 мая 2021, 12:45
Меня с самого начала удивили акценты той дискуссии на форуме А.Г. (ХАУ-ту-трейд).
Альфа-бета простейшая модель, удобная для тех, кто анализирует индексные паевые фонды и тому подобная. Зачем её было замешивать с Парето, с хвостами распределений я так и не понял.
Что касается конкретно данной статьи.
Если мы исходим не из потребностей практики, а из чисто академического интереса, я бы попробовал (а) оценить волатильность для каждой точки по её центрированной выколотой окрестности (б) разделил каждое приращение на соотв. ему амплитудную оценку волы (в) вот это бы и аппроксимировал.
То есть, приращения с исключенной нестационарностью волы.
0
- А. Г.
  29 мая 2021, 13:03
  SergeyJu, в третьем абзаце я поясняю, откуда «ноги растут» у возникшей дискуссии. Просто если предположить, что на интервале расчета «хвосты» приращений бенчмарка распределены по Парето с бесконечным третьим абсолютным моментом, то альфа-бета модель некорректна изначально.
  
  Там и весь спор то начался из-за того, что добавление в модель в качестве фактора модуля приращения логарифма при классическом расчете ничего не дало. Поэтому у автора модели возникли вопросы к ограничениям в классическом расчете модели линейной регрессии. Он настаивал на обязательности нормальности отдельных элементов выборки, я показывал, что достаточно ограниченности абсолютных третьих моментов. На что оппонент возражал, что для Парето условие ограниченности абсолютного третьего момента не выполнено. Так и возникла дискуссия: почему Парето и откуда оно взялось.
  
  А в остальном Вы правы. Наверное корректнее брать в качестве оценки текущей «волатильности» интервал, где текущая точка — центральная. Просто с точки зрения практики — это «заглядывание в будущее», которого я хотел избежать даже в этом случае.
  0
  - SergeyJu
    29 мая 2021, 13:21
    А. Г., поскольку альфа-бета модель изначально грубая и нужна вовсе не для алготорговли, мне представляется, что весь шаманизм вокруг тяжелых редких хвостов для неё избыточен.
    Я Вам написал на финамовскую почту, другой у меня нет.
    +1
    - А. Г.
      29 мая 2021, 14:13
      SergeyJu, ответил на письмо.
      +1
Alex Craft
06 января 2025, 06:28
Критерий Колмогорова нельзя использовать для сравнения распределений с хвостами. Он не учитывает что CDF имеет разный «масштаб» что ошибка (абсолютная разность значений двух CEF) в середине CDF и в хвосте CDF это совершенно разные маштабы, и их нельзя сравнивать как те же самые абсолютные разности между графиками — а тест КолмогороваСмирнова именно так и делает, что неверно.

Можно использовать например тест Anderson–Darling, он учитывает «масштаб», но он тоже свои сложности имеет, в хвосте мало данных и прыжки получаются.

0
- А. Г.
  06 января 2025, 09:05
  Alex Craft, да с распределениями случайных величин
  
  r*X+(1-r)*У, где r случайная величина равная нулю или единице и р(r=1)~1, а Х и У — две разные случайные величины
  
  вообще лучше всего критерий Манна-Уитни для понимания, какое распределение Х и какое р(r=1).
  
  Ведь Парето на всем множестве приращений цен или логарифмов цен и быть не может.
  
  А Колмогоров-Смирнов — самый хороший критерий только для случая выборки из одного и того же непрерывного распределения с плотностью и любыми ее «хвостами». Если функция распределения со скачками, то да, критерий Колмогорова-Смирнова «не очень», но судя по тому, что и у Anderson–Darling интеграл от Fn, то тоже для скачкообразных распределений «не очень».
  0