Блог им. AlexeyPetrushin |Степень тяжелого хвоста не зависит от периода, день или год

Для лог доходности акций r = log S_T/S_0 степень хвоста не зависит от периода, прибыль за день, месяц или год.

Это видно математически Pr(X>x) ~ Cx^-a — степень a сохраняется при агрегировании (суммировании), меняется лишь константа.

И на графиках log log правого хвоста > 0.97 квантили, цвет дециль волатильности (множественные линии одного цвета — когорты чтобы избежать overlapping bias). Наклон на всех периодах одинаковый.

Степень тяжелого хвоста не зависит от периода, день или год


Блог им. AlexeyPetrushin |Отгдадка, почему Теор. Экстрим Знач, определение степени тяж хвоста не работает, часть 2

Проблема с которой я столкнулся в прошлых постах, при попытке определить степень тяжести хвостов распределения EVT Peak Over Threschold эстиматор дает огромные ошибки.

Если рассмотреть идеальный случай:
[1 / fit(GeneralizedPareto, rand(GeneralizedPareto(0, 1, 1/3), 500)).ξ for _ in 1:10]
получим
2.3747
 3.4744
 2.9658
 2.3281
 4.3979
 2.7633
 3.3022
 4.7440
 2.6349
 2.9094
И это при а) идеальном совпадении структуры (форма кривой), б) гиперпараметров (трешхолда=0), и в) достаточно большого сэмпла 500 точек, что не всегда возможно при «изоляции» хвоста (x > u) на реальных данных, обычно трешхолд ~ 0.98-0.99 квантиль, соотв чтобы получить хвост 500 точек нужен сэмпл 25к.

И даже в таком идеальном случае, ошибки 2.4-4.7. Ну а когда эти условия не идеальные — ошибка больше, что мы и наблюдали на графиках в прошлых постах.

Вывод — эстиматоры POT GPD MLE а также WM — совершенно не применимы на практике, и почему об этом не говориться на первой же странице книг и статей по EVT, чтоб не тратить на них время и сразу переходить к другим -  непонятно (либо я все еще допускаю где то ошибку, но я ее не вижу...)

( Читать дальше )

Блог им. AlexeyPetrushin |Практическая польза от Теории Экстремальных Значений? EVT

Недавно потребовалось установить экспоненту Парето хвоста распределения вероятностей. И чтобы посмотреть насколько хорошо методы EVT работают, я сделал простой пример.
Пример: 30 сэмплов StudentT(df=4), каждый размером 20000. Определить экспоненту хвоста используя методы: Хилла, GPD, LeastSquares, CDF LogLog PLot.
Результаты ужасны: точность всех методов плюс минус километр. Я не вижу ни малейшего смысла в EVT поскольку вручную по линейке установить наклон линии на ЛогЛог Графике CDF оказывается не хуже (мне кажется даже лучше) чем специализированные методы EVT.
На графике — y — найденная экспонента хвоста, каждая линия это отдельный сэмпл, цвет метод определения, х — гиперпараметр (число точек в хвосте распределения которые использовались в расчетах). Верный результат это горизонтальная линия y=4, вместо этого мы наблюдаем, в зависимости от метода — систематические ошибки, либо дикий хаос.

Практическая польза от Теории Экстремальных Значений? EVT
Даже, мне кажется с линейкой предпочтительней, график лог лог. Поскольку ты боль менее визуально и интуитивно понимаешь что делаешь. 

( Читать дальше )

....все тэги
UPDONW
Новый дизайн