Думаю как убрать перекосы из данных, отсутствуют акции компаний которые обанкротились и были исключены из выборки. Нужно скорректировать, чтобы избавиться от эффекта выживших.
Исходные данные: 250 акций, известны текущая волатильность и будущие годовые лог доходности на протяжении N лет (все 250 акций начинаются с 1972 и заканчиваются в 2025).
Вероятность банкротства как условная вероятность от волатильности: P(b|sigma). Она рассчитана по модели
logit P(b|σ) = α + βσ
, где beta~3-4, а alpha выбрана так, чтобы суммарная годовая вероятность банкротства составляла около 0.5%.
Ниже — табличное представление этой зависимости по квантилям волатильности.
Величина падения при банкротстве — почти всегда это полная потеря (−100%). Конкретное распределение убытков приведено ниже в виде PMF.
После события банкротства все будущие доходности акции полностью исключаются из выборки.
Чтобы не терять данные, я решил продублировать данные в 10 раз. Это приведёт к искажению доверительных интервалов, но сохранить больше данных — приоритет важнее.
a = 0.545548 (95% CI: 0.486466, 0.604631) b = 0.423923 (95% CI: 0.367767, 0.480078) c = 0.502396 (95% CI: 0.489426, 0.515367)
Прежде чем запускать калибровку на реальных данных цен, сделал простейший тест — а можно ли его вообще использовать, насколько хорошо он работает?
Калибровка — определение неизвестных параметров для известного распределения, двумя методами — Maximum Likelihood и Bayesian.
а) задал простейшую модель, с известными параметрами, б) сгенерировал с нее огромный сэмпл 10000 точек, в) затем фиттинг на полученном сэмпле и г) сравнение полученных резуьтатов с исходными параметрами.
Тестовая модель, Гауссовский Микс:
weights = [0.5, 0.5], means = [0, 0], sigmas = [1, 2]
Результат, точнее его отсутствие, картина ниже (питоновский код):
Параметры определяются совершенно неверно. Причем случай идеальный, простейшая модель, огромный сэмпл.
Также попробовал другой подход, байесовский метод, и он также дает совершенно неверный результат.
П.С.
Гиперболическое Распределение
Результат пока непонятный (питоновский код) визуально график получaется достаточно похожим, но полученные параметры модели не совпадают с исходными.
... Автор метода универсального кодирования и предсказания данных, порожденных стационарными источниками...Рябко Б.Я. открыл асимптотически оптимальные методы прогноза и проверки основных классов статистических гипотез для стационарных эргодических процессов...