Блог им. AlexeyPetrushin
Думаю как убрать перекосы из данных, отсутствуют акции компаний которые обанкротились и были исключены из выборки. Нужно скорректировать, чтобы избавиться от эффекта выживших.
Исходные данные: 250 акций, известны текущая волатильность и будущие годовые лог доходности на протяжении N лет (все 250 акций начинаются с 1972 и заканчиваются в 2025).
Вероятность банкротства как условная вероятность от волатильности: P(b|sigma). Она рассчитана по модели
logit P(b|σ) = α + βσ, где beta~3-4, а alpha выбрана так, чтобы суммарная годовая вероятность банкротства составляла около 0.5%.
Ниже — табличное представление этой зависимости по квантилям волатильности.
Величина падения при банкротстве — почти всегда это полная потеря (−100%). Конкретное распределение убытков приведено ниже в виде PMF.
После события банкротства все будущие доходности акции полностью исключаются из выборки.
Чтобы не терять данные, я решил продублировать данные в 10 раз. Это приведёт к искажению доверительных интервалов, но сохранить больше данных — приоритет важнее.
Насколько подход выглядит обоснованым, имеет смысл что то поменять или улучшить?
Таблицы:
PMF: вероятность банкротства по квантилю волатильности:
q p 0.1: 0.11 0.2: 0.13 0.3: 0.16 0.4: 0.19 0.5: 0.22 0.6: 0.26 0.7: 0.38 0.8: 0.53 0.9: 0.90 1.0: 2.12
PMF: распределение прибыли при банкротстве (PMF):
r p 0.01 0.75 0.05 0.11 0.10 0.05 0.20 0.04 0.30 0.03 0.40 0.02 0.50 0.01
>> Думаю как убрать перекосы из данных, отсутствуют акции компаний которые обанкротились и были исключены из выборки. Нужно скорректировать, чтобы избавиться от эффекта выживших.
Самое простое (ну или самое верняковое) — найти источник данных, где есть данные делистнутых компаний.
Можно не копировать данные, выкидывается не так уже много, ну либо вдвое увеличить их не в 10 раз.