Блог им. AlexeyPetrushin

Убрать survivorship bias из исторических данных

Думаю как убрать перекосы из данных, отсутствуют акции компаний которые обанкротились и были исключены из выборки. Нужно скорректировать, чтобы избавиться от эффекта выживших.

Исходные данные: 250 акций, известны текущая волатильность и будущие годовые лог доходности на протяжении N лет (все 250 акций начинаются с 1972 и заканчиваются в 2025).

Вероятность банкротства как условная вероятность от волатильности: P(b|sigma). Она рассчитана по модели

logit P(b|σ) = α + βσ, где beta~3-4, а alpha выбрана так, чтобы суммарная годовая вероятность банкротства составляла около 0.5%.

Ниже — табличное представление этой зависимости по квантилям волатильности.

Величина падения при банкротстве — почти всегда это полная потеря (−100%). Конкретное распределение убытков приведено ниже в виде PMF.

После события банкротства все будущие доходности акции полностью исключаются из выборки.

Чтобы не терять данные, я решил продублировать данные в 10 раз. Это приведёт к искажению доверительных интервалов, но сохранить больше данных — приоритет важнее.

Насколько подход выглядит обоснованым, имеет смысл что то поменять или улучшить?

Таблицы:

PMF: вероятность банкротства по квантилю волатильности:

q     p
  0.1: 0.11
  0.2: 0.13
  0.3: 0.16 
  0.4: 0.19
  0.5: 0.22
  0.6: 0.26
  0.7: 0.38
  0.8: 0.53
  0.9: 0.90
  1.0: 2.12

PMF: распределение прибыли при банкротстве (PMF):

r     p
  0.01  0.75
  0.05  0.11
  0.10  0.05
  0.20  0.04
  0.30  0.03
  0.40  0.02
  0.50  0.01
Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.
359
3 комментария

>> Думаю как убрать перекосы из данных, отсутствуют акции компаний которые обанкротились и были исключены из выборки. Нужно скорректировать, чтобы избавиться от эффекта выживших.

 

Самое простое (ну или самое верняковое) — найти источник данных, где есть данные делистнутых компаний.

avatar
Replikant_mih, мудрая мысль, но пока у меня нет к ним доступа :)
avatar
Примечание: при маштабировании на другие интервалы 90д, 730д и т.п меняется только вероятности пропорционально sqrt(T/365), маштаб падения сохраняется неизменным

Можно не копировать данные, выкидывается не так уже много, ну либо вдвое увеличить их не в 10 раз.
avatar

Читайте на SMART-LAB:
Фото
Индикатор Mass Index в OsEngine: расчёт, сигналы и бесплатный робот. Видео.
В этом видео разберём Mass Index — индикатор, который оценивает не направление цены, а изменение её волатильности и структуры движения. Покажем,...
Фото
Процент по депозитам перестал снижаться
Процент по депозитам перестал снижаться. Намек на не снижение ключевой ставки? Источник графика: www.cbr.ru/statistics/avgprocstav/...
США и Иран готовы помириться: что дальше будет с ценой нефти? 
Цена нефти Brent на вечерних торгах 12 июня упала на 2,12%, до $88,46 за баррель, WTI скорректировалась на 2,55%, до $85,47. От $90 котировки...
Фото
РУСАГРО: так ли плох Россельхозбанк вместо Мошковича и Басова в качестве основного акционера - маленькое исследование
РУСАГРО — один из самых интересных рисковых активов на Мосбирже. Национализация, иски на миллиарды рублей, падение акций на 70% от максимумов — тут...

теги блога Alex Craft

....все тэги



UPDONW
Новый дизайн