Ошибки в бэктестинге (часть 1, а может и последняя).

02 января 2025, 12:10
|
algomrk

Дисклеймер: Весь пост для более подробного раскрытия моего комментария к этому посту: smart-lab.ru/mobile/topic/1100858/

Тестирования стратегий на исторических данных может привнести очень много полезного. Но есть проблемы, которые приводят к тому, что на исторических данных стратегия будет работать очень хорошо, а в реальности покажет плохие результаты. Одна из причин для такого поведения — ошибка выжившего.

Предположим, вы придумали стратегию вида “покупать 10 самых низкокапитализированных компаний из SNP500 (или индекса Мосбиржи) и ребалансировать портфель раз в месяц”. Берете актуальный список компаний, качаете исторические данные для них и наблюдаете, что она показывает отличный результат на протяжении последних 10 лет. Что может пойти не так?

Дело в том, что индексы меняются. И те компании, которые оказались в индексах сегодня — показали очень огромный рост или стабильность в прошлом. В таком случае получится, что ваша стратегия покажет результат не потому что она хороша и действительно работает, а потому что вы использовали информацию из будущего. Грубо говоря если бы вы сегодня знали, что окажется в индексах через 10 лет, то какую стратегию не используй — вложение в эти компании конечно же принесут доход. Но в реальности многие компании падают и уходят из индексов навсегда…

спецраздел:
трейдинг

Ключевые слова:
мобильный пост,
трейдинг

527

14 комментариев

ошибки, которые встречаются на наших палестинах:
-неучет или недостаточный учет транзакционных издержек (проскальзывание зависит от объема)
-подглядывание вперед (например, в старом метастоке индикатор зигзага давал такой эффект)
— то, о чем написал автор
— использование цен, которые нереально получить (например, провести сделку по первой цене регулярной сессии на акциях МБ)
— переподгонка из-за избыточного числа степеней свободы в оптимизируемых параметрах, в пределе ML может просто «запомнить весь график»
— недостаточность использованного объема данных (тут не обязательно тупо мало данных, важно, чтобы все основные рыночные фазы были представлены в наборе данных)
— подгонка под единичные события
Буду рад, если кто дополнит.

SergeyJu

02 января 2025, 12:34
Ответить

SergeyJu, про ML если только. Самая база, которая часто в глаза бросается: часто пытаются делать классическую cross fold validation, но перемешивают данные не по периодам времени, а рандомно. Итог — в тестовой и тренировочной выборке оказываются разные стоки из одного периода, а они коррелируют между собой. Как итог — ML модели переобучаются

algomrk

02 января 2025, 12:39
Ответить

22022022, ну тут вопрос общего объемов торгов и размера портфеля. в медленных стратегиях на ликвидных акциях тяжело повлиять на рынок своим поведением. А вот в интрадей торговле на третьем эшелоне — очень легко

algomrk

02 января 2025, 12:43
Ответить

IMHO, бэктестинг сам по себе огромная ошибка. Ибо вместо того, чтобы разобраться в природе вещей, как все устроено, какова природа данных, какие модели описывают реальность и т.п. люди занимаются бессмысленным и беспощадным бэктестингом. Как если бы Илон Маск не проектировал и потом испытывал свои ракеты, а беспорядочно сваривал куски железа на свалке и пытался их запустить облив топливом.

Synthetic

02 января 2025, 13:13
Ответить

Synthetic, вы уже разобрались в природе рынка?)

robomakerr

02 января 2025, 13:08
Ответить

robomakerr,

Вопрос задан не корректно. Рынок — это не математическое понятие, вроде поля комплексных чисел. Больше напоминает лоскутное одеяло сшитое из тряпок, кусков алюминия и наждачной бумаги.
Но в некоторых лоскутках продвинулся.

Synthetic