Как адаптировать торговые стратегии к изменениям рыночного режима?

23 мая 2026, 14:36
|
Михаил Шардин

Небольшая заметка — посмотрел интересное видео около ML о том как адаптировать торговые стратегии к изменениям рыночного режима (regime changes).
И здесь основная проблема в нестационарности финансовых временных рядов, где статистические свойства (среднее, дисперсия и др.) постоянно меняются со временем.

У видео есть автоперевод на русский язык.

Видео: https://www.youtube.com/watch?v=X5QcNyYRMqQ

Автор рассматривает три метода адаптации:

Кодирование скрытых состояний (Encoding Hidden States): использование средних и других признаков для передачи «памяти» модели о предыдущей динамике рынка.
Онлайн-обучение (Online Learning): использование алгоритмов, таких как Passive Aggressive Regressor, которые непрерывно корректируют веса модели при каждом новом тике данных, позволяя стратегии быстро переключаться между импульсной торговлей и возвратом к среднему.
Обучение с подкреплением (Reinforcement Learning): моделирование торговли как задачи «двурукого бандита». Автор подчеркивает важность использования энтропийной регуляризации, которая предотвращает застревание модели в локальных оптимумах и заставляет её продолжать «исследование» рынка даже после изменения условий.

Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.

спецраздел:
торговые роботы

Ключевые слова:
ML,
торговые роботы

5.6К | ★4

34 комментария

Михаил, добрый день! Спасибо за заметку.

Видео не посмотрел еще, поэтому вас спрошу — что автор на вход для обучения всех этих моделей подаёт?

И еще интересное: подписался, помимо прочего, на одного quant developer в линкед, и теперь у меня в ленте намного больше свежего и интересного по бирже и алготорговле, чем на СЛ. Это парадокс. Ни чем не хуже, чем в релевантных ветках реддита. Не удивлюсь, если и в инсте вместо жопастеньких скоро появляться начнут в рекомендациях интересные заметки и скрины по биржевой/алго тематике

пысы: платный зарубежный траффик с осени — фейк или нет?

Op_Man

23 мая 2026, 15:32
Ответить

Op_Man, дадите ссылку?

Михаил Шардин

23 мая 2026, 15:32
Ответить

Михаил Шардин, на конкретного челика не дам, но вот по этим тегам большинство из них нагуглятся: #QuantitativeTrading #SystematicTrading #FuturesTrading #AlgorithmicTrading #PortfolioConstruction #RiskManagement #CommodityTrading #QuantResearch

Op_Man

23 мая 2026, 22:38
Ответить

Op_Man, спасибо

Михаил Шардин

24 мая 2026, 03:55
Ответить

Михаил Шардин, интересно также (в кач-ве наблюдения), что и на покерных форумах про трейдинг и биржу гораздо больше и полезнее, чем на сл теперь.

И, к моему удивлению, на многих публика в разы вежливее и обходительнее.

Op_Man

25 мая 2026, 20:03
Ответить

Op_Man, насчёт вежливее обходительнее так это точно

Михаил Шардин

26 мая 2026, 04:49
Ответить

Очень интересно, спасибо за статью

вячеслав иванов

23 мая 2026, 15:29
Ответить

cerberus, булочки моя слабость. А про алгоритмы — исследовательская работа.

Успешность торговли я в комментариях не доказываю и сигналы не продаю.

Если тема неинтересна — можно просто пройти мимо.

Михаил Шардин

23 мая 2026, 15:49
Ответить

cerberus, я частное лицо, не представитель фонда или брокера.

Что-то получается, что-то нет. Я пишу об этом открыто. Про какие-то свои эксперименты

Михаил Шардин

23 мая 2026, 16:10
Ответить

А откуда следует, что это статистические свойства меняются? Есть мнение, что цена — это величина: x+s, где x — это неслучайная величина, а s — это случайная величина с мат. ожиданием равным 0. Отсюда следует, что представлять, что статистические свойства меняются имеет мало смысла и значения.

Andrey Siver

23 мая 2026, 16:14
Ответить

Andrey Siver, Для наблюдателя, который не имеет инсайда, рынок случаен в том смысле, что он не может предсказать точное значение одного события. Матожидание там не обязательно ноль и распределение не обязательно(да и почти никогда) нормальное. Статистические характеристики меняются в силу того, что факторы, которые двигают рынок, меняются, но среди них есть медленно меняющиеся, к которым можно подстроиться, чтобы точнее прогнозировать исходы событий.

Михаил Михалев

23 мая 2026, 16:27
Ответить

Михаил Михалев, для случайной компоненты матожидание 0. Дальше можно пробовать моделировать неслучайную компоненту случайной величиной, что будет иметь свои условия применимости.

Andrey Siver

23 мая 2026, 19:05
Ответить

Andrey Siver, Нет никакой «случайной компоненты». Последовательность либо случайная, либо нет. Если случайная, то отдельное событие невозможно предсказать. Можно только снять статистические характеристики. Случайные последовательности могут иметь любые распределения, средние, дисперсии и т.п. Всё зависит от природы случайной последовательности.

Михаил Михалев

23 мая 2026, 19:08
Ответить

Andrey Siver, а откуда Вы взяли, что это МНЕНИЕ отражает реальность? Возьмите ряд цен любой ликвидной акции за достаточно большой период, и попробуйте найти это S. Будете удивлены.

SergeyJu

23 мая 2026, 16:27
Ответить

У тех инструментов, которые меньше подвержены новостийному фону — и здесь «проблема в нестационарности финансовых временных рядов, где статистические свойства (среднее, дисперсия и др.) постоянно меняются со временем» уже не проблема. Точнее эта проблема как раз и возникает на новостийной торговле.

YMKA

23 мая 2026, 16:14
Ответить

ТС посмотрел… и..?

Ho_Chu

23 мая 2026, 16:29
Ответить

Ho_Chu, и поделился

Михаил Шардин

23 мая 2026, 18:13
Ответить

Для простых линейных ТС на входе лучше подавать не голые OHLC, time, итп, где вола как гармошка туда, сюда, а более выравненные графики. Когда времена открытия/закрытия свечей разные. Например графики ренко, коробочки, графики по объемам, итп кто что придумает))… Тогда, иногда отсекаются «мертвые дни», «боковики», когда цена стоит на месте не рисуются свечи, и как бы «скорости» выравниваются. Выходные дни сразу уменьшаются, хотя на обычном графике OHLC, выходные одного размера со всеми… Но это всё костыли на костыли… но интересно)) Для понимания что не все дни одинаковые полезное представление.

22022022

23 мая 2026, 17:04
Ответить

cerberus, нету у него этого, так как в этом случае нужна готовость в риску и яйцы!

Beach Bunny

23 мая 2026, 18:10
Ответить

cerberus, а у вас?)

zhorzh

23 мая 2026, 19:35
Ответить

Автор рассматривает три метода адаптации

Так итого то какое? Эквити есть или что-то похожее на эквити?

Дмитрий Овчинников

23 мая 2026, 22:31
Ответить

Дмитрий Овчинников, в видео эквити есть

Михаил Шардин

24 мая 2026, 03:54
Ответить

есть 3 правила торговли
1 торговать тренд
2 контролировать риски
3 ждать прибыль

не надо ничего больше придумывать
просто смотрим на все 3 правила и ищем в какм из 3ех ошибся автор

ves2010

24 мая 2026, 14:25
Ответить

Кодирование скрытых состояний (Encoding Hidden States): использование средних и других признаков для передачи «памяти» модели о предыдущей динамике рынка.
Онлайн-обучение (Online Learning): использование алгоритмов, таких как Passive Aggressive Regressor, которые непрерывно корректируют веса модели при каждом новом тике данных, позволяя стратегии быстро переключаться между импульсной торговлей и возвратом к среднему.
Обучение с подкреплением (Reinforcement Learning): моделирование торговли как задачи «двурукого бандита». Автор подчеркивает важность использования энтропийной регуляризации, которая предотвращает застревание модели в локальных оптимумах и заставляет её продолжать «исследование» рынка даже после изменения условий.

Без иллюстраций на конкретном инструменте всё выглядит неубедительно. Должно быть показано, что перечисленное способно бороться с обычными проблемами технического анализа. Запаздывание куда девается?
1) А обычная МА не передаёт предыдущие состояния цены?
2) Линейную регрессию использовал каждый второй. Ну, стал наклон линии прогноза из положительного отрицательным, вот и 'переключение'. Только слишком поздно.
3) Надо показывать эффективность метода вычисления энтропии, а самое главное — правильное соотношение между ней и политикой, которое не должно сильно непредсказуемо меняться. Пока выглядит просто как создание новых сущностей.

svgr

24 мая 2026, 17:16
Ответить

Михаил, благодарю за видео! Хотя немного странный формат, может есть текстовая версия для ознакомления?

Фёдор Г.

24 мая 2026, 21:13
Ответить

Фёдор Г., прислали (Бомбасик):

Технический анализ методов адаптации торговых систем к смене парадигмы рынка (Regime Changes)

При проектировании алгоритмических стратегий для высокоэффективных и зашумленных финансовых рынков (базовый актив — BTC/USDT) ключевым препятствием является нестационарность временного ряда логарифмических доходностей:

r_t = ln(P_t / P_{t-1})

Математическое ожидание, дисперсия и автокорреляционные функции распределения непрерывно мутируют во времени. Классические статические модели машинного обучения (Supervised Learning), обученные пакетным методом (Full-Batch) на фиксированном историческом интервале, демонстрируют неспособность адаптироваться к структурным сдвигам. Это ведет к накоплению системной ошибки (Bias) и критическому росту максимальной просадки (Max Drawdown).

В данном документе представлен подробный разбор четырех протестированных методов адаптации, их математический аппарат, результаты бэктестов и программная реализация на Python/PyTorch.

МЕТОД №1: Статический бенчмарк AR(1) и метод скользящего окна (Sliding Window)

1.1. Базовая неадаптивная модель

В качестве отправной точки используется авторегрессионная модель первого порядка, где предиктором выступает лагированная доходность за предыдущий шаг:

r_hat_{t+1} = w * r_{t-1} + b

При обучении методом наименьших квадратов (OLS) на всей исторической выборке получены следующие параметры:

Вес (w): -0.02902972 (контр-трендовый характер)
Свободный член (b): +0.00140446

Критический дефект модели: Свободный член b по модулю существенно превосходит динамическую компоненту w * r_{t-1}. Как следствие, математическое ожидание прогноза практически всегда строго больше нуля. Распределение сигналов показало: Long — 1991 день, Short — 104 дня. Модель выродилась в пассивную стратегию удержание актива (Buy & Hold) и полностью сливает капитал в периоды затяжного медвежьего тренда.

1.2. Модификация: Скользящее окно (Sliding Window)

Для придания модели локальной гибкости применяется подход переобучения на скользящем историческом окне фиксированной длины k. Оптимизация параметров OLS производится на интервале [t-k, t] для прогнозирования точки t+1.

Недостатки подхода: Экстремальная чувствительность к размеру окна k (короткое окно ловит шум, длинное — запаздывает) и полное стирание макро-памяти ряда за пределами выбранного интервала.

МЕТОД №2: Кодирование скрытых состояний (Feature Engineering / Memory)

Вместо подачи сырых, зашумленных лагов, история доходностей сжимается в низкоразмерное скрытое состояние (Hidden State), выступающее в роли рыночной «памяти».

2.1. Однофакторная модель памяти (Rolling Mean)

В качестве предиктора выступает простое скользящее среднее логарифмических доходностей за окно N=40:

X_t = (1 / N) * SUM_{i=1}^{N} r_{t-i}
r_hat_{t+1} = w * X_t + b

Результаты бэктеста: Вес линейной регрессии инвертировался в положительное состояние (w = +0.0898), превратив модель в Momentum-стратегию (следование за трендом). Количество шорт-сигналов увеличилось со 104 до 380, защищая капитал во время затяжного даунтренда.

2.2. Моделирование относительной памяти (Relative Memory)

Двухфакторная архитектура, оценивающая спред между локальным ценовым импульсом (быстрая компонента) и долгосрочной памятью рынка (медленная компонента):

r_hat_{t+1} = w_1 * r_{t-1} + w_2 * ((1 / N) * SUM_{i=1}^{N} r_{t-i}) + b

Полученные параметры оптимизации:

w_1 (Локальный лаг) = -0.0322
w_2 (Скользящее среднее) = +0.0906

Вывод: Модель выстроила устойчивую структуру — взвешенный арбитраж между трендовой силой макро-памяти и контр-трендовым свойством локального микро-шума. Количество шорт-сигналов возросло до 549, обеспечивая стабильный рост эквити на фазах слома тренда.

Михаил Шардин

25 мая 2026, 05:52
Ответить

МЕТОД №3: Динамическое потоковое обучение (Online Learning)

Переход от концепции пакетного обучения (Full-Batch) к непрерывному стримингу данных. Модель получает одну точку временного ряда, делает Out-of-Sample прогноз, узнает истинный ответ рынка и мгновенно корректирует параметры. Используется алгоритм Passive-Aggressive Regressor на базе стохастического градиентного спуска (SGD). Функция потерь определяется как epsilon-insensitive loss:

L = max(0, |y_hat_t — y_t| — epsilon)

Passive режим: Если абсолютная ошибка прогноза находится в пределах порога epsilon (L = 0), веса модели не изменяются (w_{t+1} = w_t).
Aggressive режим: Если ошибка превышает порога, модель производит мгновенную направленную коррекцию вектора весов (Error Correction), прямо пропорциональную величине ошибки.

Программная реализация онлайн-цикла (Python)

from sklearn.linear_model import PassiveAggressiveRegressor
from sklearn.preprocessing import StandardScaler

# Инициализация онлайн-модели и потокового скалера
model = PassiveAggressiveRegressor(C=1.0, epsilon=0.001, random_state=42)
scaler = StandardScaler()

for t in range(41, len(df)):
    X_t = df['close_log_return_lag_1'].iloc[t].values.reshape(-1, 1)
    y_t = df['close_log_return'].iloc[t]

    # Потоковое обновление параметров скалера
    scaler.partial_fit(X_t)
    X_t_scaled = scaler.transform(X_t)

    # Out-of-Sample прогноз ДО корректировки весов
    y_hat = model.predict(X_t_scaled)[0]

    # Шаг градиентной коррекции параметров модели на основе истинного y_t
    model.partial_fit(X_t_scaled, [y_t])

Статистические результаты: Точность направления (Directional Hit Rate) составила 50.41%. Распределение позиций: Long — 1071, Short — 976. Баланс сигналов приблизился к отношению 50/50, полностью ликвидировав лонг-сдвиг. Вектор весов непрерывно колеблется во времени, переключая модель между режимами Momentum (w > 0) и Mean Reversion (w < 0) без проклятия размерности.

МЕТОД №4: Обучение с подкреплением (Reinforcement Learning / Policy Gradient)

Моделирование торговой логики в рамках частично наблюдаемого Марковского процесса принятия решений (POMDP). Целью является прямая оптимизация параметров торговой политики (политики действий) без промежуточной оценки функции ценности.

4.1. Концепция Двурукого Бандита (Two-Armed Bandit)

Торговая среда интерпретируется как игровой автомат с двумя рычагами:

Рычаг 0 (Heads) — Открытие позиции Long.
Рычаг 1 (Tails) — Открытие позиции Short.
Награда (R_t) — При верном выборе направления R_t = +1.0; в противном случае R_t = -1.0.

Используется алгоритм REINFORCE (Policy Gradient). Обучаемые параметры нейросети (логиты действий) трансформируются через слой Softmax в вероятностное распределение действий pi_theta(a|s).

4.2. Ловушка Vanilla REINFORCE и локальный оптимум

В стационарных условиях (тренд вверх, монета падает орлом в 70% случаев) базовый алгоритм REINFORCE максимизирует вероятность прибыльного действия: pi(a_long) -> 1.0. При резком наступлении смены режима (вероятность падения орла падает до 20%, а шорт становится прибыльным в 80% случаев), Vanilla-агент полностью теряет способность к адаптации. Так как вероятность шорта была сведена к нулю, фаза исследования среды (Exploration) прекращается. Агент продолжает совершать 100% лонг-сделок, уходя в глубокую просадку.

4.3. Архитектурное решение: Регуляризация энтропии Шеннона (Shannon Entropy)

Для сохранения уровня исследования (Exploration) и предотвращения преждевременного коллапса распределения политики, в функцию потерь вводится штраф за чрезмерную уверенность — энтропия Шеннона H(pi):

H(pi) = — SUM_{i} pi(a_i) * log pi(a_i)
Loss_total = Loss_policy — beta * H(pi)
Loss_total = -log pi_theta(a_t | s_t) * R_t — beta * H(pi)

Где beta (Entropy Beta) — гиперпараметр регуляризации, определяющий вес компоненты исследования.

Реализация кастомного шага обучения на PyTorch

import torch
import torch.nn as nn
from torch.distributions import Categorical

class PolicyNetwork(nn.Module):
    def __init__(self):
        super(PolicyNetwork, self).__init__()
        self.theta = nn.Parameter(torch.zeros(2))

    def forward(self):
        return torch.softmax(self.theta, dim=0)

def train_rl_step(policy, optimizer, action_index, reward, beta=0.5):
    probs = policy()
    m = Categorical(probs)

    # Расчет базового лосса политики: -log(prob) * Reward
    policy_loss = -m.log_prob(torch.tensor(action_index)) * reward

    # Расчет дискретной энтропии распределения
    entropy_loss = m.entropy()

    # Комбинированный функционал потерь
    total_loss = policy_loss — beta * entropy_loss

    optimizer.zero_grad()
    total_loss.backward()
    optimizer.step()

Результаты симуляции смены режима (эпизод 1000): Vanilla REINFORCE застревает на вероятности лонга 100% и полностью сливает профит. Модель с регуляризацией энтропии удерживает базовую вероятность лонга на уровне ~0.93, оставляя стабильные 7% на случайное сэмплирование коротких позиций. При наступлении смены режима скрытые шорты начинают приносить профит (R_t = +1.0). Градиент мгновенно считывает изменение знака награды, и модель за 150 шагов полностью перестраивает логиты, адаптируясь под медвежью фазу.

Сравнение целевых функций: Online Learning против Reinforcement Learning

Критерий	Online Learning (Passive-Aggressive SGD)	Reinforcement Learning (Policy Gradient + Entropy)
Горизонт планирования	Локальный, «жадный» (минимизация ошибки на шаге t+1).	Глобальный, долгосрочный (максимизация кумулятивной дисконтированной награды).
Целевая функция	Точность прогнозирования движения знака цены.	Траектория геометрической доходности и минимизация Max Drawdown.
Поведение модели	Оптимизирует точность модели на текущей свече, игнорируя кумулятивные просадки капитала во времени.	Агент способен временно удерживать позицию, фиксировать микро-убытки или выходить в кэш, если траектория этого действия максимизирует итоговую доходность портфеля на всей дистанции.

Михаил Шардин

25 мая 2026, 05:52
Ответить

Михаил Шардин, ну и в чем смысл этих подгоночных изысканий? Тут есть хоть одна идея про отличие цены от случайного блуждания ?

Кирилл Гудков

26 мая 2026, 18:08
Ответить

Читайте на SMART-LAB:

Инвестиции без спешки: торгуем в выходные

Алексей Девятов Клиенты Альфа-Инвестиций могут совершать сделки в выходные . Торги в эти дни не отличаются волатильностью, но если всё-таки...

Альфа-Инвестиции

24 июля 2026, 16:14

⚡️ Ключевая ставка – 14%. Что это значит для Займера?

Банк России снизил ключевую ставку до 14% вопреки прогнозам большинства аналитиков – они предсказывали ее сохранение на прежнем уровне. Как...

Займер

24 июля 2026, 14:02

NZD/JPY: продавцы входят во вкус?

Кросс-курс NZD/JPY протестировал область сопротивления в диапазоне 95.00–95.41, сформировав разворотную свечную модель «медвежье поглощение»....

Олег Свиргун

23 июля 2026, 22:11

РУСАГРО: возвращение дивидендов и неизбежных иксов

РУСАГРО помимо хорошего операционно отчета, выпустила долгожданный (хотя и невероятный) сущфакт «С учетом установленных Определением...

Олег Кузьмичев

24 июля 2026, 20:27

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Как адаптировать торговые стратегии к изменениям рыночного режима?

1.1. Базовая неадаптивная модель

1.2. Модификация: Скользящее окно (Sliding Window)

2.1. Однофакторная модель памяти (Rolling Mean)

2.2. Моделирование относительной памяти (Relative Memory)

Программная реализация онлайн-цикла (Python)

4.1. Концепция Двурукого Бандита (Two-Armed Bandit)

4.2. Ловушка Vanilla REINFORCE и локальный оптимум

4.3. Архитектурное решение: Регуляризация энтропии Шеннона (Shannon Entropy)

Реализация кастомного шага обучения на PyTorch

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога Михаил Шардин

Авторизация

Ленты

Форумы

Участники

Котировки

Акции

Календарь

Информация

Книги

Как адаптировать торговые стратегии к изменениям рыночного режима?

1.1. Базовая неадаптивная модель

1.2. Модификация: Скользящее окно (Sliding Window)

2.1. Однофакторная модель памяти (Rolling Mean)

2.2. Моделирование относительной памяти (Relative Memory)

Программная реализация онлайн-цикла (Python)

4.1. Концепция Двурукого Бандита (Two-Armed Bandit)

4.2. Ловушка Vanilla REINFORCE и локальный оптимум

4.3. Архитектурное решение: Регуляризация энтропии Шеннона (Shannon Entropy)

Реализация кастомного шага обучения на PyTorch

полезные записи за 24 часа

Лучшие записи за 24 часа

самые обсуждаемые сегодня

теги блога Михаил Шардин