Не все RL алго одинаково полезны

Интересный тред на ycombinator — обсуждение пейпера Using Reinforcement Learning in the Algorithmic Trading Problem. Понятное дело, к пейперу много претензий — вероятный оверфит, малый ProfitPerTrade, нереалистичные условия бэктеста и т.д. Если бы все это было учтено, статьи бы мы не увидели.
Кроме дельных замечаний от бывших квантов, узнал из комментов про фатальный недостаток A3C — теоретическую малоприменимость в состязательных средах:

An additional problem with this is that they use A3C here for trading. A3C is known to not be suitable for adversarial environments (e.g. board games, like Chess). I wrote a paper that demonstrated that A3C is as exploitable as a uniform random strategy in board games (specifically, some poker variants): arxiv.org/abs/2004.09677

It’s mostly an issue that A2C isn’t designed for adversarial environments. It also doesn’t have any notion of hidden information, while other algorithms (eg CFR) explicitly handle this. There’s a well-known phenomena of cycling, where agent A will beat agent B which beats agent C which beats agent A; A2C can exhibit this. Think of rock/paper/scissors- AlwaysRock beats AlwaysScissors which beats AlwaysPaper. To avoid this, you typically need to do some sort of averaging.
link

Понятно, что многие алго из описанных в интернете можно доработать и построить на их основе рабочую стратегию. Так что не принимаем это близко к сердцу и продолжаем экспериментировать.

ipsnow

Москва

115

с 11 января 2020

1 Комментарий

3Qu
01 мая 2020, 00:17
Материал ничего себе. Безусловно проблемы есть, но большей частью они надуманны, скорее потому, что авторы (топика и комментов) не знают как их обойти.
0

Читайте на SMART-LAB:

NZD/CAD: Рождение тренда или ложный маневр "киви"

Кросс-курс NZD/CAD в настоящий момент тестирует пробитую нисходящую линию тренда (построенный по точкам 1 и 2), а также значимый уровень поддержки 0.8134. Примечательно, что торговый день...

Tickmill

24.02.2026

Ставки в юане не опускаются и после китайского Нового года

Праздничная неделя в Китае закончилась. Те кто считал, что ставка размещения свободных юаней на МосБирже поднялась перед китайскими выходными и упадет после, могут взглянуть на монитор....

Иволга Капитал

06:33

О чем намозгоштормили сегодня в Mozgovik Research?

Доброго! Традиционный мозговой штурм перенесся на вторник из-за праздника. Продолжаю держать в курсе.

Mozgovik

24.02.2026

Длинные ОФЗ: зарабатываем как по ВДО

Б РФ 13 февраля в очередной раз снизил ключевую ставку до 15,5%, тем самым продолжив тренд смягчения ДКП (кумулятивное снижение с июня 2025 г. составило 550 б. п.). Под влиянием этого цикла...