Блог им. ipsnow

Не все RL алго одинаково полезны

    • 30 апреля 2020, 22:23
    • |
    • ipsnow
  • Еще
Интересный тред на ycombinator — обсуждение пейпера Using Reinforcement Learning in the Algorithmic Trading Problem. Понятное дело, к пейперу много претензий — вероятный оверфит, малый ProfitPerTrade, нереалистичные условия бэктеста и т.д. Если бы все это было учтено, статьи бы мы не увидели.
Кроме дельных замечаний от бывших квантов, узнал из комментов про фатальный недостаток A3C — теоретическую малоприменимость в состязательных средах:

An additional problem with this is that they use A3C here for trading. A3C is known to not be suitable for adversarial environments (e.g. board games, like Chess). I wrote a paper that demonstrated that A3C is as exploitable as a uniform random strategy in board games (specifically, some poker variants): arxiv.org/abs/2004.09677

It’s mostly an issue that A2C isn’t designed for adversarial environments. It also doesn’t have any notion of hidden information, while other algorithms (eg CFR) explicitly handle this. There’s a well-known phenomena of cycling, where agent A will beat agent B which beats agent C which beats agent A; A2C can exhibit this. Think of rock/paper/scissors- AlwaysRock beats AlwaysScissors which beats AlwaysPaper. To avoid this, you typically need to do some sort of averaging.
link


Понятно, что многие алго из описанных в интернете можно доработать и построить на их основе рабочую стратегию. Так что не принимаем это близко к сердцу и продолжаем экспериментировать.
  • Ключевые слова:
  • RL
2.1К | ★2
1 комментарий
Материал ничего себе. Безусловно проблемы есть, но большей частью они надуманны, скорее потому, что авторы (топика и комментов) не знают как их обойти.
avatar

Читайте на SMART-LAB:
Фото
NZD/CHF: цены уперлись в потолок, давая шанс на снижение
Кросс-курс NZD/CHF оттолкнулся от области сопротивления, сформированной между уровнями 0,4663 и 0,4674. При этом текущий день (среду) цена пробует...
Фото
Идеальное рабочее пространство трейдера: виджеты и визуализация данных
Биржевая торговля при помощи ботов и алгоритмов — это ряды очень быстрых процессов. На ее эффективность влияют скорость обработки данных и...
Фото
Как возможное ограничение вывоза золотых слитков увеличит вторичный рынок золота в среднесрочной и долгосрочной перспективе
С 1 сентября 2026 года вывоз из России золотых слитков весом более 100 г физическими лицами может стать возможен только при наличии...
Фото
Пошли продажи… Изменения в портфеле
Последний раз писал про портфель 13 января и сегодня я совершил несколько небольших сделок. Структура портфеля на 13.01.2026г.:

теги блога ipsnow

....все тэги



UPDONW
Новый дизайн