CloseToAlgoTrading
CloseToAlgoTrading личный блог
07 сентября 2020, 20:02

Обучение с подкреплением. Торговая среда для агента.

Всем привет.

Продолжаем искать волшебную таблетку :). Так как самим думать не очень хочется, а технологии шагнули довольно далеко вперед и сделали возможным использование нейронных сетей совместно c алгоритмами обучения с подкреплением, решил я попробовать, что же может из этого получиться.

Я создал простенькую торговую среду, которая правда не содержит никаких реальных данных, а содержит всего лишь сгенерированны ряд по 20 значений. 

Выглядят он так:

Обучение с подкреплением. Торговая среда для агента.



Все начинаеся с того, что агенту доступны певые 10 значений, и у нас есть всего 10 шагов, на которых мы должны получить максимальный результат. 
Агенту так же доступны 4 действия: купить, продать, пропустить шаг и закрыть открытую позицию.

По большому счету, агент просто должен запомнить 10 точек и соответсвующие действия, дабы получить максимальную прибыль.

Далее, взяв простого DQN агента, и два разных варианта среды: одна содержит только один сгенрированный ряд, вторая содержит два:

Обучение с подкреплением. Торговая среда для агента.


Получился вот такой интересный результат:

Обучение с подкреплением. Торговая среда для агента.



Выглядит все довольно не плохо, и возможно имеет смысль построить более реальную среду, да и агента взять поумнее, обучить его в течении пары недель :), может что и выйдет.

Если уже кто пробовал, поделитесь опытом?

Ну и конечно, если кто то заинтерисовался, сделал я видюшку с некоторыми подробностями касательно разработки самой среды. Есть русские субтитры.



ну и в описании к видео имеется ссылка на github с кодом.

14 Комментариев
  • Volahub
    07 сентября 2020, 20:06
    баловство ведь
  • day0markets.ru
    08 сентября 2020, 10:19
    Я учил. Писал среду сам под это дело. Оно умеет учиться, если вы скармливаете рабочие предикторы. Чисто на котировках — ничего толкового, во всяком случае у меня — не вышло. На предикторах, которые уже известно, что рабочие, агент смог что-то вытащить стратегию более менее стабильную. Но оптимизацией того же самого можно добиться в разы быстрее, при этом не нагревая воздух видеокартой. Ну может у вас и получится. Удачи.

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн