Избранное трейдера wess

Всем привет.
Это мой первый пост, я не трейдер и не спекулянт, хотя в рынке я с 2021 года, но в основном покупал только облигации, ВДО, итд. Перед 24 февраля 2022 года я, вышел из всех активов в наличку и переложился в фонд ликвидности. Уже слабо помню где именно у меня крутились деньги — Фонд Ликвидности, Сберегательные счета, какие то облигации, но в декабре 2023 года я все деньги положил в фонд ликвидности и спокойно сидел в нем имея 19.5% годовых за 2024 год, меня все устраивало.
И вот в феврале 2025 года, после разговора Путина и Трампа черт меня дернул вывести все из ликвидности и купить юань, реально, дернул черт и жажда наживы) Покупал я конечно же на свои, я не приемлю плечи, заемные средства, итд. Покупал по курсу 12.39р за юань, курс доллара тогда был около 91р за $, и стал ждать. На следующий день я даже увидел небольшой профит, ну думаю, удачно купил, сейчас вот пройдет вся эта эйфория и полетим на 13.5р за юань или 98-100р за $. Еще через 3 дня мой счет показывал почти -3.5%, а юань «укатали» до 12р, обидно, досадно, но ладно…
Эксперимент DeepSeek-R1-Zero показал нечто замечательное: используя чистое обучение с подкреплением с тщательно продуманными функциями вознаграждения, им удалось заставить модели развивать сложные способности рассуждения полностью автономно. Речь шла не только о решении проблем — модель органически научилась генерировать длинные цепочки мыслей, самостоятельно проверять свою работу и выделять больше вычислительного времени для более сложных задач.
Техническим прорывом здесь стал их новый подход к моделированию вознаграждения. Вместо того чтобы использовать сложные нейронные модели вознаграждения, которые могут привести к «взлому вознаграждения» (когда модель находит фиктивные способы увеличить свои вознаграждения, которые на самом деле не приводят к лучшей производительности модели в реальном мире), они разработали умную систему на основе правил, которая сочетает вознаграждения за точность (проверку окончательных ответов) с вознаграждениями за формат (поощрение структурированного мышления). Этот более простой подход оказался более надежным и масштабируемым, чем модели вознаграждения на основе процесса, которые пробовали другие.