Блог им. Collapse

[конкурсная статья] Миллиарды на краю вероятности

[конкурсная статья] Миллиарды на краю вероятности

[конкурсная статья] Миллиарды на краю вероятности

Предпосылки к моделированию


«Мы правы всего в 50.75 % случаев… Но мы на 100 % правы в 50.75 % случаев, — сказал Мерсер другу. — Таким способом можно заработать миллиарды».

Это не рецензия на книгу — я её не читал, но упомянутая в ней оценка смещённой вероятности вызвала у меня интерес, достойный небольшого исследования.

Прибыль по каждой сделке никогда не была огромной, и фонд выигрывал чуть больше, чем в половине случаев, но этого было более чем достаточно.

Отсутствие деталей вынуждает опираться на простейшее предположение (Take Profit = Stop Loss), чтобы построить модель.

Унифицированный бенчмарк стратегий


(необязательный технический раздел; статья остаётся самодостаточной и без него)

Для сопоставления эффективности любой другой торговой стратегии (у которой TP ≠ SL) с унифицированным представлением (TP = SL) эквивалентная вероятность успеха определяется формулой:

[конкурсная статья] Миллиарды на краю вероятности

где:

p — эмпирическая доля успешных сделок;
W — средняя прибыль по прибыльным сделкам;
L — средняя абсолютная величина убытка по убыточным сделкам;
μ — математическое ожидание приращения (средняя прибыль на сделку);
C — масштабный коэффициент (условная величина, к которой приводятся TP и SL). Задаёт шкалу p_eq: больше C — сильнее сжатие вокруг 0.5, меньше C — растяжение.

Условия корректности: p ∈ (0; 1), W > 0, L > 0, C > 0. Для одной стратегии (фиксированных p, W, L) необходимо и достаточно C ≥ |μ|, чтобы p_eq ∈ [0; 1]. Для единого C на любые p ∈ [0; 1] необходимо и достаточно C ≥ max(W, L).

Главное правило: одна и та же нормировка для всех стратегий. Рекомендуемый базовый (симметричный) вариант: C = max{(W + L) / 2, |μ|} (при WL обеспечивает локально несмещённую шкалу: p_eqp).

Такое преобразование сохраняет μ, но изменяет дисперсию и не является строгим тождественным переходом между исходной стратегией и моделью. p_eq агрегирует p, W и L, но не учитывает структуру исходов, из которых получены эти величины. Поэтому сам по себе его рост ещё не означает, что один алгоритм лучше другого. Тем не менее этот показатель даёт единый масштаб сравнения: по нему удобно сопоставлять разные стратегии как между собой, так и с результатами моделирования из этой статьи (в рамках которой формула не используется, а лишь предоставляется как инструмент).

Алгоритм


1. Выбирается распределение Бернулли, возвращающее +1 с вероятностью p и −1 с вероятностью 1 − p.

2. Генерируются псевдослучайные числа (Mersenne Twister) и по порогу p преобразуются в исходы {+1, −1}.

3. Строится график накопленной доходности для n сделок.

4. Вычисляется коэффициент корреляции Пирсона (r) между массивом накопленной доходности (включая стартовую нулевую точку) и индексами 0, 1, 2, …, n (дискретным временем модели).

5. Шаги 1–4 повторяются миллион раз.

6. Полученные r сортируются по возрастанию; отбираются три опорные величины: 1-й процентиль (10 000-й элемент), медиана и среднее.

7. Шаги 1–6 выполняются независимо для каждого p ∈ [0.5005; 0.5250] с шагом 0.0005.

Наблюдения


Коэффициенты Шарпа и Сортино (в представлении TP = SL) ведут себя предсказуемо: линейно растут с увеличением p и не дают дополнительной информации сверх того, что уже даёт само значение p. А вот коэффициент Пирсона показывает более интересную картину: его динамика не сводится к простой линейной зависимости и меняется вместе с размером выборки n.

Этот безразмерный коэффициент принимает значения в диапазоне [−1; 1] и отражает силу и направление линейной зависимости между двумя переменными. Его величина по модулю характеризует, насколько плотно данные «прижаты» к линии линейной регрессии (без необходимости её построения), а знак определяет, наклонена ли эта линия вверх или вниз — то есть, соответствуют ли наблюдаемые изменения положительному или отрицательному тренду. Линия линейной регрессии — это прямая, которая наилучшим образом «подстраивается» под данные, минимизируя сумму квадратов отклонений точек от неё.

Диаграммы


n = 1 000

[конкурсная статья] Миллиарды на краю вероятности

n = 5 000

[конкурсная статья] Миллиарды на краю вероятности

n = 10 000

[конкурсная статья] Миллиарды на краю вероятности

n = 30 000

[конкурсная статья] Миллиарды на краю вероятности

Вертикальная ось — r. Горизонтальная ось — смещение вероятности относительно 50 % (в процентных пунктах).

Интерпретация кривых


Жёлто-оранжевая — 1-й процентиль распределения r (граница худшего 1 %). То есть при n = 1 000 и смещении даже втрое выше «ориентира» из книги (0.75 п.п. × 3 = 2.25 п.п.) остаётся заметный риск отрицательного наклона линии регрессии (r < 0). Лишь при n = 5 000 и смещении не менее 1.75 п.п. вероятность сохранения капитала достигает 99 %.

Сине-голубая — медиана распределения. При n = 5 000 и смещении 0.75 п.п. соответствующее значение r оказывается весьма низким — 0.78.

Светло-серая — среднее по миллиону значений. Оно занижено относительно медианы (из-за влияния нижней части выборки) и носит иллюстративный характер.

Салатово-зелёная — среднее по ста тысячам значений, полученное после группировки результатов симуляций по 10 (исходное n не меняется, пересчитывается лишь новое r для объединённых серий). Кривая остаётся результатом усреднения сильно колеблющихся значений, но при этом наглядно выявляет тенденцию — значения заметно выше медианы. Такой эффект отражает преимущество параллельной торговли множеством некоррелированных инструментов. При n = 5 000 и смещении 0.75 п.п. соответствующее значение r повышается до 0.95, однако этого всё ещё недостаточно для получения ровной equity.

Примеры траекторий


p = 0.5175; r ≈ 0.95 (±0.001); n = 5 000

[конкурсная статья] Миллиарды на краю вероятности

p = 0.5175; r ≈ 0.97 (±0.001); n = 10 000

[конкурсная статья] Миллиарды на краю вероятности

p = 0.5175; r ≈ 0.99 (±0.001); n = 30 000

[конкурсная статья] Миллиарды на краю вероятности

Масштабы осей различаются. Серо-синяя кривая — траектория эквити; коралловая прямая — линия регрессии. Для каждого r показана серия с медианной RMSE (root mean squared error, среднеквадратичная ошибка) среди первых 10 000 реализаций, попавших в заданное окно.

Медиана RMSE даёт типичную амплитуду отклонений при фиксированном r и отсеивает крайние «удачные/неудачные» примеры. Большее RMSE означает большую амплитуду отклонений от тренда (кривая может выглядеть «гладкой», но уходы крупнее); меньшее RMSE — меньшую амплитуду (частые мелкие колебания создают впечатление «дёрганности»).

Практические замечания


1. Несмотря на теоретическую модель, под результатом следует понимать практическое значение p. В реальных условиях транзакционные издержки (комиссии, спред, проскальзывание) занижают W и увеличивают L; эффект тем сильнее, чем меньше μ.

2. Нелинейность хорошо иллюстрирует динамика нулевой точки жёлто-оранжевой кривой: ~1.75 п.п. (n = 5 000), ~1.25 п.п. (n = 10 000), ~0.75 п.п. (n = 30 000). Поскольку это 1-й процентиль, речь о пороге безубыточности «хвоста»: он снижается медленно — значит, для неубыточной торговли в худшем 1 % серий требуется существенный запас преимущества.

3. Для r усреднение по независимым инструментам эквивалентно росту n (при том же p): усреднение 10 независимых рядов длины 1 000 даёт значение r, сопоставимое со значением для одного ряда длины 10 000. Поэтому на диаграммах салатово-зелёная кривая при n = 1 000 и светло-серая при n = 10 000 практически совпадают; различия — на уровне статистического шума.

4. Стабильный рост доходности начинается не при r > 0.95 и даже не при r > 0.97, а лишь при r > 0.99000 — когда значимыми становятся различия в третьем-пятом знаках после запятой. Однако даже в этом случае необходимы дополнительные критерии оценки качества (RMSE, хвостовые метрики и т.д.).

5. Для устойчивого заработка в большом смещении (более 2 п.п.) необходимости действительно нет, но и сравнительно небольшое смещение (менее 1 п.п.) — малопригодно. Разумный априорный ориентир для отбора стратегий — около 1.5 п.п. На этом уровне салатово-зелёная кривая при n = 5 000 как раз даёт r = 0.99046. Впрочем, это лишь среднее по группам из десяти «инструментов», тогда как на Московской бирже ликвидных — всего три.

Вывод


Моделирование наглядно показывает, что увеличение числа сделок (n) способно компенсировать недостаточную точность прогнозов (p), повышая устойчивость результата (оценку r). Алгоритмические хедж-фонды располагают огромным n, тогда как частный трейдер в этом ограничен.

Мерсер, по-видимому, в точности не понимал торговые возможности своей фирмы — для него более значимым оказалось то, что Renaissance совершал тысячи одновременных сделок — небольшое преимущество, но достаточно весомое и последовательное, чтобы сколотить огромное состояние.

На самом деле это и было их решающим преимуществом.

---

@Multifractal (TG) | трейдер · алготрейдер · аналитик компьютерных систем

---

P.S. Несмотря на то что 23 — простое число, важно делить не только прибыль, но и нагрузку. Если у кого-то есть инфраструктурная возможность обеспечить приличное (параллельное) n, давайте объединим усилия: я как раз работаю над достойным p_eq. Стратегия основана на инерционном, немасштабируемом свойстве рынка. Класс — «intraday momentum-continuation» с геометрическим триггером и режимно-зависимыми фильтрами (не HFT). На исторических данных не «сливает» и не требует «подгонки» под конкретный актив, но для реальной торговли нужен портфель инструментов с достаточно сильной и стабильной «трендовостью».

Теоретические результаты за 2008–2025 гг. на SBER (без учёта транзакционных издержек и пока ещё без разрабатываемого улучшения входа по «лимиткам», снижающего их влияние): μ = 0.13 %; p_eq = 0.58 (в базовой симметричной нормировке); r = 0.99305 (по сделкам за 2010–2025 гг.); profit factor = 1.54; медианное время в позиции — 1.5 часа; среднегодовая прибыль — 93 % (без плеча); максимальная просадка — 12 %; среднее количество сделок в торговый день — 2.8 (без «овернайтов»). Результат был особенно хорош в кризисные 2008–2009 гг. (при существенно большем наклоне линии регрессии).

Ближайшая задача — расширить набор таких инструментов на российском и зарубежных рынках.
14.2К | ★27
50 комментариев

уважаемый автор упомянул распределение   Бернулли, как помним из статей общего учителя, на рынке распределение Лоренца, Лоренцы бывают разные ).

Зеленая кривая на графике это логарифм ( натуральный, тут подсказывают более сведущие коллеги ) и у него должна быть пара -экспонента на финише. Как полагается в хаотических системах .

 

avatar
Интересно, как бы Мерсер прокомментировал данную статью 
Yan Vas | Antifragile Trader, Он бы ничего не понял, как и 99,999 % прочитавших
avatar
можно мне 20000 руб. на восстановление нервных клеток после встречи с данной статьей
avatar
в чем проблема вместо моделирования взять 30 смаых ликвидных активов… отнормировать их по цене… засунуть все это в тестер и посмотреть результат... 

вообще все крайне просто… надо только начать а потом сам все увидишь… имхо самый простой актив для торговли на российском рынке это rgbi sber
успехов
avatar
Поразительная статья. Сложные формулы, графики… Сразу виден серьёзный научный подход! Вывод колоссален. Напомнило байку про доклад на конгрессе биологов, где по результатам большого количества наблюдений было обнаружено, что окружность любого муравейника примерно втрое длиннее его диаметра.
avatar
В разделе Алгоритм
5. Шаги 1–4 повторяются миллион раз.
Интересно, какую реальную историю торгов и с каким тайм-фреймом это должно моделировать?
Наиболее успешные стратегии Джима (Джеймса) Саймонса держали позицию от 1 часа до 2 дней.
За всю историю торгов на Мосбирже не наберётся 100 тыс торговых часов. Даже 5-минуток не наберётся 1 млн. А за 1 мин держания позиции движение цены не оправдает комиссию.

Если что-то моделируешь, то первое требование — реалистичность. И оно уже не соблюдено.
А упоминание выбора какого-то распределения (Бернулли и ещё чего) и генерации псевдослучайных чисел полностью подрывает полезность эксперимента с тестирование доходности стратегии.

PS Очень странные цели ставит автор статьи
Ближайшая задача — расширить набор таких инструментов на российском и зарубежных рынках.
Если статья начата с упоминания Дж.Саймонса — у него не было таких космических планов, обходился тем что есть.
Имея реальную историю торгов, никому не нужно выдумывать искусственные распределения доходности и никто в тестировании не ограничен числом безденежных сделок — повтори стратегии Дж.Саймонса и прокрути их хоть на 10 млн сделок.
А если таких стратегий нет — зачем толочь воду в теоретической ступе?
PPS «Здесь Родос, здесь прыгай!» © Эзоп
avatar
Да если «1. Выбирается распределение Бернулли, возвращающее +1 с вероятностью p и −1 с вероятностью 1 − p.», то вероятность числа n "+1"  при N испытаниях равна

Р(n)=C(N,n)*pn*(1-p)N-n,
C(N,n)=N!/(n!*(N-n)!) – число сочетаний из N по n, m!=1*2*…*m

А при больших N и постоянном p число «1», деленное на корень из N,  распределено, как нормальное распределение со средним p*N1/2 и дисперсией p*(1-p).

avatar
А. Г., всегда поражался, как любят любители математики бросаться в вычисления по любому поводу, даже не вникнув в КПД, А нужны ли эти вычисления?
Вся эта статья — Чудесна, если не одно НО !
Мы никогда не можем быть уверены, что мы точно вычислили вероятность будущего движения цены. 
И кстати — это невозможно, ибо мы не знаем, что на нее повлияет в будущем. 
Можно сколько угодно вычислять прошлые вероятности, и кстати там тоже будут ошибки и погрешности, НООО будущие — просто смешно. 
Вывод
эти 50,75 — ничтожное преимущество ибо оно полностью съедается погрешностью, 
В любых наших вычислениях — если мы в здравом уме — мы долджны понимать, что вычисляя вероятности того, чего мы до конца не понимаем — нужно заложить некую погрешность. Пусть 1%. Хотя вообще нужно 5%, но и один — съедает всю прибыль, Мнимую и без того. 
Вообщем счастливых вычислений .....

Я уж молчу, что какой-то Цукерман, рассказывает про Саймонса, как он заработал !!!
Сам Саймонс, как и  Баффет, никогда этим не делились. 
Один бог знает, КАК и Что они делают.
(и как обычно бывает — потом — там далеко не все законно, капитализм знаете ли, прибыль превыше всего !)

И у остальных — ничего не йокает, читая и рассуждая о сказках и бреднях третьих лиц, просто высказывающих свое мнение, глупое чаще всего. 
И это трейдеры ......
А некоторые еще и работают в Финаме...., управляют так сказать...
шутка. 
Но с долей…
Виталий Зотов, автор прав, когда показывает на каком количестве испытаний 50,75 совсем не ничтожное преимущество, если это бросание такой монетки с выигрышем «рубль» и проигрышем «рубль».

А уж что про рынок  можно сказать про 50,75 или выгрышем-проигрышем " рубль" — это другой вопрос. 
avatar
А. Г.,
зачем пересказывать Закон больших чисел заново?
это и ежу ясно. 
Где это преимущество в 50,75 % ?
откуда оно свалилось? Кто это его БЕЗошибочно так сумел вычислить?
С чего кто-то решил, что Саймонс именно так и заработал?

вопросы риторические
и не важные
Важно же просто муку перемалывать
делать бесполезные вычисления.
за умного сойдешь, как говорится. 
Виталий Зотов, возьмите предельную. теорему с 10000 испытаний с вероятностью успеха 0,5075 по моим формулам и легко увидите, что графики автора — истина. 

Но повторю — это результы для постоянного 0,5075 и большого числа бросаний. Никаких доказательств, что каждый шаг вероятность успеха была 0,5075 нигде нет. 
avatar
А. Г., 
а зачем тогда это все считать, если 
Никаких доказательств, что каждый шаг вероятность успеха была 0,5075 нигде нет. 
может сначала поискать доказательства? 
Ведь суть то в этом. 
Просто поумничать, полагаю, когда дельного сказать нечего. 
это автору посыл. 
Ну и вам, вы же эту тему поддержали. Ну и остальным причастным к обсуждению. 
Виталий Зотов, 
может сначала поискать доказательства? 
Любой успех в делах и должен начинаться с простейшей модели. 
avatar
А. Г., верно. Но любой рынок… абсолютно любой подчиняется немного другой кривой.
avatar
Vladimir N., да близость приращений фондовых индексов многих стран к обобщённым гиперболическим распределениям ещё во второй половине 90-х доказали кванты в куче работ. Только если исходные последовательности нестационарны, то такие «приближения» не имеют практической ценности. 
avatar
А. Г., сама цена своим поведением и действиями стационарна, но почти всем это незаметно глазу. Искал закономерности визуализируя индикаторы собственных теорий (написанные на фриланс) на динамике цены. Про распределение согласен, там тоже есть свои тонкости.
avatar
Vladimir N., среднее и дисперсии приращений цен точно нестационарны. Могу это показать для разных периодов дневок SPY.
avatar
А. Г., визуально?
avatar
Vladimir N., по обычным критериям Колмогорова.
avatar
А. Г., объясните мне как человеку с не техническим высшим, правильно понимаю, вы смотрите на значения и делаете построение на основе проделанных манипуляций like this?




А что в итоге должно получиться? Кривая вида распределения Пуассона?
avatar
Vladimir N., вот что я делал

smart-lab.ru/blog/699507.php
avatar
А. Г., можно сказать, почти в яблочко)
Для меня это означает стационарность, почти все флуктуации природные и искусственно сгенерированные подчиняются кривым подобного вида. Поначалу создавал искусственно возможности на цене, преобразуя и манипулируя котировками, потом и вовсе отказался, поняв в чем стационарность. После НГ Фортуна кинет клич в чат для встречи если не забудет (Я там тож есть), при встрече мож дам пару намеков.


(Картинка не моя — взято с форума mql5)
avatar
А. Г., давно в избранном этот пост у меня, как ни странно
avatar
А. Г., ещё раньше на несколько десятков лет не только они
avatar
Vladimir N., данные SPY с 1993-го года есть.
avatar
Виталий Зотов, тут вон буйбуй опционы на лям баксов торгует через приращение функции
avatar
Брать +1 и -1 — плохо отражает реальное движение цен. Чуть лучше было бы брать двумерное распределение: по знаку исхода и по величине исхода. Но и тут эти две оси сильно зависимы и нужно придумать функцию, их связывающую (вместо двумерного распределения получится одномерное).
Причём отдельно для шортов и лонгов, поскольку характеристики их слишком разные. Тогда получится более-менее модель для расчётов и выводов.
avatar
Просто надо понять, что +1 и -1 вам постоянно никто не даст. Будет тыщу раз по 0,05; 0,5; -0,03; -0,7 и десяток раз по +10; -20; -40. И ценности в представленных кривых нет.
avatar
Теорию вероятности пересказал, ок. А дальше то что? Фактические цифры указывают на повышенную доходность при повышенных скачках цен, при этом это ведёт к повышенному риску.
Писал 16 лет назад для некоторых банков риск-менеджмент стратегии, но тогда в цене не все факторы были заложены. И был небольшой шанс выхватить выгодную цену при больших вложениях.
Ещё раньше, лет 100 назад, когда на бумажках считали, то можно было реально больше заработать.
Сейчас по факту только инсайд.
avatar
Лучше бы эквити публичного счета увидеть…
avatar
книгу не читал но накатал свою статью… а причом здесь тогда чуваг с милиардами… ржу-нимагу…
Книга эта для ЗАПАДНОГО рынка, мы же живем в России и к российскому рынку она не применима ).
avatar
вася пашин, давайте конкретно в чем она не применима? 
Yan Vas | Antifragile Trader, на западном фондовом рынке есть тренд… на российском рынке тренда нет… достаточно посмотреть на spy и rtsi

еще на американском рынке очень низкая вола...
еще американский рынок эффективен и ходит гэпами… т.е тренд вроде и было но по акту было 3 — 4ре гэпа а днем жевали сопли 
avatar
ves2010, да это все частности… а если привести графики в свечки построенные не по времени, то я уверен вы большинство графиков не различите (США от РФ)  
Yan Vas | Antifragile Trader, ну так покажи картинку… сравним…
avatar
ves2010, 
Тикер № 1



Тикер № 2



Тикер № 3

Вот три тикера, свечи не временные (по количеству тиков), на каждом графике отображена неделя. Определи где США, а где РФ. 

Yan Vas | Antifragile Trader, ааа так вот что ты имелл ввиду говоря «свечки построенные не по времени» я то думал что это какие нибудь эквиобъемные бары или кретики-нолики...

на графиках четко видно что один из торговых дней сокращенный… скорее всего это 4ое ноября… т.е все эти графики от российской биржи
avatar
ves2010, 







ves2010, Как видим, задача оказалась сложна. 
вася пашин, есть похожая кривая, применима к любому
avatar
Геометрия действительно рисует «рынок». Скорее всего в книге не дано истинных рулящих формул. 0R0L0 — реально двигает. 
Пример: после открытия рынка в понедельник, через 54 часа по золоту начнется тренд (это будет среда, 12 ноября). Высокая вероятность этого события. А дальше просто сиди в позе большим обьемом

пысы 11 ноября:
апдейт. отмена сценария
avatar
Нечего не понял, но понятно что нет изюма
avatar
Не нужно искать какую-то математическую схему которая сделает тебя богатым. Инвестиции это не только про математику но и про эмоции, и черные лебеди которым мало кому удалось предсказать. 🔮
avatar
Maksim_invest, она уже найдена, математика это лишь одно из свойств, формула лишь описывает поведения и события, не более того. А вот как применять это на практике — отдельная философия.
avatar
Проходил через это с ботаниками которые численными методами и могучими формулами искали грааль на опционах на ри еще 10 лет назад. Пока я бухал и драл девок они все это считали ночами. Вывод: они уехали на пиндостан работать на дядю. 
Вся эта математика может оказаться пустой тратой времени
avatar
Вазелин,
avatar
засунуть все это в тостер и посмотреть результат…
avatar

Читайте на SMART-LAB:
Фото
Про вложения в ВДО в контексте дефолта Монополии
Что Монополия – рискованный эмитент, мы пару раз писали в нашем блоге (в телеграм-канале   — по тегу #монополия). Вообще, облигации...
Фото
DXY у ключевой поддержки: шорт-сквиз или новый этап распродажи?
Индекс доллара DXY плавно дрейфует в область месячного минимума в районе 98,50. Однако ослабление доллара на FX неравномерно: EURUSD стоит около...
Фото
Почему можно и нужно проводить ребалансировку портфеля
Фондовый рынок — это динамичная среда, которая постоянно меняется под воздействием новой информации. Из-за этого определенные инвестиционные идеи...

теги блога Multifractal

....все тэги



UPDONW
Новый дизайн