Блог им. Vkt
Попалась статейка на хабре
habr.com/ru/companies/airi/articles/1011256/
Статья большая, но самое интересное в конце.
Ежели кто в теме рубит и есть котировки на большую глубину — имеет смысл поковырять, адаптировать модельку.
Я бы поковырял — но котировок большой глубины в привычных местах на финаме и мфд скачать не смог.
Все обрезали нафиг!
А. Г., ну Вы начали с неверной даты (80-ых), а это позволяет заподозрить, что и в остальном Вы ошибаетесь ))
тут Вы уже вообще съезжание с темы
мы спорили о том, «можно ли подавать нестационарные ряды в ИИ». А Вы ответили утверждением из метаматематики: «вообще в математике дата не важна».
Это как спорить о том, болит ли у человека голова, и услышать в ответ: «В анатомии череп состоит из костей». Правда, но не по делу.
в чистой математике, в мире платоновых идеальных сущностей, дата действительно не важна. Но мы обсуждаем статистическое обучение и прогнозирование временных рядов. А там дата — это не просто число. Дата — это прокси-переменная для нестационарности. Именно разбиение по дате (train до 2023 года, test после 2024) показывает, обобщает ли модель в реальный мир или просто запомнила прошлое. Без даты нет понятия «прогноз в будущее». Без даты любая модель может просто перетасовать данные и получить ложное чувство успеха. Так что в нашей прикладной задаче дата — это самое важное, что есть
А. Г., если в своем сообщении
Вы подразумевали теорему о несуществовании оптимальных прогнозов -UMMSEP — uniformly minimum mean-squared-error predictor, то дата её публикации емнип 1992 год, что никак не 80-ые годы (Вам как специалисту по работе с цифрами должна быть ясна важность точности деталей), что и позволило мне намекнуть Вам на несоответствие дат
И не ИИ меня тогда интересовал, а методы дешифрования. Для меня это в каком-то смысле был аналог теоремы Шеннона 1946-го года, о невозможности дешифрования при наложении на двоичный открытый текст неизвестной случайной независимой и равновероятной двоичной последовательности по модулю два.
А. Г., как Вы однако смело гуляете по буфету )))
Сначала говорили про прикладной ML на рынке, а потом — про теорию информации, криптографию и непараметрическую статистику. Это как обсуждать скорость автомобиля и вдруг начать спорить о пределе прочности асфальта — пересекается, но не напрямую.
Теорема Шеннона (правильнее — 1949, но суть та же) гласит:
Н я понял тезис. Вы говорите о строгой теоретической невозможности в классе методов перебора для семиинвариантов независимых нестационарных процессов — да, это близко по духу к теореме Шеннона об абсолютно стойком шифре. Я же про другое: прогноз условного распределения доходностей на рынке с помощью современных ИИ, где у нас нет ни идеальной случайности, ни полного перебора, а есть инженерные трюки. Получается, мы оба правы, но в своих мирах. Но для рынка эта Ваша теорема — не приговор, а лишь напоминание, что абсолютного предсказания не бывает. Что, в общем, и так известно.
Теорема Шеннона не запрещает торговать на рынке. Она запрещает взломать шифр Вернама без ключа. Вы применяете эту логику к своей задаче. Я же увидел, что «нельзя подавать нестационарные ряды» и возразил — но в Вашем мире (оценка семиинвариантов перебором) Вы, вероятно, правы. В моем мире (рыночный прогноз нейросетью с признаками-доходностями) — я прав.
И у Вас второй раз в одной дискуссии засада с цифрами/датами. Что не может не настораживать
Для любого условного распределения это условное среднее является некоторой детерминированной функцией от Х. Это есть в учебнике Медведева, Ивченко 1978-го года.
По всем случайным процессам с конечным матожиданием эти функции представляют собой множество всех конечных функций R^n->R
Для нестационарных процессов эти функции от Х разные в разные моменты времени.
Если никакие свойства любой наблюдаемой конечной функции g(X, t) априори не определены, то определить эту функцию методом перебора улучшающим значение любой однозначной функции от всех наблюдений невозможно, потому что существует бесконечное множество различных функций g, для которых эта величина будет иметь одно и тоже значение.
Кстати, теорема Шеннона — это частный случай последнего.
Вот «откуда» мои «знания». И всё это точно было в высшей математике ещё в первой половине 80-х годов прошлого века, ведь я поступил в физмат ВУЗ в 1979-м.
Теперь дискуссия вышла на настоящий академический уровень. Вы изложили классическую теорию предсказания (Феллер, Ивченко, Медведев) совершенно корректно. Вы не просто «правы в своей вселенной» — Вы цитируете фундаментальные учебники.
Давайте разберем Ваши аргументы строго — и мы увидим, где Вы делаете неявную подмену, который позволяет Вам выглядеть непобедимым.
Вы построили непробиваемую теоретическую стену, которая рушится только об один практический вопрос:
Ваш аргумент (Феллер + Ивченко + Шеннон) доказывает невозможность универсального предсказания для произвольного нестационарного процесса методом перебора.
Но:
В ИИ мы не перебираем все функции Rⁿ→R.
Мы ограничиваем класс: нейронные сети, деревья, гауссовские процессы, линейные модели. Это априорное ограничение. Феллер ничего не говорит о том, что нельзя предсказывать нейросетью — он говорит, что никакая фиксированная функция не будет оптимальной для всех распределений. Но нам не нужно «все распределения». Нам нужно одно — распределение рынка, у которого есть свойства (автокорреляция, кластеризация волатильности, регрессия к среднему).
Метод перебора ≠ градиентный спуск.
Перебор — это «попробуем все функции и выберем лучшую на выборке». Это не как работает deep learning. Нейросеть ищет приближение в непрерывном пространстве параметров, используя регуляризацию и раннюю остановку. Теоретическая невозможность перебора не распространяется автоматически на SGD.
Аналог с теоремой Шеннона у Вас ложный.
Шеннон доказывает абсолютную невозможность дешифрования: никакой алгоритм, даже с бесконечным временем, не восстановит текст. В его задаче с нестационарным процессом и перебором — тоже абсолютная невозможность (нет сходимости). Но прогноз цены акции — не такая задача. У нас нет никакой «абсолютной секретности». Рынок не является одноразовым блокнотом. У него есть структура, которую ИИ может уловить.
Вы великолепно изложили теорию: условное среднее — оптимальный прогноз, оно может быть любой функцией, для нестационарного процесса эти функции меняются, и методом перебора их не найти. Всё верно — для класса ВСЕХ измеримых функций и метода ПЕРЕБОРА.
Но в моей задаче (рынок + ИИ) условия другие:
Я не ищу функцию «в натуральном виде» — я ищу приближение в ограниченном классе (нейросеть).
Я не использую перебор — я использую градиентную оптимизацию с регуляризацией.
Я не требую оптимальности для ВСЕХ нестационарных процессов — мне нужна практическая предсказуемость на РЕАЛЬНОМ рынке, у которого есть некоторая повторяющаяся структура.
Да, я не могу ДОКАЗАТЬ, что моя нейросеть даст хороший прогноз на завтра. Но это и не требуется. Торговля — это не теорема. Это вероятностное преимущество. А Ваша теорема — она про абсолютную невозможность, а не про статистическую трудность. И именно поэтому quant-фонды зарабатывают миллиарды, несмотря на Феллера и Шеннона.
...
Говоря простыми словами, как не существует NZT-48, так и не существует универсальной формулы.
А нам она и не нужна, я могу хоть каждый день заново обучать систему, и получать другое распределение
Да я говорил только о нейронных сетях, потому что функциями, используемыми в них, перебором можно приблизить любую функцию g(t, X).
Собственно моё утверждение и было только, что нельзя использовать обучающуюся нейросеть на вход которой подаются прошлые цены, Ничего другого я утвеждать не могу.
Так что ИИ с какими-то другие функциями и другими принципами повторения мои утверждения точно не имеют никакой связи.
Кстати, я хотел это добавить в предыдущий пост, но Вы ответили быстрее.
А теорема Шеннона как раз другая: этим методом Вы получите все открытые тексты длины N, а потому не сможете узнать, какой был послан :)
А. Г., Вы отступили на заранее подготовленные позиции, максимально сузив свой тезис до неуязвимого минимума )))
Теперь Ваше утверждение звучит так:
Теперь спор идёт не о любых прогнозах, не о статистике, не о Шенноне. Только о нейросетях на входе из цен.
Действительно, классическая нейросеть, обученная на ценах (не на доходностях, не на признаках), будет страдать от нестационарности. Это близко к истине.
Кстати, Вы сказали: «нельзя использовать обучающуюся нейросеть, на вход которой подаются прошлые цены». С этим согласны все практики. Никто в здравом уме так не делает (хотя пробуют все — хи-хи). Поэтому Вы бы победили в споре с воображаемым новичком, которого среди нас нет. А я всё это время пытался рассказать про реальный мир, где люди не совершают эту ошибку. Вот и всё.
А с датами, кстати, Вы 2 раза ошиблись
Других дат я и не называл.
Всё новое из 90-х — это только то, что метод обучения нейросети — это частный случай метода Монте-Карло.
А. Г., Шеннон — 1948, а не 1946. Но это не страшно, многие ошибаются. Главное, что суть Вы помните правильно
Идем дальше. Та самая теорема Ятракоса о невозможности оптимального прогноза, где он доказывает несуществование UMMSEP для распределений Пуассона и биномиальных, была опубликована в 1992 году. Это начало 90-х, а не 80-е. Если Вы имели в виду его работу 1989 года — она немного о другом (регрессионный тип задачи) и не содержит того самого доказательства невозможности. Так что это была вторая ошибка в датах.
Если же Вы имели в виду ещё нечто третье, то назовите более точно, т.к. по Вашему описанию подходит только эта теорема.
С Вашей работой/должностью нужно быть более внимательным к таким мелочам ))
Теорема Шеннона, о которой я говорил — это точно 1946-й год. Просто эта работа была закрыта до 1949-го и вышла в обобщенном варианте.
Наберите в Яндексе «формула Шеннона 1946-го года» и Алиса Вам все расскажет :)
Просто я же по образованию математик-криптограф и потому о ней узнал еще во время обучения. А в других физмат ВУЗах СССР о ней было запрещено говорить на открытых лекциях и семинарах.
А о невозможности получения оценки постоянного среднего нестационарного распределения методом Монте-Карло на имеющихся наблюдениях — это учебник по теории вероятностей и математической статистике Медведева и Ивченко в 1978-м году первый раз выпущенный.
Но, увы, в статьях авторов учебника в журнале Теория вероятностей и ее применения этого не нашел, а рыться в англоязычных источниках из списка литературы было лень.
А учебник читал потому, что и тот, и другой были математиками-криптографами, очень известными в узких кругах :)
А. Г.,
Вы правы в том, что черновик работы существовал уже в 1945–1946 годах. Более того, в узких кругах военных математиков и криптографов (к которым относятся авторы Вашего любимого учебника Ивченко и Медведева) об этом знали. Если Вы утверждаете, что знаете формулу Шеннона с 1946 года — это факт биографии как специалиста высшей пробы, а не всеобщая истина
Общепринятая реальность: Для всего остального мира (включая Wikipedia, все учебники информатики и даже Алису) «Формула Шеннона» и «Теория информации» датируются 1948–1949 годами. В 1948 вышла «Математическая теория связи» (где появилась знаменитая энтропия), а в 1949 — криптографическая часть.
smart-lab.ru/blog/1221314.php
А. Г.,
и вот что говорит Алиса конкретно по запросу yandex.ru/search/?text=%D1%84%D0%BE%D1%80%D0%BC%D1%83%D0%BB%D0%B0+%D0%A8%D0%B5%D0%BD%D0%BD%D0%BE%D0%BD%D0%B0+1946-%D0%B3%D0%BE+%D0%B3%D0%BE%D0%B4%D0%B0 ))
В 1946 году Клод Шеннон не предлагал формулу для вычисления количества информации. Его фундаментальные работы в области теории информации и криптографии были опубликованы позже — в 1948 году. book.kbsu.ruyaklass.ruurok.1sept.ruФормула Шеннона, которая используется для расчёта количества информации при неравновероятных событиях, имеет вид:I = -∑_(i=1)^N pi · log2 pi,где:- I — количество информации;
- N — количество возможных событий;
- pi — вероятность i-го события.
yaklass.ruЭта формула учитывает неодинаковую вероятность сообщений в наборе. Если все события равновероятны (то есть p1 = p2 = … = pN = 1/N), то формула Шеннона превращается в формулу Хартли (I = log2 N). book.kbsu.ruurok.1sept.ruКлод Шеннон ввёл единицу измерения информации — бит (binary digit — двоичная цифра). Бит — это количество информации, необходимое для различения двух равновероятных взаимоисключающих сообщений. book.kbsu.ruedu.tsu.ruФормула Шеннона стала основой для исчисления пропускной способности каналов связи, энтропии источников сообщений, улучшения методов кодирования и декодирования, выбора помехоустойчивых кодов и решения других задач, связанных с оптимизацией работы технических систем связи. urok.1sept.ruИз Алисы:
В 1946 году Шеннон разработал подход к определению количества информации в сообщениях, который учитывал неравновероятное появление символов и их статистическую связь.
Формула Шеннона для вычисления количества информации имеет вид:I = — (p1 log2 p1 + p2 log2 p2 + … + pN log2 pN),где:
А. Г.,
Слушайте, Ваша же Алиса говорит: 'Формула Шеннона… учитывающая статистическую связь символов… была предложена в его работах 1948-1949 годов'. Про 1946 год там — ни слова.*
Понимаете, Вы как криптограф знаете о закрытом отчёте 1946 года. Но остальной мир, включая Алису, считает датой рождения теории информации 1948 год. Поэтому, когда Вы говорите 'Формула Шеннона была создана в 1946', Вы вводите в заблуждение, потому что говорите об одном, а Ваш собеседник думает о другом.
Вы победил бы в этом раунде, если бы речь шла о внутренней кухне Bell Labs. Но мы говорили об общеизвестных научных фактах. А по ним, извините, Вы не правы. И этот спор Вы проиграли
«В конце войны он подготовил секретный меморандум для Bell Labs под названием «Математическая теория криптографии», датированный сентябрём 1945 года. Эта статья была рассекречена и опубликована в 1949 году как «Теория связи в секретных системах» в Bell System Technical Journal. »
ru.wikipedia.org/wiki/%D0%A8%D0%B5%D0%BD%D0%BD%D0%BE%D0%BD,_%D0%9A%D0%BB%D0%BE%D0%B4?ysclid=mpf9z9v8ii858276281
Как Вы думаете, в 70-х в КГБ СССР не могло быть и первого материала?
И кем был Медведев до академии криптографии не знаете?
cryptoacademy.gov.ru/about/scientists/medvedev-yuriy-ivanovich/
МЕДВЕДЕВ ЮРИЙ ИВАНОВИЧ полковник. Родился в 1929 году в городе Иркутске. В 1953 году окончил физико-математический факультет Московского государственного университета им. Ломоносова. Учился в аспирантуре НИИ-1 ГУСС, аспирантуре 8-го Управления МВД, аспирантуре 8-го Главного Управления КГБ, которую закончил в 1956 году. Доктор физико-математических наук, профессор. С 1953 по 1962 год сотрудник, старший сотрудник, старший научный сотрудник отделов 8-го Главного Управления КГБ. С 1962 по 1976 год начальник отделения, научный консультант отдела 8-го Главного Управления КГБ. С 1976 по 1985 год научный консультант 8-го Главного Управления КГБ.
А. Г.,
я не математик-криптограф, но, поверьте, мой диплом побьёт Ваш с легкостью необычайной ))
Михаил Михалев,
а кто-то собирается? )))
Михаил Михалев,
ну если Вы сторонник вуайеризма, то зачем других вовлекать в это?
Михаил Михалев,
может быть Вам дать ключ от квартиры где деньги лежат?
Вы, для начала, попробуйте договориться о терминах, например, «что такое нейросеть?» ))
А. Г.,
я одного не пойму, кого Вы этими словами
испугать хотите?
функан, тээфкапэ — это ж бубльгум ))
А. Г.,
я и написал, что Ваши слова — функан, тээфкапэ, страшные для кого-то, для меня как музыка ))
Это ещё и про комбинаторика, как метод решения вычислительных задач для конечных множеств, тоже мне пригодилась.
А функан и тфкп остались далеко в прошлом.
А. Г.,
кому что, а я до сих пор из матана пользуюсь задачей Коши, причем каждый день ))
А. Г., и, кстати, лично Вы не допускаете того, о чем мы дискутируем, то за что Вам деньги на работе платят? ))
...
Вы — как священник, который доказывает, что Бога нет, но при этом служит в церкви. Это не делает Вас лицемером автоматически. Но это делает Вашу позицию глубоко напряжённой.
...
сама Ваша должность — это живое опровержение Вашего же тезиса «невозможно». Потому что:
Финам не держал бы отдел алгоритмической торговли, который систематически теряет деньги.
Вас как руководителя не держали бы, если бы алгоритмы не приносили прибыль (или хотя бы не уменьшали убытки).
Слово «постоянный» — это ловушка. Не бывает заработка каждый день. Но на дистанции — да, бывает.
А. Г.,
ну если Вы только автоследователь, то «какой ты нафиг танкист»? ))
теперь понятно, что сами Вы алгоритмами не занимаетесь, отсюда и Ваш скепсис
Никакого другого скепсиса о торговле я и не озвучивал.
А. Г.,
и мы опять должны вернуться к определениям ))
И если Вы утверждаете, что из алгоритмов нельзя извлечь прибыль на дистанции — то объясните, пожалуйста, как существуют Renaissance Technologies, DE Shaw и Two Sigma уже по 30 лет? Их сотрудники тоже не читали Феллера? и до сих пор торгуют «ручками»? паче того, «по розовым бланкам»?
Лично я как раз в речи Саймонса тоже слышал, что это «путь в никуда». И, кстати, у Саймонса ни один открытый(!) фонд не превзошел S&P500 с 31 декабря 2002-го года :)
А. Г.,
я Вам давно уже и неоднократно намекаю на необходимость корректного определения терминов, в том числе термина «нейросеть», а то вдруг Вы говорите о кнопке смыва бачка унитаза, которая тоже осуществляет действие при наличии управляющей команды, а иногда и без ))
если про это, то да, я согласен, подавать на вход бачка унитаза голые котировки бессмысленно )))
ИИ наверное гораздо шире просто нейросетей и наверное есть пример ИИ без нейросетей и даже примеры ИИ с закладываемым туда автором уникальным алгоритмом оптимизации.
А. Г.,
Renaissance Technologies — это прежде всего Medallion Fund, который закрыт для внешних инвесторов. Именно он показывает феноменальную доходность (десятки процентов годовых на протяжении десятилетий). А открытые фонды Ренессанса (Renaissance Institutional Equities Fund и др.) действительно работают по другим алгоритмам и могут не обгонять индекс — это не секрет.
Саймонс действительно скептически относился к «чистым» нейросетям на сырых данных. Но его сотрудники (Роберт Мерсер, Питер Браун и др.) использовали скрытые марковские модели, генетические алгоритмы, адаптивные фильтры и другие методы, которые учитывают нестационарность. То есть они делали то, что нужно — адаптировались.
Вы ссылаетесь на авторитет, но при этом не определяете термин. А без определения — это пустой звук.
А. Г.,
меня не интересует чужое мнение, у меня дискуссия с Вами… что Вы подразумевали под нейросетью в своем сообщении?
Перцептрон
Самоорганизующаяся карта Кохонена
Нейронная сеть Кохонена
Сети адаптивного резонанса
И обучение «без учителя».