IS – in sample (оно же обучающая выборка), OOS — out of sample (оно же тестовая выборка). Ну или ближе к обычным алго – IS – там, где оптимизируешь стратегию, OOS – данные, которые стратегия ещё не видела.
Какое соотношение выборок лучше. Просто сейчас накапливаю некоторые данные (которые иным способом не получить), а любопытство оно же такое, что нельзя просто так взять и подождать 3 месяца и только тогда начать с данными работать, поэтому начал работать с данными чуть когда их было ещё совсем мало, потом продолжил когда их было просто мало, продолжил когда стало чуть побольше и т.д., сейчас уже вполне достаточно.
Из-за того, что несколько раз к данным подступался при разных объёмах этих самых данных, несколько выпятился наружу вопрос достаточности данных в целом и в частности вопрос соотношения IS/OOS в целом.
Когда данных совсем мало – без разницы как делить – не хватит ни чтобы обучить (терминология у меня ML’ная, но, по сути, без разницы, ML или классические алгоритмы) ни чтобы оценить.
У каждого из нас своя система ценностей и мешочек убеждений. Они определяют наши мысли, наши стратегии, наши действия. Пойдём ли сегодня на рыбалку или на дискотеку, или с семьёй побудем. Пойдём ли сами в военкомат или уедем за рубеж.
С одной стороны, система ценностей и убеждений — это довольно инертная вещь, если что-то засело – не так-то просто это расшатать.
А что может расшатать убеждения, например? Расшатать может сильная стрессовая ситуация. Вот ты сидишь за компом в уютном офисе – у тебя одни убеждения, через месяц тебя поливают артиллерией – думаю, убеждения и ценности несколько изменятся. А вот ты попал в плен и немного посмотрел уже с другой стороны – убеждения и ценности не могут не пошатнуться.
Также убеждения можно изменить монотонным нажимом. Если тебе в уши долго льют одно и то же, со всех сторон – мозг не железный – он прогнётся.
Я к чему это. Карта — не территория. Убеждения и ценности часто крепки, но они не реальны, они не реальность. Это всего лишь производная от опыта. Опыт у всех свой, а реальность-то общая, одна и та же. Иногда стоит подвергать сомнению свои убеждения, ценности. А как понять, не ушел ли я «не туда»? Ну, можно просто задавать себе вопросы, ставить под сомнения свои убеждения. А почему я так думаю? А какие ещё возможные позиции? А почему люди думают диаметрально по-разному об одном и том же? А может ли что-то одновременно быть и белым, и черным? Получается кто-то из них не прав? Или обе стороны? В общем рефлексия. Ещё, наверно, поможет что-то общечеловеческое в качестве ориентира, маяка. Общечеловеческие нормы морали. Общечеловеческий опыт. Международные законы и т.д. Типа: я всё проверил, система ценностей у меня огонь! То, что с общечеловеческими нормами морали не бьётся – ну тут я не знаю. А, да, очень-очень полезно пробовать ставить себя на разные позиции. Вот я думаю так, а вот он по-другому, попробую с его точки зрения посмотреть на ситуацию, не может же человек с такой убежденностью что-то доказывать «просто так», значит у него есть идеи, уверенность, аргументы, тоже опыт, всё не просто так у него, как и у меня. А ещё полезно отдалиться от ситуации и смотреть со стороны – и на него, и на себя.
Люди добрые.
Никогда не умел читать юридические документы и вот подобные тоже. Пытаешься вчитаться вдуматься, а мозг говорит: ой, не, убирай это нафиг, я пошел пить чай.
А ведь тут что-то важное)).
fs.moex.com/f/17219/ob-izmenenii-tarifov-na-rynke-akciy-obshaja.pdf
www.moex.com/a3049
Что я, вроде, понял:
Сейчас мейкер платит помимо комиссии брокера 0, а тейкер 0,03%. Раньше было что-то типа 0,01% всем (по крайней мере я столько закладывал).
Что я, кажется, недопонял:
Там упоминание разных секций, режимов торгов, получается это не для всех? Есть 1-2-3 эшелон в основное время лимитками ждать в стакане это 0,00%, если лимиткой бить по рынку (или маркетовой) это 0,03%? А ПИР? А ауцион?
Кто, кстати, знает в Квике в таблице «Состояние счета» в поле «Комиссия» эта комиссия биржи тоже учитывается или только брокера?
Просто раньше, я, условно, пренебрегал этой темой — ну добавляешь 0,01% в бэктестах, а щас — если я правильно интерпретирую — 0.03% это уже очень даже сопоставимо с комиссией брокера, иногда даже больше. Так что хочется разобраться.
Все-таки когда шатает, те, кто не крепко держится, начинают шататься, падать.
Все же торгуют, знают, что когда начинаются эмоции на рынке играть, когда штормит, если ты не крепок (нет системы, нервы не алё и т.д.) – тебя размотает, ты станешь жертвой, ты отдашь своё чужим.
Так и в жизни, если ты на быке и его начинает колбасить, а руки твои не крепки, тебя размотает, тебя выкинет. Ну или если это не расколбас, а что-то нудное, целенаправленное, настойчивое (ну…, например пропаганда), если у тебя есть стержень – ты выстоишь, не согнешься, не повернешься по ветру, а будешь смотреть туда, куда смотрел. Людей разматывает, картины мира людей плывут куда-то, уплывают вдаль – по ветру или ещё куда-нибудь. Многие теряют человеческий облик, вылезает все самое мерзкое. Да, мы животные, конечно, но так комфортно осознавать в спокойные времена, что мы все-таки люди. А тут пробуждаются животные.
Если ты считаешь, что норм применить ядерное оружие – ты д…… б. Если ты считаешь, что все люди какой-то конкретной одной нации нелюди – ты д…… б. Если ты считаешь человека, позиция которого отличается от твоей, только на этом основании ботом – ты д…… б.
Активно использую в алго ML модели. При обучении моделей тоже есть свои фишки и с точки зрения защиты от оверфиттинга и в целом. Поэтому часто обучаю по несколько моделей в одном скрипте. Это и параметры разные и участки данных разные и т.д.
Когда скрипты уже отлажены ты просто их гоняешь, оцениваешь результаты, принимаешь решения. Часто при этом в голове всплывают неотвеченные вопросы, одни помечаешь себе, другие нет. Одними из таких вопросов были: это модель хреновая или OOS неудачный для модели, или в целом неудачный, а есть для него удачная модель, а для удачной модели есть неудачные участки данных тоже? В общем если убрать за скобки ML – классическая тема про переоптимизацию про то, что рынок может благоприятствовать стратегии (а скорее целому классу стратегий), а может нет. Но как с этим у моделей обстоит. В общем до этого момента только фантазировал на эту тему, закрыть вопрос через исследование было не сложно, но как-то руки не доходили, а теперь дошли.
Что делал: условно, взял много данных, единое признаковое пространство, по-всякому нарезал данные таким образом чтобы разные модели обучались на разных участках данных и было так же сопоставимое с кол-вом моделей кол-во OOS участков. Убедился, что OOS в конкретной паре модель-OOS не участвовал в обучении данной модели и погнал тестить разные модели на разных OOS кусках.
Иногда бывает озарение долетает с задержкой и картинка складывается. Так и сейчас — какие-то похожие мысли по поводу этой темы витали в голове, а теперь картинка сложилась.
Речь про посты (как отражение позиции человека) про то, почему в Европе/Америке жить плохо, а в России хорошо (ну или в России средне, а «там» не лучше и т.д.).
Если оставить за скобками пункты а-ля «берёзки», «сто тысяч полов» и т.д., то в большинстве случаев посты, где человек деклассирует жизнь за рубежом, можно обобщить до следущего:
— Пункты, где человек не готов оторвать задницу от стула чтобы сделать свою жизнь лучше.
Например, все минусы, которые идут от твоего незнания языка — блин, ну иди выучи язык и не будет больше этих минусов.
— Пункты, выдающие иждивенческий или нищебродский образ мышления человек. Ну там, что у нас бесплатная медицина, а у них платная и прочие. Т.е. у человека не проактивная позиция, а позиция «мне все должны». Не знаю, возможно, с такой позиции, действительно, в России комфортней. И все остальные пункты вида «в России бедным быть комфортней, чем не в России».
Текущее экспериментальное направление рисеча в алго – графические паттерны. Формализовал и алгоритмизировал выявление нескольких паттернов. Они в таком сыром виде работают, но не космос. Чтобы было космосее формализовал и алгоритмизировал выделение фичей (они же параметры, они же метрики, свойства – как хотите) паттерна. Ну т.е. паттерн-то он паттерн, но конкретные матчи (кейсы) они же все разные, а чем они разные? – Вот в частности значениями этих фичей. По сути, я ушел на следующий уровень абстракции (сам паттерн – первый уровень, его характеристики – второй). Ну и чтобы работать со свойствами паттерна было удобней традиционно поверх небольшим слоем размазал ML.
Текущие сложности в этом направлении:
— В моей формализации долго (относительно) ищутся паттерны на окне (зависит от размера окна), поэтому, в частности, насобирать большую выборку для ML долго, а на небольшой, например, много фичей паттерна сразу не оценишь на профпригодность. Для торговли скорости приемлемые если не слишком малые ТФ и не слишком много тикеров одновременно.