Блог им. DenisVo

Data Labeling. Разметка данных для моделей машинного обучения.

Приветствую комерады! :) 

Продолжая тему околорыночничества, выпустил я новый ролик. В котором рассмотрел как размечать данные для моделей машинного обучения и как это поможет увечиться количество профитных сделок. 
Тема интересна тем, что разметка данных может является частью автоматического пайплайна, для нахождения и тестировния стратегий. 



В целом эта первая часть обещенного примера использования Tensorflow Serving. Вторую часть зарелизю на днях. Уж больно много времени занимает создание видео )

Ссылка на репозиторий с кодом: github.com/CloseToAlgoTrading/CodeFromVideo

P.s. Админы, а можно мне как то доступ в раздел алготрайдинг заиметь?
2.1К | ★7
23 комментария
Мля, сколько надо ума иметь, чтобы такой материал давать видеороликом, да еще на английском, да еще на таком английском...

«Уж больно много времени занимает создание видео» — а оно надо?!
Показывать тексты и… коды(!) в видео…
avatar
VladMih, Интересная мысль, про язык. Есть интересное наблюдение, возможно вы это тоже замечетли, что указание на ужасный английский обычно поступает только от тех у кого первый язык является одинаковым. Иностранцы на этом не сильно акцентируют внимание, а носители языка так вообще игнорируют пытаясь сосредоточится на содержании. Но это наверное больше нейро-лингвистическая тема, а не трейдерская. :)

Выложу коды на гитхаб в следующий раз! 
avatar
Denis, у тебя и с русским-то не очень, забей пока на английский )
Denis, без кода вообще не айс))
avatar
Denis, нервнопаралитическая.
Хороший тон — предупредить, что ролик на нерусском.
Поблагодарить за конструктивную критику — тоже.
avatar
Андрей Андреичъ, ivanov petya , ссылку на код добавил… надюсь рабочая )
avatar

Берите пример с Eugene Logunov как надо топики оформлять.

Люди, которые способны понять смысл Вашего ролика видосы в принципе не смотрят. Потому что передача информации через видеопоток является ужасным способом сказать что-то умное.

avatar
ch5oh, Да я в целом с вами согласен, более того, сам предпочитаю читать, нежили смотреть видео, так как можно остановиться и подумать.

Однако, как я уже писал ранее, и возможно сразу отвечу VladMih, создание видео помогает понять как надо делать правильные и доступные презентации различного материала, а так же потренировать тот самый английский. При этом хотелось бы, и что то полезное рассказывать :).

У каждого ж свои цели :) и главное я же ничего не продаю и не рекламирую.
avatar

Denis, тренировать английский надо в школе ангийского под присмотром грамотного преподавателя. Их (школ) сейчас много. Можно даже по скайпу с native speaker созваниваться и трепаться про общемировые ценности.


А уровень презентации… Не смотрел. Но если Вам самому понравилось что получилось — поздравляю.

avatar
ch5oh, Не смотрел, но осуждаю. В любом случае над качеством материала будем работать. 
avatar
Denis,  у нас тут ролики по умолчанию в бан идут сразу и не смотрятся. Поэтому 
Не смотрел, но осуждаю.
avatar

Denis, не-не. Не осуждаю ни разу.

 

Просто информирую Вас, что если Вы заинтересованы в том, чтобы с Вашим материалом познакомилось максимальное количество читателей (в результате чего Вы сможете получить максимальную обратную связь), то формат голого видео — это выстрел мимо мишени.

 

Если бы Вы сопроводили видео текстовой расшифровкой хотя бы основных тезисов, возможно, на материал бы обратило внимание больше людей с опытом.

avatar
ch5oh, о! спасибо за конструктивный ответ.
Думаю, в следующий раз так и сделаю. 
avatar
Золотое правило машинлернинга — «garbage in, garbage out».
И не только машинлернинга.
Но ютюб конечно всё стерпит ))
Я так понимаю, это пересказ избранных глав из Marcos López de Prado
avatar
Михаил, отчасти. В частности название metalabeling я взял из его книги. Идея не нова, но в книге он хорошо все структурировал и обозвал. В видео не совсем так как он там описывает, но сути дела не меняет. 
Я просто размечаю данные, уже готовых сигналов, что бы получить вероятность получения прибыли. 

Вообще видео должно было быть про тенсорфлоу сервинг, но сразу начинать с готовой модели, мне показалось не очень хорошо. Так и родилась идея в кратце описать подготовительный этап.

зы. а книга у него правда хорошая получилась, много полезных мыслей.
avatar
Denis, а почему TF. По моему 90% последних ресечей имеют реализацию на PyTorch, да и сам PyTorch гораздо быстрее развивается - multihead attention уже внутри библиотеки, а когда он будет в TF добавлен не известно.
avatar
Михаил, Да наверное просто потому, что я не сильно смотрел в сторону PyTorch, поэтому не знаю насколько он хорош. Плюс тенсорфлоу, как мне кажется более часто встречается в области моей основной работы, а это оочень далеко от торговли :)).

Однако, когда гугл выпустил тенсорфлоу 2. Я прямо порадовался за них. У них там теперь керас встроен, и все как у людей стало. Плюс мне очень нравится их пайплайн для продакшена моделей. Не знаю есть ли в пайторче что то подобное. 
Тенсорфлоу и его применение везде и всяк… это такое мое хобби :) 
avatar
Можно в двух словах, что такое «разметка данных»? Я только про разметку дорожного полотна знаю. Вы, видно, выражаетесь в терминах той науки, которую хотите преподать. И что такое пайплайн? Ваш материал вырван из какого то контекста, не понятно какого. Необходимо его существенно расширить, иначе это треш.
avatar
Cristopher Robin, я попробую, хотя мой русский, как тут выше заметили, тоже не ахти )

Итак, термин data labeling, который я перевел как разметка данных, использует в области машинного обучения, и грубо говоря обозначает сопоставление входных значений с выходными.

Так как мы используем способ машинного обучения с учителем, суть которого в том, что мы обучаем нашу модель принудительно по принципу дейтвие-реакция. Мы подаем на вход некоторые значения, потом то что получилось на выходе сопоставляем с нашими эталонными значениями, считаем как сильно модель ошиблась (насколько сильно отличается выход системы от эталонного значения), коректируем параметры модели и породолжаем обучение.
Так вот, входные значения обычно называют features, а выходные(эталонные) labels.

Применительно к трейдингу, в видео я попытался показать как можно провести это самое сопоставление входных данных (features), к эталонным значениям (labels).

Что же касается пайплайна (pipeline), то я имел ввиду некоторую автоматическую последовательность действий, которая бы приводила нас от сырых данных на входе, в эту последовательность, к готовым данным, для обучения моделей, на выходе.

Стало ли от этого более понятно :)… не уверен.

зы. Возможно надо подумать о целевой аудитории и действительно существенно расширить материал.

avatar
Denis, теперь я понял, что речь идет о каком-то конкретном методе, что-то очень-очень прикладное. Настолько прикладное, что скорее всего не представляет никакой ценности.
avatar
Денис, лучше пели видео на русском, значительно расширешь аудиторию, да и своих надо уважать. А так таких смартлабовцев как ты здесь не хватает.Ты доносишь практический контент, а не рассуждаешь на тупую тему направления рынка.
avatar
ANTI_Finsov, Спасибо на добром слове :). Я всегда честно добавляю субтитры на русском. 
По поводу языка в видео, я все еще думаю, но практика показывает, что англоговорящую аудиторию нарастить проще. И опять же, не стабильно в русскоговорящих странах, вдруг ютуб закроют :)
avatar

Читайте на SMART-LAB:
Фото
BRENT: Дипломатия Трампа против "бычьего десанта" — кто блефует?
После сенсационного заявления Трампа о достижении двухнедельного перемирия с Ираном нефть открыла торги в среду с мощным гэпом вниз. Цена...
Фото
👨🏻‍💻 Учимся зарабатывать в торговом терминале: новая серия вебинаров
  Т-Инвестиции запускают серию бесплатных вебинаров о том, как пользоваться торговым терминалом — главным инструментом людей,...
Фото
Трейдинг по ролям: права и контроль доступа в командах
Утечка конфиденциальных стратегий, перегрузка системы, доступ к чужим ордерам без разрешения, изменение данных в алгоритмах и ботах коллег —...
Фото
Кто сейчас самый дешевый сбыт? Сводный пост по сбытовым компаниям по отчетам РСБУ за 2025г.
Волгоградэнергосбыт Ставропольэнергосбыт Самараэнерго Мордовэнергосбыт Пермэнергосбыт Новосибирскэнергосбыт...

теги блога CloseToAlgoTrading

....все тэги



UPDONW
Новый дизайн