Блог им. DenisVo

Data Labeling. Разметка данных для моделей машинного обучения.

Приветствую комерады! :) 

Продолжая тему околорыночничества, выпустил я новый ролик. В котором рассмотрел как размечать данные для моделей машинного обучения и как это поможет увечиться количество профитных сделок. 
Тема интересна тем, что разметка данных может является частью автоматического пайплайна, для нахождения и тестировния стратегий. 



В целом эта первая часть обещенного примера использования Tensorflow Serving. Вторую часть зарелизю на днях. Уж больно много времени занимает создание видео )

Ссылка на репозиторий с кодом: github.com/CloseToAlgoTrading/CodeFromVideo

P.s. Админы, а можно мне как то доступ в раздел алготрайдинг заиметь?
★7
23 комментария
Мля, сколько надо ума иметь, чтобы такой материал давать видеороликом, да еще на английском, да еще на таком английском...

«Уж больно много времени занимает создание видео» — а оно надо?!
Показывать тексты и… коды(!) в видео…
avatar
VladMih, Интересная мысль, про язык. Есть интересное наблюдение, возможно вы это тоже замечетли, что указание на ужасный английский обычно поступает только от тех у кого первый язык является одинаковым. Иностранцы на этом не сильно акцентируют внимание, а носители языка так вообще игнорируют пытаясь сосредоточится на содержании. Но это наверное больше нейро-лингвистическая тема, а не трейдерская. :)

Выложу коды на гитхаб в следующий раз! 
avatar
Denis, у тебя и с русским-то не очень, забей пока на английский )
Denis, без кода вообще не айс))
avatar
Denis, нервнопаралитическая.
Хороший тон — предупредить, что ролик на нерусском.
Поблагодарить за конструктивную критику — тоже.
avatar
Андрей Андреичъ, ivanov petya , ссылку на код добавил… надюсь рабочая )
avatar

Берите пример с Eugene Logunov как надо топики оформлять.

Люди, которые способны понять смысл Вашего ролика видосы в принципе не смотрят. Потому что передача информации через видеопоток является ужасным способом сказать что-то умное.

avatar
ch5oh, Да я в целом с вами согласен, более того, сам предпочитаю читать, нежили смотреть видео, так как можно остановиться и подумать.

Однако, как я уже писал ранее, и возможно сразу отвечу VladMih, создание видео помогает понять как надо делать правильные и доступные презентации различного материала, а так же потренировать тот самый английский. При этом хотелось бы, и что то полезное рассказывать :).

У каждого ж свои цели :) и главное я же ничего не продаю и не рекламирую.
avatar

Denis, тренировать английский надо в школе ангийского под присмотром грамотного преподавателя. Их (школ) сейчас много. Можно даже по скайпу с native speaker созваниваться и трепаться про общемировые ценности.


А уровень презентации… Не смотрел. Но если Вам самому понравилось что получилось — поздравляю.

avatar
ch5oh, Не смотрел, но осуждаю. В любом случае над качеством материала будем работать. 
avatar
Denis,  у нас тут ролики по умолчанию в бан идут сразу и не смотрятся. Поэтому 
Не смотрел, но осуждаю.
avatar

Denis, не-не. Не осуждаю ни разу.

 

Просто информирую Вас, что если Вы заинтересованы в том, чтобы с Вашим материалом познакомилось максимальное количество читателей (в результате чего Вы сможете получить максимальную обратную связь), то формат голого видео — это выстрел мимо мишени.

 

Если бы Вы сопроводили видео текстовой расшифровкой хотя бы основных тезисов, возможно, на материал бы обратило внимание больше людей с опытом.

avatar
ch5oh, о! спасибо за конструктивный ответ.
Думаю, в следующий раз так и сделаю. 
avatar
Золотое правило машинлернинга — «garbage in, garbage out».
И не только машинлернинга.
Но ютюб конечно всё стерпит ))
Я так понимаю, это пересказ избранных глав из Marcos López de Prado
avatar
Михаил, отчасти. В частности название metalabeling я взял из его книги. Идея не нова, но в книге он хорошо все структурировал и обозвал. В видео не совсем так как он там описывает, но сути дела не меняет. 
Я просто размечаю данные, уже готовых сигналов, что бы получить вероятность получения прибыли. 

Вообще видео должно было быть про тенсорфлоу сервинг, но сразу начинать с готовой модели, мне показалось не очень хорошо. Так и родилась идея в кратце описать подготовительный этап.

зы. а книга у него правда хорошая получилась, много полезных мыслей.
avatar
Denis, а почему TF. По моему 90% последних ресечей имеют реализацию на PyTorch, да и сам PyTorch гораздо быстрее развивается - multihead attention уже внутри библиотеки, а когда он будет в TF добавлен не известно.
avatar
Михаил, Да наверное просто потому, что я не сильно смотрел в сторону PyTorch, поэтому не знаю насколько он хорош. Плюс тенсорфлоу, как мне кажется более часто встречается в области моей основной работы, а это оочень далеко от торговли :)).

Однако, когда гугл выпустил тенсорфлоу 2. Я прямо порадовался за них. У них там теперь керас встроен, и все как у людей стало. Плюс мне очень нравится их пайплайн для продакшена моделей. Не знаю есть ли в пайторче что то подобное. 
Тенсорфлоу и его применение везде и всяк… это такое мое хобби :) 
avatar
Можно в двух словах, что такое «разметка данных»? Я только про разметку дорожного полотна знаю. Вы, видно, выражаетесь в терминах той науки, которую хотите преподать. И что такое пайплайн? Ваш материал вырван из какого то контекста, не понятно какого. Необходимо его существенно расширить, иначе это треш.
avatar
Cristopher Robin, я попробую, хотя мой русский, как тут выше заметили, тоже не ахти )

Итак, термин data labeling, который я перевел как разметка данных, использует в области машинного обучения, и грубо говоря обозначает сопоставление входных значений с выходными.

Так как мы используем способ машинного обучения с учителем, суть которого в том, что мы обучаем нашу модель принудительно по принципу дейтвие-реакция. Мы подаем на вход некоторые значения, потом то что получилось на выходе сопоставляем с нашими эталонными значениями, считаем как сильно модель ошиблась (насколько сильно отличается выход системы от эталонного значения), коректируем параметры модели и породолжаем обучение.
Так вот, входные значения обычно называют features, а выходные(эталонные) labels.

Применительно к трейдингу, в видео я попытался показать как можно провести это самое сопоставление входных данных (features), к эталонным значениям (labels).

Что же касается пайплайна (pipeline), то я имел ввиду некоторую автоматическую последовательность действий, которая бы приводила нас от сырых данных на входе, в эту последовательность, к готовым данным, для обучения моделей, на выходе.

Стало ли от этого более понятно :)… не уверен.

зы. Возможно надо подумать о целевой аудитории и действительно существенно расширить материал.

avatar
Denis, теперь я понял, что речь идет о каком-то конкретном методе, что-то очень-очень прикладное. Настолько прикладное, что скорее всего не представляет никакой ценности.
avatar
Денис, лучше пели видео на русском, значительно расширешь аудиторию, да и своих надо уважать. А так таких смартлабовцев как ты здесь не хватает.Ты доносишь практический контент, а не рассуждаешь на тупую тему направления рынка.
avatar
ANTI_Finsov, Спасибо на добром слове :). Я всегда честно добавляю субтитры на русском. 
По поводу языка в видео, я все еще думаю, но практика показывает, что англоговорящую аудиторию нарастить проще. И опять же, не стабильно в русскоговорящих странах, вдруг ютуб закроют :)
avatar

теги блога CloseToAlgoTrading

....все тэги



UPDONW