Постов с тегом "датамайнинг": 23

датамайнинг


Качаем исторические данные с MOEX!

Итак, передо мной, уверен, как и перед многими, встал вопрос поиска исторической информации с Мосбиржи. Немного зная python, я написал вот такой парсер:
import requests
import datetime
import pathlib

SECIDs = ["GAZP", "BANEP", "LKOH"]
DISK = "E"
for SECID in SECIDs:
    from_date = "2020-05-04"
    to_date = "2005-01-03"
    while str(to_date) != from_date:
        to_date = str(to_date)
        to_date = to_date.split('-')
        a = datetime.date(int(to_date[0]), int(to_date[1]), int(to_date[2]))
        b = datetime.timedelta(days=140)
        to_date = a + b
        pathlib.Path("{}:/{}/{}".format(DISK, "Database_MOEX", SECID)).mkdir(parents=True, exist_ok=True)
        filename = SECID + "_" + str(to_date) + ".csv"
        with requests.get("http://iss.moex.com/iss/history/engines/stock/markets/shares/boards/tqbr/securities/{}.csv?date={}".format(SECID, to_date)) as response:
            with open("{}:/Database_MOEX/{}/{}".format(DISK, SECID, filename), 'wb') as f:
                for chunk in response.iter_content():
                    f.write(chunk)
Для начала пройдемся по его плюсам и минусам. Самый главный минус, что этот парсер качает только определенный период, который уникален для каждой акции, судя по всему для увеличения этого периода надо кинуть бирже на лапу:), и то что информация предоставляется за день, теперь перейдем к плюсам: можно выкачивать историю за определенный период для нескольких инструментов сразу (их количество ограничивается лишь количеством инструментов на мосбиржи), есть возможность назначать диск для сохранения информации, быстрота выгрузки данных.

( Читать дальше )

8 месяцев торговли и пара вопросов...

Добрый день, коллеги!
Торгую активно уже ровно 8 месяцев. За это время появилось больше вопросов чем ответов и еще большее понимание того, что ничерта не  не понимаю рыночную механику и происходящие процессы.
Если Вам не сложно и Вы понимаете, что происходит на рынке, очень прошу уделить внимание и ответить на пару вопросов(можно в личку)
Буду очень благодарен.


Начнем с определения неэффективности(писал сам, как понимаю):
Неэффективность — ситуация возникающая на рынке и характеризующаяся тем, что текущая цена актива, перестает равняться реальной стоимости этого актива, вследствие чего возникает дисбаланс.
Проще говоря, ситуация когда цена актива здесь и сейчас ниже/выше, чем она будет в следующие периоды времени.


А теперь вопросы...
0) Ранее писал, что хочу торговать рынок, понимать, что происходит и, по возможности, отторговывать проходящее.
Вопрос — возможно ли такое или в конечном счете все сводится к неэффективностям(выждал, всунул-высунул, пошел дальше)?

( Читать дальше )

О майнинговом подходе и вычленении эджа при построении торговых систем

Эта обучающая заметка призвана раскрыть некоторые элементы технологии производства торговых систем. Существует два основных подхода к созданию биржевых алгоритмов. Первый стартует с некой идеи, например--25-го числа уплачивается НДПИ, что может влиять на курс рубля. Далее эта идея проверяется и находит/не находит подтверждения. Это неплохой подход, но у него есть недостаток--число идей, приходящих в голову, ограничено. Кроме того, опыт построения систем показывает, что зачастую логика происходящего такова, что чистой силой ума допереть до нее тяжело. Поэтому более плодотворным (хотя и не приносящим такого удовольствия, как сила ума) является второй подход, связанный на начальном этапе с чистым майнингом. То есть никаких особых идей вначале нет--просто берется некий алгоритм, в принципе, почти любой. Но надо, чтоб он не был перегружен правилами--иначе на следующих этапах будет сложно. И смотрится, что получается. В результате таких действий рано или поздно получится хорошая кривулька эквити (эта стадия может занимать значительное время). И тут вопрос--это просто такая реализация броуновского движения, или там что-то есть? И вот здесь надо хорошенько поработать. Изучать сделки, менять параметры, менять правила--и смотреть, что получается, анализировать. Этот процесс во многом напоминает эволюцию в живой природе, фактически это генетическая оптимизация, понимаемая в широком смысле. И иногда оказывается, что в рынке действительно есть отклонения от СБ, а что еще нужно для счастья? :)

( Читать дальше )

@@@ Что такое датамайнинг?

К методам и алгоритмам Data Mining относятся следующие: искусственные нейронныесети, деревья решений, символьные правила, методы ближайшего соседа и k-ближайшегососеда, метод опорных векторов, байесовские сети, линейная регрессия, корреляционно-регрессионный анализ; иерархические методы кластерного анализа, неиерархическиеметоды кластерного анализа, в том числе алгоритмы k-средних и k-медианы; методыпоиска ассоциативных правил, в том числе алгоритм Apriori; метод ограниченногоперебора, эволюционное программирование и генетические алгоритмы, разнообразныеметоды визуализации данных и множество других методов.

Дата майниниг  это методы, причем в отличие от чистых стат. методов — это методы, не основанные на предположении о существовании  тривиальных закономерностей в массиве данных.

( Читать дальше )

@@@ Датамайнинг в веб-броузере.


В продолжение лозунга.

Не знаю что, кому  и  как тут любят, просто пример за 3 минуты.

Режем ТВС QUIK на бары по логике «с фонаря»:

@@@ Датамайнинг  в веб-броузере.

( Читать дальше )

Корреляционный анализ активов на R

    • 30 апреля 2014, 16:43
    • |
    • Rustem
  • Еще
Идеальная корреляция активов. Как такое возможно?
 
Корреляционный анализ активов на R 
 

( Читать дальше )

Почему RTS не сахар - кластеризация по активам

    • 28 апреля 2014, 10:36
    • |
    • Rustem
  • Еще
Почему RTS не сахар - кластеризация по активам
Провел кластерный анализ индекса РТС, курса рубля и индекса волатильности среди глобальных активов за 2006-2013 год. Превосходный первоисточник идей  и примеров с разъяснениями и исходным кодом здесь . Как установить ПО и что ещё можно исследовать, можно найти по  вышеприведенной ссылке.
 
Кластерный анализ на основе набора различных алгоритмов классификации, позволяет организовать наблюдаемые данные в наглядные структуры, что бы далее по полученной структуре лучше понять, обработать, и более эффективно использовать данные в требуемой области деятельности.

 
Мне было интересно насколько точно алгоритмы кластерного анализа (кластеризации), реализованные на языке программирования R (далее кибермозг), смогут сгруппировать активы и выявятся ли какие-то не известные взаимосвязи.


( Читать дальше )

Марсель Тазетдинов палит граали по алготрейдингу на конференции в СПБ

Конференция смартлаба в Санкт-Петербурге 05.04.2014.

Марсель Тазетдинов. Датамайнинг



Предыдущие видео с конференции в Санкт-Петербурге
Видео №1: Вадим Писчиков: о глобальной экономике 
Видео №2: Александр Шадрин. Про инвестирование
Видео №3: Андрей Беритц. Разговор о жизни, о трейдинге, о бизнесе 

Data Mining fRTS: тренд и флет ч.2

Продолжаем изучать некоторые внутренние характеристики фРТС с помощью языка R.

Сегодня мы попробуем узнать какое в теории самое доходное время и определить общие трендовые тенденции.

Data Mining fRTS: тренд и флет ч.2 
 Табличка1:
Data Mining fRTS: тренд и флет ч.2

 Как не удивительно, но самое волатильное время очень точно пересекается со 

( Читать дальше )

OHLCV: продолжение

В прошлом посте я заявил что если вы торгуете OHLCV то я скорее всего знаю как вы зарабатываете.

Ну и чтобы не быть голословным, давно еще удалось отмайнить закономерность, существенно отличающую фРТС 2011-2013 от фРТС 2008-2010 годов.

Буквально на прошлой неделе ее и еще одну систему уже продает известный системостроитель за 300тысяч рублей.

Вот мой вариант системы:
OHLCV: продолжение 
К слову это не первая моя система которая так пересекается. Когда набор данных ограничен, все приходят к единой модели. 

....все тэги
UPDONW
Новый дизайн