Блог им. Kirill_K

Исторические данные по фьючерсам CME

Решил выложить в общий доступ базу исторических данных по основным фьючерсам биржи CME. Данные собирал на самописном софте для своих исследований.

В базе представлены данные по следующим инструментам: 
— все валюты торгуемые на CME: 6A,B,C,E,S,J
— индексы: ES, NQ, YM, NKD, TK
— энергетики: CL
— металлы: GS, SI, PL, HG
— товары: ZC, ZS, ZW, ZL
— бонды: ZN, ZB
— спрэдовые инструменты, например ZWH4-ZWK4

Данные собирал на протяжении полугода, где-то с декабря 2013 года по середину 2014. Есть промежутки по некторым инструментам, но для исследований это не критично. Данные писались полностью всего потока, т.е. все изменения лимитов в стакане + трейды.

Формат данных следующий:
1) название архива соответствует тикеру инструмента
2) внутри архива содержится папка с тикером инструмента
3) внутри папки содержатся файлы формата *.txt, имя каждого файла соответствует конкретной дате (дд-мм-гггг)

4) каждый файл содержит строки определенного формата, например рассмотрим несколько строк по инструменту CL:
 «A;17:57:22;11280;10090;10;6;1;»
A — изменение лимита на стороне асков; 17:57:22 — московское время данного события; 11280 — микросекунды; 10090 — цена, по которой произошло данное событие; 10 — текущее значение лимитов; 6 и 1 — внутренние флаги датафида
 «B;17:57:22;12749;10087;19;16;1;»
 B — изменение лимита на стороне бидов; 17:57:22 — московское время данного события; 12749 — микросекунды; 10087 — цена, по которой произошло данное событие; 19 — текущее значение лимитов; 16 и 1 — внутренние флаги датафида
 «T;17:57:24;9046;10087;1;S;»
 T - трейд; 17:57:24 — московское время данного события; 9046 — микросекунды; 10087 — цена, по которой произошло данное событие; 1 — текущий объем трейда; S — сторона агрессора, в данном случае это была продажа

Как видите все значения в файлах разделены между собой точкой с запятой, таким образом эти файлы легко можно загрузить в Exel, выбрав в качестве формата файла *.csv

Качество данных от фида выборочно сверялось с оригинальными данными предоставленными биржей CME, совпадение данных 100%.

База исторических данных находится здесь: cloud.mail.ru/public/04dbf91a0453%2FCME%20Historical%20DATA
★52
34 комментария
Кирилл, спасибо, полезный набор!
avatar
Спасибо огромное! За такое можно было и пару сотен плюсов поросить, как тут, на СЛ, принято)
avatar
спасибо
avatar
ща по еs качну Оч ннада
avatar
Спасибо
avatar
Спасибо!
avatar
Огромная благодарность. Время в файлах до мс — это ведь не локальное время прихода информации о заявке в терминал? другими словами это действительное время заявки(с переводом времени в московское)?
avatar
Сегодня начал копать в эту сторону, и тут такой сюрприз. Спасибо огромное!
avatar
+++ Класс уже все залил )))
avatar
Еще раз отвечаю всем про время. Время в файлах указано московское с детализацией до микросекунд. Этот таймстемп проставляет сервер ритмика, который стоит в датацентре рядом с ядром самой биржи, т.е. это локальное время сервера на биреже, а не того компьютера, на котором софт для сбора работал. От биржевого этот таймстемп отличается на величину задержки сигнала между ядром биржи и сервером ритмика, в общем этой величиной можно пренебречь. Более того биржа отдает таймстемпы только с секундной детализацией, никаких милли и микро не дают.
К примеру, что касается задержек, то на конец 2013 года раунд трип на cme в среднем составлял 2,8 миллисекунд, медиана была 466 микросекунд. В 2014 году инфраструктуру оптимизировали и эти цифры еще уменьшились.
Коробицын Кирилл, а какой сейчас у СМЕ раунд трип??? Через Rithmic у меня выходило от 500 микросекунд до 5000 микросекунд (5 миллисекунд). Причём делал сделки на их Diamond API. 500 микросекунд мне бы хватило чтобы получить прибыль, а с 5000… Ну только смотреть как её получают другие люди
avatar
ELab, какой сейчас не знаю, они вообще не часто такие тесты на всеобщее обозрение выкладывают, вот последнее что я видел: SSMaker.ru/3885af85/. Можно в саппорт биржи написать с просьбой дать последние данные. Надо понимать, что это величина плавающая и зависит от времени торгов, например максимальные задержки будут на открытии Америки и добиться постоянной величины задержки невозможно. А вообще лучше всегда измерять самому все и не полагаться на чужие цифры, пусть даже из официальных источников. Судя по твоим цифрам, задержки весьма неплохие, решение diamond API + Solarflare может и не самое быстрое, но за такую цену быстрее наверно не найти.
Хоть и не нужно это, но плюсанул топик и в профиль. Вот такие топики нужны смарту, а не пое — нь которая на главной!
avatar
спасибо! и почем датафид Rithmic? не нашел у них прайс на сайте
avatar
Вот и настал тот день, когда я нашел что-то полезное на этом сайте))) Кирилл, агромное спасибо за труд!!! не имею рейтинга, плюсанул бы((
avatar
Спасибо за труд!
avatar
Эмм… не сильно разбираюсь в теме… но чем полезны данные, меньше чем за год? Их по мойму даж в нинзе закачать можно.
avatar
Леха Майтрейд, стакан и тики с микросекундной маркировкой дохрена бабла стоят, а нинзя это примитив
для теста хфт и недели достаточно таких данных
большой плюс автору
avatar
moonwalker, О как… ясно.
avatar
Спасибо за дату. В какой проге можно прогнать эмуляцию по этой дате?
avatar
felix, в самописной
avatar
Начал сейчас тестить твои данные — тоже снимал с Rithmic, но с их сервера на Aurora. И у меня был R|Diamond (хотя по идее 1-1 должно быть). Вообщем, у меня разница очень большая. Наверное, еще сторона агрессора у тебя самостоятельно вычисляется. У меня с биржи (я с Rithmic списывался чтобы сделали биржевую сторону агрессора).
avatar
Разница может быть только в таймштемпах и все, у тебя штемп чикагский стоит, у меня локальный московский, т.е. разница будет только в часах, минуты и секунды будут совпадать. Сторона агрессора у меня не вычисляется, какую Ритмик давал я такую и ставил, надо только учитывать, что у инструментов для которых доступна имплайдная функциональность может не быть стороны агрессора в трейде, это нормальная ситуация, так биржа транслирует. Ритмик дает все данные в том числе и сторону агрессора один в один как биржа проверял не раз. Специально брал куски данных напрямую биржевые, которые с директ коннекта получены и сравнивал с Ритмиком, расхождений нет.
Коробицын Кирилл, понял, буду смотреть. может с временем чтото. в любом случае — огромный плюс в карму!
avatar
При распаковки файлов 6bu4.rar, 6cm4.rar и ZLK4.rar выдается ошибка, что архив поврежден или имеет неизвестный формат.
avatar
Хорошо перепроверю архивы, тогда перезалью на днях эти инструменты
Скажи, внутренний флаг датафида это не кол-во ордеров?
«A;17:57:22;11280;10090;10;6;1;» тут 6 не кол-во ордеров? Т.е. 10 это объем, а 6 кол-во ордеров.
avatar
Да все верно, 6 — это количество ордеров, 10 — это количество лимитов, а внутренний флаг это 1.
Коробицын Кирилл, спасибо
avatar
Большое спасибо за данные. А где бы можно узнать список значений флагов датафида (т.е. как их интерпретировать)? В частности, для воссоздания BestBid, BestAsk.
avatar
А не мог бы кто-нибудь перезалить? Ссылка умерла
avatar

Аналогичная просьба!
Кирилл, есть возможность перезалить?

 


теги блога Коробицын Кирилл

....все тэги



UPDONW
Новый дизайн