Постов с тегом "R language": 13

R language


Rusquant package on CRAN

Пока тут бился с алготорговлей, параллельно дописал библиотеку для R, которая уже больше 12 лет пылилась
на разных репозиториях.

Многим было не удобно ее использовать,  но не смотря ни на что народ ей пользовался и благодарил на конференциях за поддержку этой библиотеки.

Теперь же можно наслаждаться нормальным доступ к данным из
Финам, Алор, Мосбиржа, Mfd, Тинькофф, MarketWatch. Добавил в нее и возможности торговать через API брокеров: Финам, Алор, Тинькофф.

Теперь можно устанавливать и наслаждаться как обычными библиотеками:

install.packages(«rusquant»)
library(rusquant)

SPY Intraday vs Extraday

Снова погряз в R. Чем больше забираюсь в дебри, тем быстрее хочется вылезти оттуда. Найти что-то ценное в море цифр оказывается очень сложно. 

По ходу получилась пара наглдяных картинок на тему движений SPY внутри дня и с учетом гэпа. Просто статистика, ничего особенного. 


Картинка 1: путь SPY за два годя с гэпом (наверху) и без гэпа (внизу). Ось Y — изменение цены в долларах.
SPY Intraday vs Extraday
Гистограмма внутридневных движений. Ось Y — количество дней, ось X — изменение цены за день в долларах.


SPY Intraday vs Extraday
Гистограмма движений с гэпом. Перекос сильнее.

( Читать дальше )

Немного извратов с Random Forest в R

Продолжая тему, затронутую в  предыдущей публикации хочу поделиться некоторыми наблюдениями.

И так, возьмем 1000 дней AAPL, 20 внутридневных метрик и попробуем обучить алгоритмы случайного леса и ближайших соседей и прогнать его на последних 120 днях. 

Результат для числовых значений результата:
Немного извратов с Random Forest в R 

( Читать дальше )

Самообучающиеся системы в R. Random Forest vs Nearest Neighbor.

Все больше и больше нравится использовать R для поиска идей и анализа. 
Сегодня я хочу рассказать о небольшом исследовании и сравнении системы прогнозирования на основе алгоритма случайного леса и  алгоритма ближайшего соседа. 

Вопросы, которые я себе ставил были следующими:
— на сколько алгоритм Random Fores (RF) продуктивнее чем Nearest Neighbor (NN) или наоборот;
— каково влияние параметров количества случайных соседей на работу алгоритма и на сколько оно может оказаться простой подгонкой данных;
— получится ли эффективно сочетать результаты NN для маленькой и большой выборки, избавляясь тем самым от ошибки переоптимизации;
— как оценить надежность обучения;
— какой метод работает лучше, регрессионный или с формализованными ответами;
— когда проводить переобучение;

Данное исследование помогло мне ответить на некоторые вопросы. 

В качестве предикторов были использованы некоторые внутридневные метрики (10 штук) акции AAPL за один год, результатом я считал изменение цены акции от Close первой пятиминутной свечи до конца дня. Сразу скажу, предикторы мне показались неэффективными, но суть исследования, все же, была в оценке методов прогнозирования прежде всего. Я надеялся, что алгоритмы смогут выявить определенные паттерны внутри многомерного пространства и использовать их. 

( Читать дальше )

Исследование волатильности с помощью HAR-модели библиотеки highfrequency в R.

Сегодня я не пожалел время и посмотрел, что можно сделать с HAR моделью. 

HAR — это Heterogeneous Autoregressive Model for Realized Volatility  (простите, перевести не могу, а если и переведу, то толку мне от этого не будет)

Суть модели в том, что она оценивает три периода, заданых параметрами и строит линейную модель зависимости волатильности на следующий день, подгоняя коэффициенты модели.

Подробное описание модели с формулами и прочим можно найти в описании библиотеки Highfrequency.

Приведу два графика: 

Первый — работа модели на SPY с 2007, второй — 2014 год. 

Исследование волатильности с помощью HAR-модели библиотеки highfrequency в R.

( Читать дальше )

Исследование внутридневной волатильности в R

Сегодня я посмотрел модель внутридневной волатильности, которая считается функцией  spotVol пакета highfrequency. 
Эта модель показывает отношение волатильности в каждый заданный момент времени к среднедневной волатильности.


Возьмем пятиминутные данные по акции CAT. Здесь представлены два графика, отражающие данные за два периода. По оси X показан индекс свечи внутри дня, по оси Y — отношение волатильности данной свечи к среднедневной волатильности. 


Исследование внутридневной волатильности в R

( Читать дальше )

Высокочастотные данные в R

Сегодня еще смотрел на R применительно к высокочастотным данным. Кружочный метод мне, в общем нравится. 

Вот пара скриншотов:

1) Фейсбук. Пять минут торговли после открытия.

Высокочастотные данные в R 

Если я ошибаюсь или у кого-то есть какие-то идеи относительно подписей — буду рад выслушать! 
 




2) 25 минут торговли, со склеенными и усредненными данными, фактически, по одной секунде. Тоже что-то есть.. 

( Читать дальше )

Высокочастотные данные в R

Визуализация пяти минут торговли Facebook в пятницу. Красиво получилось!

Высокочастотные данные в R

Экспорт данных из ActiveTick собственным приложением, загрузка в R — библиотека highfrequency. 

Статистическая обработка данных в R с использованием Quandl

Изучая возможности языка R, наткнулся недавно на интересный сайт Quandl.com. Изначально увидел там возможность выгрузки данных по акциям, но приглядевшись, нашел там такое количество различных данных, что  голова реально идет кругом.  Никогда, особенно, не интересовался фундаментальными данными, однако, решил посмотреть, как можно с ними работать. 

Для примера я взял данные по производству, экспорту и импорту нефти от министерства энергетики США и данные цен фьючерсов на американскую нефть. 

Задача стояла в поиске зависимости этих параметров. 

Приведу несколько графиков, расчет коффициентов корреляции и код. 

Статистическая обработка данных в R с использованием Quandl

( Читать дальше )

....все тэги
UPDONW
Новый дизайн