Провел кластерный анализ индекса РТС, курса рубля и индекса волатильности среди глобальных активов за 2006-2013 год. Превосходный первоисточник идей и примеров с разъяснениями и исходным кодом
здесь . Как установить ПО и что ещё можно исследовать, можно найти по вышеприведенной ссылке.
Кластерный анализ на основе набора различных алгоритмов классификации, позволяет организовать наблюдаемые данные в наглядные структуры, что бы далее по полученной структуре лучше понять, обработать, и более эффективно использовать данные в требуемой области деятельности.
Мне было интересно насколько точно алгоритмы кластерного анализа (кластеризации), реализованные на языке программирования R (далее
кибермозг), смогут сгруппировать активы и выявятся ли какие-то не известные взаимосвязи.
Кибермозг справился с этим успешно, результаты получились интересные.
Отобрал следующие инструменты:
RTS – индекс РТС
SI – фьючерс на курс доллар-рубль
RUB – фьючерс на рубль (перевернутый Si, добавил для проверки точности)
RTSVX – индекса волатильности российского рынка
CRB – индекс сырьевых товаров
BR – фьючерс на нефть марки Brent
HO – фьючерс на
топочное масло (мазут)
SP – фьючерс на индекс S&P500
HG – фьючерс на медь
AD – фьючерс на австралийский доллар
CD – фьючерс на канадский доллар
MP – фьючерс на мексиканский песо
EU – фьючерс на курс евро
BP – фьючерс на британский фунт
DX – фьючерс на индекс доллара
JY – фьючерс на японскую йену
US – фьючерс на 30-летние бонды США
TY – фьючерс на 10-летние облигации США
GC – фьючерс на золото
SL – фьючерс на серебро (назвал так, что бы не совпало с Si)
VIX – индекс рыночной волатильности Чикагской биржи опционов
Для разнообразия и улучшения вкуса добавил сахар (SB), кукурузу © и пшеницу (W), что бы кибермозг по активней и быстро осуществил обработку данных.
Поскольку в России много выходных и праздников, для корректности сравнения при анализе, календарные даты в файле Data Clustering_aggreg.xls взял по торговым сессиям Московской биржи. Столбцы по активам перемешал, что бы не было сомнений в корректности анализа, проверил, на итоговый результат не влияет.
Получили базу данных по 24 инструментам, её можно использовать и для других возможных исследований.
Чтобы посмотреть динамику изменений разделил 2006-2013 на 2 периода по 4 года (чтобы не перегружать пост не все результаты привел, в архиве прикрепил все данные для подобного изучения).
1) 24 инструмента разбил на 7 кластеров.
— период 2006-2013
Кластеризация:
В архиве есть разбивка на 5 кластеров.
Иерархическая дендрограма:
Промежуточные выводы: на рисунке видно, что индексы на волатильность сразу выделились в отдельный класс, в том числе RTSVX. Индекс VIX – как будто задает ритм всем другим активам. Сырьевые активы, валюты, защитные активы (US и TY) были сразу сгруппированы в своих классах. Si объединился с DX. RTS пытается идти особняком. RUB расположился среди сырьевых валют.
— 4 года 2009
— 4 года 2013
Отличие между двумя интервалами 2009 и 2013:
— RTS переместился в сырьевые и валютные группы, ближе к металлам, около меди HG.
— Золото GC стало ближе к защитным активам, если помните, из них выходили в последний год.
При втором анализе, убрал индексы волатильности — VIX, RTSVX, товары — C, SB, W и SI (т.к. находится рядом с DX, и есть его аналог RUB).
2) 18 инструментов разбил на 5 кластеров.
— период 2006-2013
Иерархическая дендрограма:
— 4 года 2009
— 4 года 2013
Выводы:
- Визуально волатильность выделяется из всех активов. Торговля волатильностью дает диверсификацию среди активов.
- Фьючерс на индекс SP не выделяется из всех активов, если не принять, что через индекс волатильности VIX он все же выделяется.
- Тем, кто отслеживает и знает, что происходит на глобальных активах, знают, какие активы взаимосвязаны и воспринимают непосредственно изменения на рынках в процессе торгов.
- Арбитражные стратегии первыми замечают эти изменения и используют их.
- Кибермозг хорошо провел анализ, сгруппировал верно, так как действительно взаимосвязаны и иерархически представлены финансовые активы.
- Если вы знаете о взаимной коррелированности между инструментами, то кластеризация м.б. не требуется. Если есть некая группа данных с неизвестными зависимостями, то можно провести кластеризацию, чтобы выявить и посмотреть, что же обнаружит кибермозг.
В этом 2014 году, скорее всего, происходят дальнейшие изменения, в связи с дальнейшим падением российского фондового рынка, возможно RTS отделяется от товарной (инфляционно-рискованной) группы.
Если есть замечания, вопросы, не точности и не заметил что-нибудь, пишите в комментариях. Плюсы приветствуются.
Ингредиенты
здесь.
По поводу индекса РТС вы использовали одномерную кластеризацию, если же связь более сложная и описывается группой активов что происходит на практике, оно вам ничего не покажет, что оно и сделало. Это не значит что связи нет просто она сложнее.
А какие параметры можно указать для получения адекватных корректных данных кластеризации?