karapuz
karapuz личный блог
28 февраля 2013, 04:02

Сытый конному не леший: фокусы data mining

Знаете, какой набор переменных лучше всего предсказывает S&P500? Ни за что не догадаетесь: это производство сливочного масла в Бангладеш и США + выпуск сыра в США + поголовье овец в США и Бангладеш. И это не совсем шутка — именно такой результат получили исследователи, когда попытались найти, какие переменные лучше всего скоррелированы с рынком акций.
Сытый конному не леший: фокусы data mining

На самом деле, конечно, это экстремальный пример так называемого overfitting — переподгонки. Будьте осторожны с корреляциями! ) И с моделями, основанными на истории — тоже. Модель, идеально описывающая исторические данные, может абсолютно идиотически вести себя в будущем. Яркий пример:

Сытый конному не леший: фокусы data mining

Подробности — в старой работе STUPID DATA MINER TRICKS: OVERFITTING THE S&P 500, Дэвида Лейнвебера из Гарварда. 


karapuz-blog.blogspot.com
4 Комментария
  • siva
    28 февраля 2013, 07:45
    Спасибо, кэп!
  • Кан Делябр
    28 февраля 2013, 08:15
    Корреляция не устанавливает причинно-следственные связи. Это м.б. случайное явление на временном периоде. Сегодня она есть, а завтра она исчезнет или поменяет знак. Полученные исследователями выводы говорят только об их квалификации при применении Data mining. Вместе с тем нужно сказать, что между котировками разных инструментов существуют очень тонкие связи, которые не описываются просто тупой корреляцией.
  • dash01
    28 февраля 2013, 10:59
    после публикации корреляций, имевших место в прошлом, вдруг перестают действовать в будущем. Страннннно :)
  • Marsel Tazetdinov
    28 февраля 2013, 12:12
    Прикольно)

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн