Блог им. ipsnow

В поддержу простоты предсказательных моделей

    • 02 апреля 2020, 17:39
    • |
    • ipsnow
  • Еще

Общеизвестно, что чем метод проще, тем он надежнее (в контексте предсказаний — точнее). Комментаторы смартлаба через один утверждают это, но сколько из них обосновывают свои утверждения?
Решил изучить этот вопрос подробнее. Ключевые ссылки нашел в ответах на вопрос https://stats.stackexchange.com/questions/124955/is-it-unusual-for-the-mean-to-outperform-arima (чувак спрашивает, нормально ли, что в его исследованиях лучше работают простые методы типа  скользяшек). Помимо множества цитат авторитетов научного мира приведено любопытное исследование от 2015г (цифры округлены, т.к. немного гуляют даже в пределах публикации):

В отличие от некоторых дискуссий, по нашему определению сложность не является функцией от количества переменных. Сложность также не зависит от усилий, необходимых для разработки модели. Чтобы выяснить, прост ли метод прогнозирования, мы спрашивали его пользователей, понимают ли они его — и если да, то смогут ли объяснить, задействованные в модели математические методы, как эта модель представляет исходную информацию, как разные части модели связаны друг с другом и как прогноз модели поможет принять лучшее решение.

Было изучено 30 научных работ, включающих 100 сравнения точности прогнозов сложных и простых методов. В 80% сравнений прогнозы, полученные с помощью простых методов, оказались точнее прогнозов, полученных с помощью сложных методов. Погрешности сложных методов были примерно на 30% больше, чем погрешности простых — в 20 исследованиях. И ни в одной публикации не было приведено однозначных доказательств превосходства сложных моделей над простыми.

И конечно же, большинство использующих сложные методы, ответить на предложенные вопросы не смогли. Обращу внимание на то, что предоставленные вопросы — прямая наводка на пути упрощения имеющихся систем. И составляют добрую половину ценности публикации. Отсюда, например, такой инсайт (подтвержденный в статье) - несколько простых моделей, соединенных простым принципом (вплоть до усреднения их предсказаний), работают лучше одной сложной.
Также в исследовании приводится большое количество отсылок к авторитетам, подтверждающим принцип простоты, типа:

Пересказывая свою переписку с Нобелевскими лауреатами и другими ведущими экономистами, Зеллнер сообщает Джеймсу Тобину, что он и его коллеги из Совета экономических консультантов скептически относились к сложным моделям экономики, потому что они “не могли понять работу и результаты таких моделей и поэтому не очень доверяли им.

Но это не очень нам интересно. Интереснее цифры, говорящие о том, почему авторы большинства публикаций по моделям предсказаний не имеют успехов на бирже:

Анализ работ American Economic Review показал, что 75% работ 1980-х годов, в которых использовался регрессионный анализ, выходили за рамки статистической значимости. В 1990-е годы этот показатель снизился до 32 процентов

Выводы — прописные истины:
  — для сложных моделей очень сложно посчитать статзначимость, следовательно..
  — черные ящики, полученные на основе жонглирования статистикой, работают хуже простых моделей. а посему, майнить модели (если вооще их майнить) лучше простыми методами  
  — доменные знания (фичи + таргеты) решают, методы их обработки доступны — в любом учебнике по ML
  — не унываем со сложности state of the art моделей, твердых знаний по простому инструменту достаточно

Дополнительно в поддержку простоты
 - https://arxiv.org/pdf/1712.06567.pdf  — старая-добрая генетика работает не хуже навороченных DQN, A3C, policy gradient method
 - https://arxiv.org/pdf/1912.11761.pdf  — не менее старые fully connected & recurrent neural network вполне могут тягаться с Le-net, Resnet, Transformer — сетями, etc.

   

    ★2
    4 комментария
    По мне, так нейронки на рынке и не должны хорошо работать. 
    avatar
    SergeyJu, предполагаю, причина в том, что типичная нейронка в сравнении с традиционными SVM/XGBOOST/GBM и тд, не содержит в себе нормальные механизмы регуляризации, т.к. при распознавании картинок это не критично — спасибо размерам и станционарности датасетов. Что не мешает приделывать нейронкам эти механизмы в теории (увы, не нам).
    avatar
    SergeyJu, в целом же согласен, применение нейронок в лоб давало у меня результат худший, чем традиционный ML
    avatar

    теги блога ipsnow

    ....все тэги



    UPDONW
    Новый дизайн