Фиттите линейную регрессию ln(NonInflationaryRUB) ~ ln(Brent), альфа — это свободный член, бэта — коэффициент наклона. Откройте любой базовый учебник по эконометрике и разберитесь в главе «линейная регрессия» — сразу все станет понятно, и главное — получите очень простой инструмент для оценки много чего в экономике, физике и не только.
SergeyJu, ну все-таки линейная регрессия очень примитивна, и сама линейная зависимость встречается нечасто. Я базовым универсальным инструментом исследования любых данных продолжаю считать extreme gradient boosting ;) Но если нет математического бэкграунда — то линейная регрессия самое то
MadQuant, звучит красиво. А как Вы контролируете риск оверфитинга? Я с рэндом форест ковырялся весьма долго, но как-то не получил удовлетворения. Если в одно дерево включено много решающих правил — переподгонка, если мало — нет преимущества перед более простыми методами.
SergeyJu, ну есть несколько способов, в том числе встроенных в тот же sklearn:
— boosting сам по себе довольно робастен — как правило несколько тысяч итераций еще не приводят к переобучению в классическом понимании
— дополнительно при фиттинге деревьев можно указывать, чтобы он перебирал не все переменные на каждом шаге и использовал для обучения не все данные — магия, но помогает избежать переобучения
— другие настройки вроде минимального кол-ва наблюдений в листе и минимального кол-ва наблюдений, которое можно разделить
Все эти настройки можно отдельно калибровать, и итоговый результат обычно получается неплох.
Речь, понятно, о задачах общего назначения — рыночные данные деревьями предсказываются не лучше, чем более простыми методами
MadQuant, про все эти штучки я читал, кое-что даже пробовал использовать. В общем, к рынку приспособить не смог (имею в виду разработку ТС).
Похоже, эта задачка сильно отличается от традиционных. Другая целевая функция (кстати, какая?) совсем другой уровень повторяемости (многократно меньший). В общем, копать-не перекопать.
— boosting сам по себе довольно робастен — как правило несколько тысяч итераций еще не приводят к переобучению в классическом понимании
— дополнительно при фиттинге деревьев можно указывать, чтобы он перебирал не все переменные на каждом шаге и использовал для обучения не все данные — магия, но помогает избежать переобучения
— другие настройки вроде минимального кол-ва наблюдений в листе и минимального кол-ва наблюдений, которое можно разделить
Все эти настройки можно отдельно калибровать, и итоговый результат обычно получается неплох.
Речь, понятно, о задачах общего назначения — рыночные данные деревьями предсказываются не лучше, чем более простыми методами
Похоже, эта задачка сильно отличается от традиционных. Другая целевая функция (кстати, какая?) совсем другой уровень повторяемости (многократно меньший). В общем, копать-не перекопать.