Блог им. afecn19
46 0.134 67 0.095 4 0.090 60 0.071 15 0.069 week 0.068 26 0.067 2 0.065 53 0.065 84 0.058Week у нас всего лишь на 6 месте с ничем не примечательными коеффами важности, а во главе фича «46», которая между нами говоря никакого смысла и не имеет, ибо случайно сгенерированный ряд. Обьяснить это можно только одним-фича week детерминирует наш таргет на 52%, что совсем не густо, а фича 46, была сгенерированна так что ее ценность случайно оказалась выше. Ну то есть мы все понимаем что если посадить макаку торговать, то будет она торговать в ноль, но если посадить 1 млн макак и каждой дать по терминалу, то наверняка среди 1 млн окажется парочку «макак-гуру», которые в силу случайности покажут длинную серию успешных трейдов (я кстати думаю что также обьясняется появление гуру среди людей), а если посадить за комп 1 млрд макак, то наверняка парочка вообще не совершит неправильных кликов, и это будет «макака-Баффет», все будут смотреть ей в рот, удивляться ее гениальности, а «макака Баффет» откроет блог и начнет давать советы как торговать правильно. Ну вот и в нашем пример, так получилось, что макака под номером «46» случайно понажимала кнопки правильней и RF назвал ее особо ценной.
39 0.185 week 0.161 51 0.116 89 0.098 24 0.086 56 0.083 15 0.066 47 0.065 52 0.053 72 0.044У нас «макака 39» в лидерах. Ну и бес с ней, главное что та единственная, действительно разумная фича скаканула на 2 место.
week 0.263 96 0.123 9 0.091 29 0.062 74 0.059 67 0.059 83 0.057 11 0.055 84 0.049 75 0.047За 4:
week 0.188 82 0.089 23 0.083 65 0.074 51 0.069 59 0.065 71 0.065 53 0.063 26 0.058 74 0.057За 5
week 0.314 15 0.155 39 0.104 82 0.083 51 0.077 53 0.073 70 0.069 74 0.045 47 0.034 30 0.024Но хотя по мере роста выборки все вроде встает на свои круги, однако по прежнему RF считает что помимо week есть другие фичи с далеко не нулевой ценностью. Так что если вы вдруг нашли чудесный индикатор который чего то там предсказывает, или нашли гуру, «который никогда не ошибается» то может все дело в… макаке. Точно могу сказать что для RF такие макаки не нужны, они скрывают за своим шумом истинные фичи, так что если кто то думает «загоню побольше фичей а дальше и так сойдет» — то не сойдет.
Или для хохмы пишете?
export_graphviz(model.estimators_[1], out_file=str(year+N_)+'tree.dot',
feature_names = list(X_train.columns.values),
# class_names = (target_names),
# class_names = list(target.columns.values),
rounded = True, proportion = False,
# feature_names = True,
precision = 2, filled = True)
и визуализацию дереьев там перебираю в model.estimators_[1], меняя число в квадратных скобках