Make_hard, что было с долгом США после 2 мировой войны? Где были США в 39, 40, 41,42, 43, и пол года 44? Разве не в стороне? А западный фронт был открыт только после того как Германия уже поиграла Москву, Сталинград. Курск… Уже на корню был перелом, после которого всем стало ясно что СССР теперь победит и если ничего не делать вся Европа могла быть под СССР, только после этого не выгодного положения для США они начали уже фронт открывать. Так чем та история отличается от нынешней? Ничем!!! Кто финансировал Украину? Кто дал власть зелё? Кто даёт власть в других странах ЕС? Вы думаете Бельгия или Англия? Нет. Это все США, и все финансы идут так или иначе через них. Англия, это шпионское государство, оно тоже не само все делает. Так же, кто финансировал гит Лера и его партию, кто дал ему взойти, кто смотрел как Европу постепенно окуприуют? Кому было выгодно вырасти до 41 года монстра и потом направит на СССР? Да да да это те кто сидят на другом континенте и зарабатывают
Make_hard, например смотришь и понимаешь: 2/3 своего капитала уже потерял. Света в конце тоннеля не видно. Варианты: остаться с 30% от своего депо в виде кэша на руках сейчас, или с 0% в виде фантиков послезавтра…
Make_hard, нужен совет по балансировке датасета для задачи классификации текстов.
У меня текстовый датасет из ~104K сообщений, размеченный по трём классам (негативный/-1, нейтральный/0, позитивный/+1) для разных временных окон. Проблема в сильном дисбалансе:
Моя идея: удалить из класса 0 «истинно нейтральные» примеры — те, у которых целевая метрика близка к нулю и z-score низкий (нет статистической значимости).
Данные по классу 0 (для 5 мин):
* 61.7% имеют |z-score| < 0.5 (очень низкая значимость)
* 87.8% имеют |z-score| < 1.0 (слабая значимость)
* 99.9% имеют малое абсолютное значение целевой метрики
Мои вопросы:
* Насколько корректен такой подход для балансировки? Не теряю ли я важную информацию о «настоящих нейтральных» примерах?
* Какой порог по z-score посоветуешь использовать? Склоняюсь к |z| < 1.0 (это даст удаление ~74K из 84K нейтральных, останется ~30K примеров с более-менее равными классами).
* Может, есть лучшие стратегии для такой задачи, кроме андерсэмплинга нейтрального класса?