Вам дали 10000 числовых рядов формата (календарная дата; число) и предложили рассортировать их пополам на «похожие на (цены) американские акции» и непохожие. Или, скажем, «более похожие» и «менее похожие». Как вы будете это делать?
1. Нужно выработать меру похожести.
2. Вычислить меру похожести для каждого из рядов.
3. Рассортировать.
Самое сложное/интересное, конечно, в первом пункте. Тут вся загвоздка: «похожесть» это абстракция, кто как её формализовал, тот так и понимает. Так что тот кто «заказывает» сортировку тот и должен предоставить формализацию ну или хотя бы что больше конкретики про понятие «похожие».
Replikant_mih, Естественно, речь о «мере похожести», только задачка в том и состоит, чтобы вы её сформулировали. Если бы она была предоставлена «заказчиком», то вообще никакой задачки бы не было: вычислить и рассортировать это вообще не задачка.
Ivan FXS, Ну, например, я возьму российские акции, посчитаю среднюю цену по ним в среднем по рядам, сделаю то же по американским. Например, американская средняя будет ниже, я посчитаю мерой похожести близость средней цены ряда к нулю. И буду прав для этого критерия похожести. Но вас же такой вариант не устроит. Но я же не знаю, что у вас за «похожесть» в голове. Ну или не знаю, как вы эту похожесть планируете использовать, тогда бы меру похожести я бы вырабатывал под критерий целей дальнейшего использования — тоже совсем другое дело.
Replikant_mih, «возьму… акции, посчитаю среднюю цену по ним в среднем по рядам» — получите для каждой акции некое число, все числа будут разными… и что это дает?
«как вы эту похожесть планируете использовать» — хочу разделить ценовые ряды реальных американских акций на такие, которые ведут себя «нормально», и такие, которые ведут себя «не нормально».
хочу разделить ценовые ряды реальных американских акций на такие, которые ведут себя «нормально», и такие, которые ведут себя «не нормально».
Вот, идея-то здравая! Были у меня у самого подобные мысли. Я так чисто сначала докопался, сорри). Ну как по мне не хватило условий в задаче для её решения). Терь хватает).
Если теперь по существу: Ну тут много нюансов. Дальше что-то типа мозгового штурма:
Думаю, «нормально» может быть не одно. Думаю, возможно несколько точек притяжения и, думаю, так правильнее будет делать. Можно придумать какие-то метрики, характеризующие ценовой ряд (причем не за всю историю, а на некотом участке, т.е. по факту это акция в некотором состоянии, которое можно разложить на «характер» акции + примесь каких-то внешних факторов), дальше можно попробовать кластеризовать с помощью ML. Если модель сможет вычленить точки притяжения (кластеры), дальше уже будет и мера похожести — по факту расстояние до центра кластера. Дальше надо смотреть, экспериментировать. Смотреть как меняется в динамике эта мера, может там какие-то паттерны в этом. Дальше можно разные типы стратегий для разных кластеров смотреть — где какая лучше ложится. И т.д., дальше сложнее фантазировать, потому что всё туманней становится, дальше нужно фантзировать уже по ходу исследований).
Рома Дмитриев, мое мнение 80 не будет… к дивидендам поднимут до 96-99, потом снова упадем до 88-89. Апрель май будет 115-122
В это время сбер около 260
К концу года Евротранс возможно закроем г...
Дмитрий,
Это ни о чем не говорит, ну приватизировали бы Газпром, Роснефть, Сбер, ВТБ, как норникели, русалы и мечелы с сегежами и и было бы 60% частных компаний.
Через 10 лет Яндекс и Озон выр...
ЕС разрешил Хорватии в 2025 году продолжать получать вакуумный газойль из РФ Евросоюз в 15-м пакете санкций продлил до конца 2025 года разрешение для Хорватии получать вакуумный газойль (ВГО) из Росси...
«Стратегия» Трампа заключается в том, чтобы создать экономическую неопределенность в других странах: Фриланд
December 13, 2024
OTTAWA — С приходом к власти Дональда Трампа у США есть открыт...
США угрожают мировой гегемонии доллара больше, чем страны БРИКС — Bloomberg Политика угроз, санкций и повышенных тарифов, которой пообещал придерживаться избранный президент США Дональд Трамп в стремл...
2. Вычислить меру похожести для каждого из рядов.
3. Рассортировать.
Самое сложное/интересное, конечно, в первом пункте. Тут вся загвоздка: «похожесть» это абстракция, кто как её формализовал, тот так и понимает. Так что тот кто «заказывает» сортировку тот и должен предоставить формализацию ну или хотя бы что больше конкретики про понятие «похожие».
«как вы эту похожесть планируете использовать» — хочу разделить ценовые ряды реальных американских акций на такие, которые ведут себя «нормально», и такие, которые ведут себя «не нормально».
Вот, идея-то здравая! Были у меня у самого подобные мысли. Я так чисто сначала докопался, сорри). Ну как по мне не хватило условий в задаче для её решения). Терь хватает).
Если теперь по существу: Ну тут много нюансов. Дальше что-то типа мозгового штурма:
Думаю, «нормально» может быть не одно. Думаю, возможно несколько точек притяжения и, думаю, так правильнее будет делать. Можно придумать какие-то метрики, характеризующие ценовой ряд (причем не за всю историю, а на некотом участке, т.е. по факту это акция в некотором состоянии, которое можно разложить на «характер» акции + примесь каких-то внешних факторов), дальше можно попробовать кластеризовать с помощью ML. Если модель сможет вычленить точки притяжения (кластеры), дальше уже будет и мера похожести — по факту расстояние до центра кластера. Дальше надо смотреть, экспериментировать. Смотреть как меняется в динамике эта мера, может там какие-то паттерны в этом. Дальше можно разные типы стратегий для разных кластеров смотреть — где какая лучше ложится. И т.д., дальше сложнее фантазировать, потому что всё туманней становится, дальше нужно фантзировать уже по ходу исследований).