Ivan FXS
Ivan FXS личный блог
28 января 2023, 20:35

Задачка по скринингу

Вам дали 10000 числовых рядов формата (календарная дата; число) и предложили рассортировать их пополам на «похожие на (цены) американские акции» и непохожие. Или, скажем, «более похожие» и «менее похожие». Как вы будете это делать?
6 Комментариев
  • Replikant_mih
    28 января 2023, 20:50
    1. Нужно выработать меру похожести.
    2. Вычислить меру похожести для каждого из рядов. 
    3. Рассортировать.

    Самое сложное/интересное, конечно, в первом пункте. Тут вся загвоздка: «похожесть» это абстракция, кто как её формализовал, тот так и понимает. Так что тот кто «заказывает» сортировку тот и должен предоставить формализацию ну или хотя бы что больше конкретики про понятие «похожие».
      • Replikant_mih
        28 января 2023, 22:12
        Ivan FXS, Ну, например, я возьму российские акции, посчитаю среднюю цену по ним в среднем по рядам, сделаю то же по американским. Например, американская средняя будет ниже, я посчитаю мерой похожести близость средней цены ряда к нулю. И буду прав для этого критерия похожести. Но вас же такой вариант не устроит. Но я же не знаю, что у вас за «похожесть» в голове. Ну или не знаю, как вы эту похожесть планируете использовать, тогда бы меру похожести я бы вырабатывал под критерий целей дальнейшего использования — тоже совсем другое дело.
          • Replikant_mih
            28 января 2023, 22:29
            Ivan FXS, 
            хочу разделить ценовые ряды реальных американских акций на такие, которые ведут себя «нормально», и такие, которые ведут себя «не нормально».

            Вот, идея-то здравая! Были у меня у самого подобные мысли. Я так чисто сначала докопался, сорри). Ну как по мне не хватило условий в задаче для её решения). Терь хватает).

             

            Если теперь по существу: Ну тут много нюансов. Дальше что-то типа мозгового штурма:

            Думаю, «нормально» может быть не одно. Думаю, возможно несколько точек притяжения и, думаю, так правильнее будет делать. Можно придумать какие-то метрики, характеризующие ценовой ряд (причем не за всю историю, а на некотом участке, т.е. по факту это акция в некотором состоянии, которое можно разложить на «характер» акции + примесь каких-то внешних факторов), дальше можно попробовать кластеризовать с помощью ML. Если модель сможет вычленить точки притяжения (кластеры), дальше уже будет и мера похожести — по факту расстояние до центра кластера. Дальше надо смотреть, экспериментировать. Смотреть как меняется в динамике эта мера, может там какие-то паттерны в этом. Дальше можно разные типы стратегий для разных кластеров смотреть — где какая лучше ложится. И т.д., дальше сложнее фантазировать, потому что всё туманней становится, дальше нужно фантзировать уже по ходу исследований).

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн