Ответы на комментарии пользователя BeyG
4.1.1 Input layers
Drawing inspiration from multi-channel representations in image processing (e.g., RGB channels), the grid-like structure of limit order book data is represented using two input channels: one for price and one for volume information. This results in a three-dimensional input x∈ℝH×W×C (Figure 2), where H denotes the depth of the LOB (i.e., the number of price levels), W is the window size representing the number of time steps used to construct each training example, and C is the number of channels which in this case is 2 for price and volume channels.
Перевод:
По аналогии с многоканальными представлениями в обработке изображений (например, с каналами RGB), сеточная структура данных книги лимитных ордеров представлена с помощью двух входных каналов: один для цены, другой для объема. В результате получается трехмерный входной сигнал x∈ℝH×W×C (рис. 2), где H обозначает глубину LOB (то есть количество ценовых уровней), W — размер окна, представляющий собой количество временных шагов, используемых для построения каждого обучающего примера, а C — количество каналов, в данном случае равное 2 для каналов цены и объема.
Добавлю рисунок 2

Вы что ли не видите linear projection, positional embeddings и transformer ДО подачи на нейросеть?
In this section we discuss the proposed LiT model architecture (Figure 2) which consists of three main components: (1) a linear projection concatenated with positional embeddings to efficiently represent structured patches from the limit order book data; (2) transformer layers utilizing self-attention mechanisms to encode spatial and temporal dependencies between patches; and (3) LSTM layers to further model long-term temporal dependencies. Additionally, we provide details regarding the experimental training and fine-tuning settings.
4.1.1 Input layers
Drawing inspiration from multi-channel representations in image processing (e.g., RGB channels), the grid-like structure of limit order book data is represented using two input channels: one for price and one for volume information. This results in a three-dimensional input x∈ℝH×W×C (Figure 2), where H denotes the depth of the LOB (i.e., the number of price levels), W is the window size representing the number of time steps used to construct each training example, and C is the number of channels which in this case is 2 for price and volume channels.
Современные архитектуры работают с распределениями вероятностей и динамически адапцируются к смене рыночных режимов.
вы вообще понимаете суть демократии? Про независимый суд, верховенство права что-то слышали?
BeyG, слышали про конкурс?
www.kaggle.com/competitions/hull-tactical-market-prediction/overview
Ваша задача — спрогнозировать доходность фондового рынка, представленную избыточной доходностью индекса S&P 500, одновременно учитывая ограничения волатильности. Ваша работа проверит гипотезу эффективного рынка и поставит под сомнение общепринятые принципы личных финансов.