🛠️ Технический переход DeepSeek: почему платформа сбоит и что будет в V4
Пользователи DeepSeek в последние недели всё чаще сталкиваются с перебоями в работе: сервер выдаёт ошибку, файлы не загружаются, диалоги прерываются. На первый взгляд — банальная нестабильность. Но за этими сбоями стоит не просто перегрузка серверов, а масштабная техническая миграция. Разбираемся в деталях.
🏗️ Архитектура DeepSeek V4: что внутри
Новая модель представляет собой значительный скачок относительно предшественников. Вот ключевые технические характеристики:
· Mixture-of-Experts (MoE). Общий объём параметров — 1 триллион. Однако на каждый токен активируется лишь около 370 миллиардов параметров, что сохраняет эффективность и не даёт вычислительной нагрузке расти пропорционально размеру модели.
· Контекстное окно на 1 миллион токенов. Это примерно 15–20 романов уровня «Войны и мира», которые модель способна удерживать в оперативной памяти одновременно. Увеличение достигнуто за счёт новой архитектуры Engram — условной памяти, которая разделяет статическое хранение знаний и динамические вычисления. Простыми словами: факты и правила извлекаются из отдельного быстрого хранилища (DRAM), а не прогоняются через всю нейросеть заново, что экономит до 20–25% вычислительных ресурсов.
· Manifold-Constrained Hyper-Connections (mHC). Техника, решающая проблему нестабильности обучения при экстремально больших масштабах модели. Без неё V4 просто не удалось бы обучить до рабочего состояния — градиенты «схлопывались» бы на ранних этапах.
· Нативная мультимодальность. V4 с нуля обучена работать с текстом, изображениями, видео и аудио, без необходимости «прикручивать» модальности постфактум.
🔄 Переход на Huawei Ascend: цена технологической независимости
Ключевое изменение, которое отличает V4 от всех предыдущих версий — полный отказ от чипов NVIDIA и переход на китайские процессоры Huawei Ascend 950PR.
Технически это означает переписывание всего низкоуровневого кода с нуля. Дело в том, что NVIDIA десятилетиями выстраивала экосистему CUDA — программную платформу, на которой работают практически все современные нейросети. Huawei предлагает альтернативу — фреймворк CANN (Compute Architecture for Neural Networks). Инженерам DeepSeek пришлось вручную адаптировать ядро модели, переписывать ключевые операторы и оптимизировать распределённые вычисления под совершенно иную архитектуру.
Почему это сложно. В экосистеме NVIDIA для связи GPU используется NVLink — высокоскоростной интерфейс с пропускной способностью до терабайт в секунду, позволяющий сотням чипов работать как единый вычислительный кластер. В случае с Ascend такие «полносвязные» топологии пока недоступны, и инженерам приходится компенсировать это программными методами: оптимизировать маршруты передачи данных, управлять задержками и синхронизацией вручную.
Результат компромисса. По имеющимся данным, Ascend 950PR выдаёт примерно в 2,8 раза больше вычислительной мощности, чем NVIDIA H20 (наиболее производительный чип, разрешённый к экспорту в Китай), но всё ещё уступает флагманскому H200. При этом стоимость развёртывания на платформе Huawei оказывается примерно втрое ниже, чем на решениях NVIDIA.
⏳ Сбои как симптом перехода
Теперь становится понятнее, почему платформа работает нестабильно. Миграция такого масштаба — это не просто «переключить тумблер». Инженеры параллельно поддерживают текущую инфраструктуру (V3) и разворачивают новую (V4), перераспределяя серверные мощности. В периоды пиковой нагрузки или активного тестирования новой архитектуры часть сервисов — особенно ресурсоёмкая загрузка файлов — может временно деградировать.
По сути, пользователи наблюдают «болезни роста» при переходе на принципиально новую технологическую платформу.
📊 При чём тут газ
Каждый такой переход на новое поколение ИИ означает кратное увеличение вычислительной нагрузки, а следовательно, и энергопотребления дата-центров. В долгосрочной перспективе это один из устойчивых драйверов спроса на электроэнергию и природный газ.
---
Больше технических разборов и аналитики по рынку — в моём Telegram-канале
t.me/ngtorg
Polina21, не хочет у меня работать этот дипсик. Дискриминация какая-то.
Вот что написал мне только что:
Поскольку самого изображения у меня нет, я анализирую предоставленный текстовый дамп содержимого файла `nsd.JPG`. Вот подробное описание того, что видно на скриншоте (исходя из этих данных):
### 📊 Общая структура
На скриншоте запечатлена **таблица с тремя столбцами**:
— **Date** (Дата)
— **Event** (Событие / Показатель)
— **Value** (Значение)
Под таблицей отдельно стоит число **62**.
### 📋 Содержимое таблицы
Таблица содержит **61 строку с данными** (плюс строка заголовков).
#### 1. Столбец `Date`
Все значения в этом столбце записаны в одинаковом формате: `N-441.2885`.
Судя по всему, это не стандартная календарная дата, а **номер теста, измерения или ID временной метки** (например, «N» может означать «Номер», «441.2885» — код серии или временная отметка в секундах).
#### 2. Столбец `Event`
Значения в этом столбце демонстрируют интересную динамику:
— **Первые строки (1–4):** Крупные числа с дробной частью.
— Строка 1: **87.56**
— Строка 2: **5435.47**
— Строка 3: **35.41**
— Строка 4: **0.40**
— **Строки 5–61:** Значение стабилизируется и становится строго равным **0.09**.
Это повторяется без изменений 57 раз подряд.
#### 3. Столбец `Value`
Этот столбец **полностью пуст** во всех 61 строках.
В дампе данных после закрывающего тега `</table>` и перед числом 62 нет никаких символов, соответствующих значениям в этом столбце. Вероятно, на изображении эта колонка либо пустая, либо содержит невидимые/скрытые данные, либо данные были утеряны при копировании текста.
### 🔢 Число 62 под таблицей
Сразу после закрытия таблицы (после строки 61) стоит число **62**.
Скорее всего, это **номер следующей строки** (продолжение нумерации) или **итоговое количество записей** (хотя в таблице 61 строка данных, 62 может означать общее число с учетом заголовка или пустой строки).
### 🧠 Интерпретация данных (гипотеза)
Учитывая поведение столбца `Event`:
1. **Начальный всплеск** (строка 2: 5435.47) и последующее резкое падение.
2. **Стабилизация** на минимальном значении 0.09 начиная с 5-й строки и до конца.
Это очень похоже на **график переходного процесса** или **затухающих колебаний**, где:
— `Date` — шаг измерения,
— `Event` — амплитуда сигнала (возможно, напряжение, давление, уровень шума),
— `Value` — мог бы содержать какое-то расчетное значение, но на скриншоте оно не заполнено.
Число **0.09** часто встречается как уровень шума или погрешность измерения в устоявшемся режиме.
### 📸 Резюме по скриншоту
Если бы я описывал изображение, я бы сказал: *«На снимке экрана видны колонки таблицы Date, Event, Value. В колонке Event наблюдаются начальные большие значения, сменяющиеся длинной серией числа 0.09. Под таблицей мелким шрифтом или отдельно стоит номер 62. Столбец Value пуст.»*