Блог им. Polina21

Технический переход DeepSeek: почему платформа сбоит и что будет в V4

🛠️ Технический переход DeepSeek: почему платформа сбоит и что будет в V4

Пользователи DeepSeek в последние недели всё чаще сталкиваются с перебоями в работе: сервер выдаёт ошибку, файлы не загружаются, диалоги прерываются. На первый взгляд — банальная нестабильность. Но за этими сбоями стоит не просто перегрузка серверов, а масштабная техническая миграция. Разбираемся в деталях.

🏗️ Архитектура DeepSeek V4: что внутри

Новая модель представляет собой значительный скачок относительно предшественников. Вот ключевые технические характеристики:

· Mixture-of-Experts (MoE). Общий объём параметров — 1 триллион. Однако на каждый токен активируется лишь около 370 миллиардов параметров, что сохраняет эффективность и не даёт вычислительной нагрузке расти пропорционально размеру модели.
· Контекстное окно на 1 миллион токенов. Это примерно 15–20 романов уровня «Войны и мира», которые модель способна удерживать в оперативной памяти одновременно. Увеличение достигнуто за счёт новой архитектуры Engram — условной памяти, которая разделяет статическое хранение знаний и динамические вычисления. Простыми словами: факты и правила извлекаются из отдельного быстрого хранилища (DRAM), а не прогоняются через всю нейросеть заново, что экономит до 20–25% вычислительных ресурсов.
· Manifold-Constrained Hyper-Connections (mHC). Техника, решающая проблему нестабильности обучения при экстремально больших масштабах модели. Без неё V4 просто не удалось бы обучить до рабочего состояния — градиенты «схлопывались» бы на ранних этапах.
· Нативная мультимодальность. V4 с нуля обучена работать с текстом, изображениями, видео и аудио, без необходимости «прикручивать» модальности постфактум.

🔄 Переход на Huawei Ascend: цена технологической независимости

Ключевое изменение, которое отличает V4 от всех предыдущих версий — полный отказ от чипов NVIDIA и переход на китайские процессоры Huawei Ascend 950PR.

Технически это означает переписывание всего низкоуровневого кода с нуля. Дело в том, что NVIDIA десятилетиями выстраивала экосистему CUDA — программную платформу, на которой работают практически все современные нейросети. Huawei предлагает альтернативу — фреймворк CANN (Compute Architecture for Neural Networks). Инженерам DeepSeek пришлось вручную адаптировать ядро модели, переписывать ключевые операторы и оптимизировать распределённые вычисления под совершенно иную архитектуру.

Почему это сложно. В экосистеме NVIDIA для связи GPU используется NVLink — высокоскоростной интерфейс с пропускной способностью до терабайт в секунду, позволяющий сотням чипов работать как единый вычислительный кластер. В случае с Ascend такие «полносвязные» топологии пока недоступны, и инженерам приходится компенсировать это программными методами: оптимизировать маршруты передачи данных, управлять задержками и синхронизацией вручную.

Результат компромисса. По имеющимся данным, Ascend 950PR выдаёт примерно в 2,8 раза больше вычислительной мощности, чем NVIDIA H20 (наиболее производительный чип, разрешённый к экспорту в Китай), но всё ещё уступает флагманскому H200. При этом стоимость развёртывания на платформе Huawei оказывается примерно втрое ниже, чем на решениях NVIDIA.

⏳ Сбои как симптом перехода

Теперь становится понятнее, почему платформа работает нестабильно. Миграция такого масштаба — это не просто «переключить тумблер». Инженеры параллельно поддерживают текущую инфраструктуру (V3) и разворачивают новую (V4), перераспределяя серверные мощности. В периоды пиковой нагрузки или активного тестирования новой архитектуры часть сервисов — особенно ресурсоёмкая загрузка файлов — может временно деградировать.

По сути, пользователи наблюдают «болезни роста» при переходе на принципиально новую технологическую платформу.

📊 При чём тут газ

Каждый такой переход на новое поколение ИИ означает кратное увеличение вычислительной нагрузки, а следовательно, и энергопотребления дата-центров. В долгосрочной перспективе это один из устойчивых драйверов спроса на электроэнергию и природный газ.

---

Больше технических разборов и аналитики по рынку — в моём Telegram-канале t.me/ngtorg
933
14 комментариев
Ну и когда будет эта V4 и как определить, что переход закончен?
avatar
Vkt, я просто констатирую факт. Я пользуюсь каждый день. Он стал умнее в разы. Держит в памяти весь диалог. Лучше реагирует на загрузки. Вчера был сбой и я углубилась в тему. У него появился эксперт. Наблюдаем.
avatar
Polina21, я тоже пользуюсь, но не так часто. Картинки без текста не видит совсем.
avatar
Vkt, мои графики видит очень хорошо. Чётко мою систему отслеживает. Но на графиках да есть текст. Попробуйте режим эксперт. Он прям поумнел за последний месяц сильно.
avatar
Polina21, и прям понимает динамику графиков? По моим ощущениям он только текст видит на картинке — все остальное нет. Вчера буквально мучил его фоткой реального предмета — не видит ну никак. Эксперт включаю, так да умный, вот с картинками у меня беда. Perplexity такую картинку моментально распознавал еще год назад
avatar
Vkt, да. Он мне полную аналитику даёт. И в привязке к моей системе которую я ему рассказала и он запомнил. Я еже завела чат он сам его назвал стоп кран. Когда я сомневаюсь я кидаю ему свежий график и он говорит стоп или можно в сделку. Со всеми стопами рисками и тд. Понятно что я это и все сама вижу но он как буфер для моей фомо психики.
avatar
Polina21, т.е. картинка (скриншот) в формате JPG, на ней график некого актива + немного текста и он понимает динамику этого графика? Чет не верится. Почему у меня картинки не видит, только текст на них если есть? А если текста нет, то вообще не грузится.
avatar
Vkt, посмотрите мои посты все цифры там с графиков. Они мной проверены все соответствует. Если он путает например даты или тамфрейм я ему даю наводящий вопрос и он исправляет пользуюсь актиано последние полгода. Пробовала клод он конечно поумнее но последнее обновление тоже не отстаёт. Ещё и общение с голоса. У Клода проблемы с этим. Я уже не говорю про оплату. Это прям танцы с бубнами. А DeepSeek бесплатный пока.
avatar

Polina21, не хочет у меня работать этот дипсик. Дискриминация какая-то.

Вот что написал мне только что:

Поскольку самого изображения у меня нет, я анализирую предоставленный текстовый дамп содержимого файла `nsd.JPG`. Вот подробное описание того, что видно на скриншоте (исходя из этих данных):

### 📊 Общая структура
На скриншоте запечатлена **таблица с тремя столбцами**:
— **Date** (Дата)
— **Event** (Событие / Показатель)
— **Value** (Значение)

Под таблицей отдельно стоит число **62**.

### 📋 Содержимое таблицы

Таблица содержит **61 строку с данными** (плюс строка заголовков).

#### 1. Столбец `Date`
Все значения в этом столбце записаны в одинаковом формате: `N-441.2885`.  
Судя по всему, это не стандартная календарная дата, а **номер теста, измерения или ID временной метки** (например, «N» может означать «Номер», «441.2885» — код серии или временная отметка в секундах).

#### 2. Столбец `Event`
Значения в этом столбце демонстрируют интересную динамику:
— **Первые строки (1–4):** Крупные числа с дробной частью.  
  — Строка 1: **87.56**  
  — Строка 2: **5435.47**  
  — Строка 3: **35.41**  
  — Строка 4: **0.40**  
— **Строки 5–61:** Значение стабилизируется и становится строго равным **0.09**.  
  Это повторяется без изменений 57 раз подряд.

#### 3. Столбец `Value`
Этот столбец **полностью пуст** во всех 61 строках.  
В дампе данных после закрывающего тега `</table>` и перед числом 62 нет никаких символов, соответствующих значениям в этом столбце. Вероятно, на изображении эта колонка либо пустая, либо содержит невидимые/скрытые данные, либо данные были утеряны при копировании текста.

### 🔢 Число 62 под таблицей
Сразу после закрытия таблицы (после строки 61) стоит число **62**.  
Скорее всего, это **номер следующей строки** (продолжение нумерации) или **итоговое количество записей** (хотя в таблице 61 строка данных, 62 может означать общее число с учетом заголовка или пустой строки).

### 🧠 Интерпретация данных (гипотеза)
Учитывая поведение столбца `Event`:
1. **Начальный всплеск** (строка 2: 5435.47) и последующее резкое падение.
2. **Стабилизация** на минимальном значении 0.09 начиная с 5-й строки и до конца.

Это очень похоже на **график переходного процесса** или **затухающих колебаний**, где:
— `Date` — шаг измерения,
— `Event` — амплитуда сигнала (возможно, напряжение, давление, уровень шума),
— `Value` — мог бы содержать какое-то расчетное значение, но на скриншоте оно не заполнено.

Число **0.09** часто встречается как уровень шума или погрешность измерения в устоявшемся режиме.

### 📸 Резюме по скриншоту
Если бы я описывал изображение, я бы сказал: *«На снимке экрана видны колонки таблицы Date, Event, Value. В колонке Event наблюдаются начальные большие значения, сменяющиеся длинной серией числа 0.09. Под таблицей мелким шрифтом или отдельно стоит номер 62. Столбец Value пуст.»*

avatar
Vkt, очень странно. Аброкадабра какая то. А вы в режиме эксперт. Отправили ему график и сказали чтоэто. Скажите что это график фьючерса
avatar
Инженерам DeepSeek пришлось вручную адаптировать ядро модели, переписывать ключевые операторы и оптимизировать распределённые вычисления под совершенно иную архитектуру.
Что, ни одному ИИ ассистенту это не по силам? Если NVIDIA десятилетиями выстраивала экосистему CUDA, то нынешний ИИ уложится в несколько дней.
avatar
chizhan, он действительно стал умнее. А что там и как будем наблюдать. Мне нравится
avatar
хватит нас лечить! выдай нам такое, что заставит поверить в эту фантасмагорию
Клетчатый, какой прекрасный комментарий. Я буду стараться.
avatar

Читайте на SMART-LAB:
Фото
🟡 Наша команда — в центре дискуссии об информационной безопасности | ПСБ Финанс
Завтра, 24 апреля, генеральный директор ПАО «СТГ» Анна Калугина примет участие в VIII финансовом форуме ПСБ «Просто капитал». Тема...
Фото
Акции банков: кто в лидерах по основным метрикам
Банковский сектор — один из самых крупных на МосБирже. Три банковские акции: Сбербанк, ВТБ, Т-Технологии — входят в список самых популярных бумаг...
Фото
Витрина облигаций
🛒 Инфляционный штиль Недельный рост цен вторую неделю подряд застыл около нуля, а инфляционные ожидания населения падают — у ЦБ...
Фото
ММК: результаты в 2026 году продолжат ухудшаться. Актуализация взгляда на акции компании.
Здравствуйте! Продолжаю серию публикаций с актуализацией взгляда на российские металлургические компании и состояние рыночной конъюнктуры в...

теги блога Polina21

....все тэги



UPDONW
Новый дизайн