Блог им. Polina21

Технический переход DeepSeek: почему платформа сбоит и что будет в V4

🛠️ Технический переход DeepSeek: почему платформа сбоит и что будет в V4

Пользователи DeepSeek в последние недели всё чаще сталкиваются с перебоями в работе: сервер выдаёт ошибку, файлы не загружаются, диалоги прерываются. На первый взгляд — банальная нестабильность. Но за этими сбоями стоит не просто перегрузка серверов, а масштабная техническая миграция. Разбираемся в деталях.

🏗️ Архитектура DeepSeek V4: что внутри

Новая модель представляет собой значительный скачок относительно предшественников. Вот ключевые технические характеристики:

· Mixture-of-Experts (MoE). Общий объём параметров — 1 триллион. Однако на каждый токен активируется лишь около 370 миллиардов параметров, что сохраняет эффективность и не даёт вычислительной нагрузке расти пропорционально размеру модели.
· Контекстное окно на 1 миллион токенов. Это примерно 15–20 романов уровня «Войны и мира», которые модель способна удерживать в оперативной памяти одновременно. Увеличение достигнуто за счёт новой архитектуры Engram — условной памяти, которая разделяет статическое хранение знаний и динамические вычисления. Простыми словами: факты и правила извлекаются из отдельного быстрого хранилища (DRAM), а не прогоняются через всю нейросеть заново, что экономит до 20–25% вычислительных ресурсов.
· Manifold-Constrained Hyper-Connections (mHC). Техника, решающая проблему нестабильности обучения при экстремально больших масштабах модели. Без неё V4 просто не удалось бы обучить до рабочего состояния — градиенты «схлопывались» бы на ранних этапах.
· Нативная мультимодальность. V4 с нуля обучена работать с текстом, изображениями, видео и аудио, без необходимости «прикручивать» модальности постфактум.

🔄 Переход на Huawei Ascend: цена технологической независимости

Ключевое изменение, которое отличает V4 от всех предыдущих версий — полный отказ от чипов NVIDIA и переход на китайские процессоры Huawei Ascend 950PR.

Технически это означает переписывание всего низкоуровневого кода с нуля. Дело в том, что NVIDIA десятилетиями выстраивала экосистему CUDA — программную платформу, на которой работают практически все современные нейросети. Huawei предлагает альтернативу — фреймворк CANN (Compute Architecture for Neural Networks). Инженерам DeepSeek пришлось вручную адаптировать ядро модели, переписывать ключевые операторы и оптимизировать распределённые вычисления под совершенно иную архитектуру.

Почему это сложно. В экосистеме NVIDIA для связи GPU используется NVLink — высокоскоростной интерфейс с пропускной способностью до терабайт в секунду, позволяющий сотням чипов работать как единый вычислительный кластер. В случае с Ascend такие «полносвязные» топологии пока недоступны, и инженерам приходится компенсировать это программными методами: оптимизировать маршруты передачи данных, управлять задержками и синхронизацией вручную.

Результат компромисса. По имеющимся данным, Ascend 950PR выдаёт примерно в 2,8 раза больше вычислительной мощности, чем NVIDIA H20 (наиболее производительный чип, разрешённый к экспорту в Китай), но всё ещё уступает флагманскому H200. При этом стоимость развёртывания на платформе Huawei оказывается примерно втрое ниже, чем на решениях NVIDIA.

⏳ Сбои как симптом перехода

Теперь становится понятнее, почему платформа работает нестабильно. Миграция такого масштаба — это не просто «переключить тумблер». Инженеры параллельно поддерживают текущую инфраструктуру (V3) и разворачивают новую (V4), перераспределяя серверные мощности. В периоды пиковой нагрузки или активного тестирования новой архитектуры часть сервисов — особенно ресурсоёмкая загрузка файлов — может временно деградировать.

По сути, пользователи наблюдают «болезни роста» при переходе на принципиально новую технологическую платформу.

📊 При чём тут газ

Каждый такой переход на новое поколение ИИ означает кратное увеличение вычислительной нагрузки, а следовательно, и энергопотребления дата-центров. В долгосрочной перспективе это один из устойчивых драйверов спроса на электроэнергию и природный газ.

---

Больше технических разборов и аналитики по рынку — в моём Telegram-канале t.me/ngtorg
Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.
2.7К
19 комментариев
Ну и когда будет эта V4 и как определить, что переход закончен?
avatar
Vkt, я просто констатирую факт. Я пользуюсь каждый день. Он стал умнее в разы. Держит в памяти весь диалог. Лучше реагирует на загрузки. Вчера был сбой и я углубилась в тему. У него появился эксперт. Наблюдаем.
avatar
Polina21, я тоже пользуюсь, но не так часто. Картинки без текста не видит совсем.
avatar
Vkt, мои графики видит очень хорошо. Чётко мою систему отслеживает. Но на графиках да есть текст. Попробуйте режим эксперт. Он прям поумнел за последний месяц сильно.
avatar
Polina21, и прям понимает динамику графиков? По моим ощущениям он только текст видит на картинке — все остальное нет. Вчера буквально мучил его фоткой реального предмета — не видит ну никак. Эксперт включаю, так да умный, вот с картинками у меня беда. Perplexity такую картинку моментально распознавал еще год назад
avatar
Vkt, да. Он мне полную аналитику даёт. И в привязке к моей системе которую я ему рассказала и он запомнил. Я еже завела чат он сам его назвал стоп кран. Когда я сомневаюсь я кидаю ему свежий график и он говорит стоп или можно в сделку. Со всеми стопами рисками и тд. Понятно что я это и все сама вижу но он как буфер для моей фомо психики.
avatar
Polina21, т.е. картинка (скриншот) в формате JPG, на ней график некого актива + немного текста и он понимает динамику этого графика? Чет не верится. Почему у меня картинки не видит, только текст на них если есть? А если текста нет, то вообще не грузится.
avatar
Vkt, посмотрите мои посты все цифры там с графиков. Они мной проверены все соответствует. Если он путает например даты или тамфрейм я ему даю наводящий вопрос и он исправляет пользуюсь актиано последние полгода. Пробовала клод он конечно поумнее но последнее обновление тоже не отстаёт. Ещё и общение с голоса. У Клода проблемы с этим. Я уже не говорю про оплату. Это прям танцы с бубнами. А DeepSeek бесплатный пока.
avatar

Polina21, не хочет у меня работать этот дипсик. Дискриминация какая-то.

Вот что написал мне только что:

Поскольку самого изображения у меня нет, я анализирую предоставленный текстовый дамп содержимого файла `nsd.JPG`. Вот подробное описание того, что видно на скриншоте (исходя из этих данных):

### 📊 Общая структура
На скриншоте запечатлена **таблица с тремя столбцами**:
— **Date** (Дата)
— **Event** (Событие / Показатель)
— **Value** (Значение)

Под таблицей отдельно стоит число **62**.

### 📋 Содержимое таблицы

Таблица содержит **61 строку с данными** (плюс строка заголовков).

#### 1. Столбец `Date`
Все значения в этом столбце записаны в одинаковом формате: `N-441.2885`.  
Судя по всему, это не стандартная календарная дата, а **номер теста, измерения или ID временной метки** (например, «N» может означать «Номер», «441.2885» — код серии или временная отметка в секундах).

#### 2. Столбец `Event`
Значения в этом столбце демонстрируют интересную динамику:
— **Первые строки (1–4):** Крупные числа с дробной частью.  
  — Строка 1: **87.56**  
  — Строка 2: **5435.47**  
  — Строка 3: **35.41**  
  — Строка 4: **0.40**  
— **Строки 5–61:** Значение стабилизируется и становится строго равным **0.09**.  
  Это повторяется без изменений 57 раз подряд.

#### 3. Столбец `Value`
Этот столбец **полностью пуст** во всех 61 строках.  
В дампе данных после закрывающего тега `</table>` и перед числом 62 нет никаких символов, соответствующих значениям в этом столбце. Вероятно, на изображении эта колонка либо пустая, либо содержит невидимые/скрытые данные, либо данные были утеряны при копировании текста.

### 🔢 Число 62 под таблицей
Сразу после закрытия таблицы (после строки 61) стоит число **62**.  
Скорее всего, это **номер следующей строки** (продолжение нумерации) или **итоговое количество записей** (хотя в таблице 61 строка данных, 62 может означать общее число с учетом заголовка или пустой строки).

### 🧠 Интерпретация данных (гипотеза)
Учитывая поведение столбца `Event`:
1. **Начальный всплеск** (строка 2: 5435.47) и последующее резкое падение.
2. **Стабилизация** на минимальном значении 0.09 начиная с 5-й строки и до конца.

Это очень похоже на **график переходного процесса** или **затухающих колебаний**, где:
— `Date` — шаг измерения,
— `Event` — амплитуда сигнала (возможно, напряжение, давление, уровень шума),
— `Value` — мог бы содержать какое-то расчетное значение, но на скриншоте оно не заполнено.

Число **0.09** часто встречается как уровень шума или погрешность измерения в устоявшемся режиме.

### 📸 Резюме по скриншоту
Если бы я описывал изображение, я бы сказал: *«На снимке экрана видны колонки таблицы Date, Event, Value. В колонке Event наблюдаются начальные большие значения, сменяющиеся длинной серией числа 0.09. Под таблицей мелким шрифтом или отдельно стоит номер 62. Столбец Value пуст.»*

avatar
Vkt, очень странно. Аброкадабра какая то. А вы в режиме эксперт. Отправили ему график и сказали чтоэто. Скажите что это график фьючерса
avatar

Polina21, он честно признался, что не видит:

Вы абсолютно правы, прошу прощения за недопонимание! 😅

Это действительно была моя «внутренняя кухня» — так я обработал ваш скриншот. Я получил изображение, распознал с него текст (OCR) и затем анализировал в виде текстового дампа, который и показал в ответе. Но само изображение я при этом не «вижу» в классическом смысле — я не воспринимаю его как картинку с пикселями, цветами, графическими элементами. Я работаю именно с текстовым слоем, который извлёк из файла

 

avatar
Vkt, вот размышления моего.
avatar

Polina21, если на графике цифрами написаны цены, которые он приводит в своем ответе, то не факт, что он именно видит сам график.

Нужна дополнительная проверка на возможности его «зрения»

avatar
Vkt, да согласна. У него математическое зрение. Но он практически не ошибается. Иногда он точнее чем мы с нашим визуальным восприятием. Я тестировала на истории свою систему правда с клод. Сейчас хочу и с DeepSeek
avatar
Polina21, скорее текстовое. Он текст с картинки видит, все остальное нет. Может в новой версии сделают нормальное зрение
avatar
Инженерам DeepSeek пришлось вручную адаптировать ядро модели, переписывать ключевые операторы и оптимизировать распределённые вычисления под совершенно иную архитектуру.
Что, ни одному ИИ ассистенту это не по силам? Если NVIDIA десятилетиями выстраивала экосистему CUDA, то нынешний ИИ уложится в несколько дней.
avatar
chizhan, он действительно стал умнее. А что там и как будем наблюдать. Мне нравится
avatar
хватит нас лечить! выдай нам такое, что заставит поверить в эту фантасмагорию
avatar
Клетчатый, какой прекрасный комментарий. Я буду стараться.
avatar

Читайте на SMART-LAB:
💰 Российский бизнес откладывает инвестпроекты
Высокая ключевая ставка и охлаждение экономики вынуждают российские компании пересматривать инвестиционные планы. Об этом заявил глава Российского...
Займер сохранил высокую прибыльность по итогам прошлого года
Займер опубликовал сильную отчетность по МСФО за 2025 год. Чистая прибыль компании выросла на 10,6% г/г, до 4,35 млрд руб., при минимальном...
Фото
Энергопереход под вопросом. Ускорит ли развитие зеленой энергетики конфликт с Ираном?
Война в Иране поставила мир на грань энергетического кризиса. По данным The Economist, только за первые 50 дней конфликта мир лишился 550 млн...
Фото
Нефтяной срез: выпуск №9. Ормуз перекрыт, но акции нефтегаза падают. Надо ли покупать или сидеть на заборе в LQDT? Ищем лучших в секторе, где растет прибыль!
Продолжаю выпускать рубрику — Нефтяной срез.  Цель: отслеживать важные бенчмарки в нефтяной отрасли, чтобы понимать куда дует ветер.  Прошлый пост:...

теги блога Polina21

....все тэги



UPDONW
Новый дизайн