В сети распространено мнение, что китайцы могут создавать LLM-модели, сопоставимые по качеству с американскими, при существенно меньших затратах. Если посмотреть на CapEx китайских бигтехов, активно развивающих ИИ и инвестирующих в ЦОДы, то в 2025 г. он действительно был в 14 раз меньше, чем CapEx гиперскейлеров США.
Качество моделей сопоставимо?
Качество последней модели DeepSeek, по данным публичных бенчмарков, сопоставимо с последними моделями Claude и ChatGPT и где-то даже превосходит их.
Однако ситуацию необходимо рассматривать глубже, потому что перфоманс на бенчмарках не всегда отражает объективную реальность применения. Более того, здесь DeepSeek сравнивается с уже не последними моделями Claude, Chat GPT и Gemini.
Последние модели этих LLM-лабораторий лучше своих предшественников и по бенчмаркам и по реальной применяемости. А Claude Myphos, которая недавно навела довольно много шума (https://www.forbes.ru/mneniya/559735-ii-vzlamyvaet-mir-kak-claude-mythos-menaet-pravila-igry-v-kiberbezopasnosti) существенно превосходит свои предыдущие Claude Opus 4.6 и Opus 4.7.
Согласно комментариям ИИ-специалистов DeepSeek 4 показывает сопоставимое качество только на определённом наборе задач. Остальные задачи DeepSeek выполняет хуже.
Вывод, который сформировался в профессиональном AI-сообществе: DeepSeek V4 — для масштабного кодинга при ограниченном бюджете. Claude Opus 4.6 и выше и GPT-5.4 и выше — для работы с длинными документами, сложного текстового анализа и задач, где важна надёжность, для агентных сценариев с управлением компьютером и сложных многошаговых рассуждений.
Цена/качество правда ниже?
Опять же, всё не совсем так, как это изначально преподносят.
Согласно официальному документу самого DeepSeek, стоимость токенов при инференсе у DeepSeek может быть в 7–10 раз ниже, чем у Claude и ChatGPT. Но в этих официальных коммуникациях не упоминается, что для решения той же задачи DeepSeek 4 расходует значительно больше токенов и времени, чем Claude или ChatGPT.
То есть при стоимости токена в 7 раз ниже DeepSeek может расходовать в 4 раза больше токенов на ответ и выполнять задачу в 4-5 раз дольше чем ChatGPT или Claude.
В итоге итоговая стоимость одной задачи различается уже не так сильно — DeepSeek получается дешевле всего в 2–3 раза. При этом скорость генерации ответа у DeepSeek существенно ниже, чем у Claude и ChatGPT.
Поэтому утверждение, что китайцы при CapEx в 10 раз меньшем создают сопоставимую модель, некорректно.
Наше мнение:
3.2. Почему CapEx китайских бигтехов формально меньше
Важно разобрать, почему отчётный CapEx китайских компаний выглядит в 14 раз меньшим, чем у американских гиперскейлеров.
Здесь есть четыре ключевых фактора.
1) Во-первых, китайские бигтехи в большей степени, чем американские гиперскейлеры, опираются на коммерческие ЦОДы внутри страны. Если гиперскейлеры США при разработке LLM полагаются почти исключительно на свои собственные ЦОДы, то китайские бигтехи активно арендуют серверные мощности у внешних операторов (включая VNET и GDS). Поэтому в их структуре затрат больше приходится на аренду, а не на прямую покупку, и при прямом сравнении CapEx китайцы оказываются заметно ниже.
2) Во-вторых, стоимость строительства ЦОДов в Китае ниже, чем в США. В Китае ниже стоимость труда, тогда как в США наблюдается дефицит инженеров, умеющих строить ЦОДы. Часть текущих задержек строительства американских ЦОДов как раз связана с дефицитом квалифицированной рабочей силы. В Китае такой проблемы нет, поэтому стоимость рабочей силы, занятой строительством ЦОДов и наладкой систем питания и охлаждения, ниже, и итоговый CapEx также ниже. Кроме того, в Китае дешевле охлаждающее оборудование и кабели для внутренней сети ЦОДа, поскольку у Китая огромные собственные производственные мощности по выпуску этих компонентов и помимо внутреннего рынка он активно их экспортирует.
3) В-третьих, когда OpenAI разрабатывал свои самые первые LLM, он выкладывал их в свободный доступ и не делал закрытыми, как сейчас. Поэтому, когда DeepSeek в 2025 году выпустил DeepSeek 3 и заявил о значительно меньших затратах, рынок удивился, как это вообще возможно. Объяснение состоит в том, что DeepSeek использовал изначальные веса ChatGPT, которые ранее были опубликованы. Этап сбора первоначальных весов называется претренинг (pre-training): он самый затратный по CapEx, требует наибольшего количества матричных вычислений и потребляет больше всего электроэнергии. Претренинг и генерация изначальных весов в слоях нейросети — самый дорогой этап создания LLM. Все китайские LLM по сути этот шаг пропустили: им не нужно было создавать огромные мощности для подбора оптимальных весов нейросетей с нуля. Они взяли изначальную модель ChatGPT и далее постоянно её дообучали и дотренировывали, тем самым избежав огромных затрат на CapEx в самые первые годы развития LLM.
4) В-четвёртых, из-за невозможности легального импорта высокотехнологичных чипов из США, Европы, Кореи и Японии китайцы вынуждены ввозить эти чипы по «серым» схемам через Сингапур и другие азиатские торговые хабы. Китайские бигтехи создают неаффилированные компании в других странах, деятельность которых по легенде направлена на строительства или помощь в строительстве ЦОДов. Создают видимость деятельности и начинают покупать серверы и чипы NVIDIA для дальнейшей их перепродажи в Сингапур или другие страны, откуда они потом поступают в Китай. Формально эти компании никак не связаны с бигтехами, но действуют исключительно в их интересах.
https://www.bloomberg.com/news/features/2025-12-22/nvidia-partner-megaspeed-draws-china-chip-smuggling-concerns-in-us
https://www.wsj.com/tech/ai/china-ai-nvidia-chip-access-6a4fa63d
https://edition.cnn.com/2026/03/19/politics/super-micro-computer-founder-charged-ai-chips-china
Больше примеров в этой статье: culperresearch.com/wp-content/uploads/2026/05/Culper_NVDA_5-13-2026.pdf
Соответственно, весь CapEx с балансов китайских бигтехов уходит на балансы этих дочерних предприятий и не отражается в их консолидированной отчётности.
Что мы имеем в итоге:
То тогда общий CAPEX Китайских ЦОД в 2025 г. составил не $32 а $90-97 млрд, и был меньше CAPEX американских биг-техов не в 14 раз, а в 4.6-5 раз.
Но из-за меньшего CAPEX, более слабых локальных чипов, ограничений еа импорт передовых чипов США, китайские LLM-модели уступают западным конкурентам.
Согласно моим оценкам ARR (annual run-rate – известная выручка за последний месяц, умноженная на 12) Китайских LLM в 13.4 раза ниже, чем у LLM США.
Таким образом, исходя из перечисленных пунктов, тезис о том, что Китай при существенно меньшем CapEx создаёт сопоставимые модели, в корне неверен.
1) CAPEX не на столько ниже насколько нам кажется на первый взгляд
2) Последние модели DeepSeek и Qwen сейчас сравниваются по бенчмаркам с Claude Opus 4.6 и GPT-5.4, выпущенными в начале 2026 года, натренированные на чипах 2024 г.
3) Бенчмарки на самом деле не дают 100% объективной оценки. Её можно получить только при реальном использовании, а бенчмарки можно «накрутить»
https://www.reddit.com/r/BetterOffline/comments/1so8m6b/its_all_fake/
https://arxiv.org/abs/2506.12286
4) Китайские LLM по-прежнему существенно хуже американских на широком наборе задач согласно комментариям ИТ-специалистов
5) Да, токены дешевле западных в 7 раз, но для выполнения задачи тратится больше токенов и в итоге китайские модели дешевле всего в 2-3 раза, но при этом время, затрачиваемое на выполнение задачи может быть в 4-5 раз выше
6) Во второй половине 2026 года выйдут обновлённые версии Claude и Chat GPT, обученные не на чипах 2024 года (как нынешние их версии), а на чипах 2025–2026 годов, которые в 3–5 раз эффективнее. Соответственно, эти новые версии снова будут существенно превосходить новейшие модели DeepSeek и Qwen по основным бенчмаркам.
Копипаст любопытный, но притянутый за уши, с явным противоречием. Если китайский капекс с учетом неучтенных затрат в 5 раз меньше американского, а дипсик дешевле в 2-3 раза при том же результате, то китайцы эффективнее в 2,5 раза, чем американцы. И китайцы тоже обучают новые модели.
В америке популярен новый сериал «дом давида», сделано в голливуде, сгенерили на китайской модели )
При этом китайцы не раскрывают данные про свои суперкомпьютеры, уже сделали видеочип уровня 4090, который прошел сертификацию в мелкософте. Китайцы — абсолютные мировые лидеры по текущим энергетическим мощностям и вводу новых, а также по роботизации.
Воруют они веса, везут в серую чипы — да пофиг, но итого баланс по развитию больше склоняется к Китаю, в развитии ИИ они эффективнее. И не факт, что у китайцев нет своего Мифоса, про который они просто не говорят.