Китайский стартап в области искусственного интеллекта DeepSeek выпустил DeepSeek-V3 — модель LLM с открытым исходным кодом, которая по производительности не уступает ведущим американским моделям, но требует гораздо меньших затрат на обучение. Большая языковая модель использует архитектуру со смешанным набором экспертов и 671 млрд параметров, из которых только 37 млрд активируются для каждой задачи. Такая избирательная активация параметров позволяет модели обрабатывать информацию со скоростью 60 токенов в секунду, что в три раза быстрее, чем в предыдущих версиях. В тестах производительности DeepSeek-V3 превосходит Meta Llama 3.1 и другие модели с открытым исходным кодом, соответствует или превосходит GPT-4o в большинстве тестов и демонстрирует особую эффективность в задачах по китайскому языку и математике. Только Claude 3.5 Sonnet от Anthropic стабильно превосходит его при выполнении некоторых специализированных задач. Компания сообщает, что потратила 5,57 млн долларов на обучение с помощью аппаратной и алгоритмической оптимизации, по сравнению с оценочной суммой в 500 млн долларов, потраченной на обучение Llama-3.1.