Китайский стартап в области искусственного интеллекта DeepSeek выпустил DeepSeek-V3 — модель LLM с открытым исходным кодом, которая по производительности не уступает ведущим американским моделям.

26 января 2025, 23:41
|
Moris

Китайский стартап в области искусственного интеллекта DeepSeek выпустил DeepSeek-V3 — модель LLM с открытым исходным кодом, которая по производительности не уступает ведущим американским моделям, но требует гораздо меньших затрат на обучение. Большая языковая модель использует архитектуру со смешанным набором экспертов и 671 млрд параметров, из которых только 37 млрд активируются для каждой задачи. Такая избирательная активация параметров позволяет модели обрабатывать информацию со скоростью 60 токенов в секунду, что в три раза быстрее, чем в предыдущих версиях. В тестах производительности DeepSeek-V3 превосходит Meta Llama 3.1 и другие модели с открытым исходным кодом, соответствует или превосходит GPT-4o в большинстве тестов и демонстрирует особую эффективность в задачах по китайскому языку и математике. Только Claude 3.5 Sonnet от Anthropic стабильно превосходит его при выполнении некоторых специализированных задач. Компания сообщает, что потратила 5,57 млн долларов на обучение с помощью аппаратной и алгоритмической оптимизации, по сравнению с оценочной суммой в 500 млн долларов, потраченной на обучение Llama-3.1.

DeepSeek можно легко установить на локальный компьютер совершенно бесплатно. Во-первых, это приятно тем, что все данные абсолютно конфиденциальны и никуда не уходят, а во-вторых это только ваш ИИ помощник, только под ваши задачи и всегда под рукой везде, поскольку работает offline. Можно выбрать разный вариант мощности при установке, в зависимости от возможностей вашего компьютера. Но даже на моем обычном маке, при установке самой простой версии этот помощник выдает впечатляющие результаты. Если кому-то интересно, пишите в сообщение, вышлю несколько скриншотов с пошаговой установкой. У меня заняло примерно 3-4 минуты загрузить и развернуть полностью DeepSeek с помощником на локальном ноутбуке мак с 1,3 GHz 2‑ядерный процессор Intel Core i5.

Но эта статья даже не об этом, хотя иметь своего персонального и довольно мощного и шустрого ИИ помощника супер приятно. Это статья о «Черном лебеде», прилет которого никогда не был приятен на фондовых рынках. Я давно инвестирую на американском фондовом рынке и уже несколько лет пишу об этом в своем телеграмм канале @therightIPO. DeepSeek это черный лебедь для OpenAI и NVDA его не предвидел. Сами посудите, как на рынке отзовется эта бесплатная модель с открытым исходным кодом, которая обходится в 30 раз дешевле при работе на старом оборудовании, каким пользуюсь я и вероятно сотни миллионов других пользователей? Следующая неделя может оказаться абсолютно «дикой» как только СМИ «пронюхают» что DeepSeek требует на 97% меньше вычислений, но при этом превосходит OpenAI. Ну это сразу приведет к сравнению NVDA и Cisco времен краха доткомов. Понимаете о чем я? Я закрыл позицию NVDA еще в четверг 23 января т.г. и рекомендовал своим подписчикам в тг выйти на какое-то время в кэш, плюс следующая неделя ожидается волатильной, из-за отчетности 4 из 7 компаний так называемой Big7.

Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.

471 | ★1

2 комментария

Конечно же этот китайский стартап из американской силиконовой долины, к ванге не ходи. Над которым американцы ржут как над поглощателе гигантских китайских госрасходов.

Хиппарь одиночка

27 января 2025, 00:19
Ответить

Из моего личного опыта DeepSeek уступает о1, но, в целом, неплохая модель.

Следующая неделя может оказаться абсолютно «дикой» как только СМИ «пронюхают» что DeepSeek требует на 97% меньше вычислений, но при этом превосходит OpenAI

Это просто фантастика и маркетинг, такого не может быть. Если вам завтра скажут, что китайцы выпустили автомобиль с ДВС, который требует на 97% меньше топлива, вы поверите?