
Конкуренция за первенство в технологическом секторе между США и Китаем продолжается и пока Трамп переговаривался с Си, а акции технологического сектора погружаются в «красноту» почти на 2,5% (XLK -2,48%) появилась новая технология - Continuous Autoregression Language Models (CALM), которая по сути, уничтожает парадигму “следующего токена”, на которой строится каждый LLM.
Вместо того, чтобы прогнозировать «один токен за один раз», CALM прогнозирует непрерывные векторы, которые представляют несколько токенов одновременно.
Смысл: модель не думает “слово за словом”… она продумывает идеи на каждом шаге.
Вот почему это прорыв:
→ в 4 раза меньше шагов прогнозирования (каждый вектор = ~4 токена)
→ на 44% меньше вычислений для обучения
→ Нет дискретной лексики, только непрерывные рассуждения
→ Новая метрика (BrierLM) полностью заменяет perplexity
Они даже создали новый энергетический трансформатор, который обучается без softmax, без выборки токенов и без ограничения словарного запаса.
Кот из пряжи — это творение искусственного интеллекта, о необходимости которого мы даже и не подозревали…
Сделано очень правдоподобно, правда? Наверное, каждый захочет такого взять домой. Никаких проблем с аллергией, покупкой кормов и наполнителей.
ИИ продолжает нас удивлять, но почему-то кот из пряжи ощущается как пик интернет-культуры. Страшно представить, что дальше появятся мемы, созданные крючком.
Все равно, мне будет как-то не по себе гладить такого. Может я один такое ощущаю…
Вчера после закрытия торгов отчиталась NVDA
Q4 2025 Earnings:
Adj EPS 89c, est. 84c
Rev. $39.3b, est. $38.25b
Data center revenue $35.6b, est. $34.09b
Adj gross margin 73.5%, est. 73.5%
Gaming rev. $2.5b, est. $3.02b
1Q rev. $43.0b plus or minus 2%, est. $42.3b
Maintains quarterly dividend at 1 cent/shr
9-й раз подряд, Компания превзошла ожидания аналитиков.
Типичная реакция рынка на отчеты компании это +10% на постмаркете. Но в этот раз ничего подобного не произошло. Реакция рынка — плюс/минус 2% и в конце цена на акцию остановилась на минус 1,5%. Сегодня после некоторого подъема, акции прочно ушли в минус 3-3,5% И это несмотря на то, что CEO Дженсен Хуанг представил на конференс колле сильный прогноз роста Nvidia на первый квартал и сигнализировал о том, что растущий спрос на ее чипы искусственного интеллекта сохранился и что заказы на ее новые полупроводники Blackwell были «потрясающими».

Но первые предвестники проблем появились раньше и инвесторы не могли забыть их так быстро.
Это похоже, по утверждению Сэма, на суперсилу, эксперта по требованию!
«Супер агент» может использовать Интернет, проводить комплексные и разносторонние исследования, приводить аргументы и рассуждения и возвращаться к вам с хорошо структурированным отчетом. И он действительно хорош и может выполнять задачи, которые могли бы занять часы и дни у эксперта и стоить сотни долларов.
Сэм сейчас находится в Японии и привел забавный пример, как он воспользовался суперсилой своего нового эксперта-помощника ИИ. Он часами безуспешно искал старый NSX в идеальном состоянии и уже собирался сдаться, но глубокие исследования, проведенные новым агентом просто… нашли эту идеальную машину.
Пока это очень ресурсоемкая и медленная вычислительная система, но это первая система искусственного интеллекта, которая может выполнять такой широкий спектр сложных и ценных задач.
Этот агент уже доступен на «pro» уровне со 100 запросами в месяц.
Скоро появятся уровни «plus», «team» и «Enterprise», а затем и бесплатный уровень. В этих версиях будет около 10 запросов в месяц, но OpenAI уже работает над более эффективной версией. Эта версия построена на o3.
Еще одна сенсация потрясла фондовый рынок вслед за сенсационной моделью DeepSeek, которая обвалила компанию NVDA и уничтожила ее неоспоримое конкурентное преимущество перед другими производителями чипов.
Alibaba в ответ на DeepSeek запустила «Qwen» — модель искусственного интеллекта, которая пишет, генерирует изображения/видео и выполняет поиск в Интернете. Qwen превосходит по своим возможностям DeepSeek, ChatGPT-o1 и Claude sonnet.
Вот 5 примеров того, на что Qwen способен:
1. Написать код и использовать артефакты для его тестирования. Qwen не просто генерит код, он может запускать его, отлаживать и использовать артефакты для тестирования в реальном времени.
2. Генерировать изображения с предельной точностью. Забудьте об общем искусстве искусственного интеллекта. Квен может создавать очень подробные изображения, следующие инструкциям, которые могут конкурировать с генераторами искусственного интеллекта высшего уровня. Уровень точности просто сумасшедший.
Эксперимент DeepSeek-R1-Zero показал нечто замечательное: используя чистое обучение с подкреплением с тщательно продуманными функциями вознаграждения, им удалось заставить модели развивать сложные способности рассуждения полностью автономно. Речь шла не только о решении проблем — модель органически научилась генерировать длинные цепочки мыслей, самостоятельно проверять свою работу и выделять больше вычислительного времени для более сложных задач.
Техническим прорывом здесь стал их новый подход к моделированию вознаграждения. Вместо того чтобы использовать сложные нейронные модели вознаграждения, которые могут привести к «взлому вознаграждения» (когда модель находит фиктивные способы увеличить свои вознаграждения, которые на самом деле не приводят к лучшей производительности модели в реальном мире), они разработали умную систему на основе правил, которая сочетает вознаграждения за точность (проверку окончательных ответов) с вознаграждениями за формат (поощрение структурированного мышления). Этот более простой подход оказался более надежным и масштабируемым, чем модели вознаграждения на основе процесса, которые пробовали другие.
Китайский стартап в области искусственного интеллекта DeepSeek выпустил DeepSeek-V3 — модель LLM с открытым исходным кодом, которая по производительности не уступает ведущим американским моделям, но требует гораздо меньших затрат на обучение. Большая языковая модель использует архитектуру со смешанным набором экспертов и 671 млрд параметров, из которых только 37 млрд активируются для каждой задачи. Такая избирательная активация параметров позволяет модели обрабатывать информацию со скоростью 60 токенов в секунду, что в три раза быстрее, чем в предыдущих версиях. В тестах производительности DeepSeek-V3 превосходит Meta Llama 3.1 и другие модели с открытым исходным кодом, соответствует или превосходит GPT-4o в большинстве тестов и демонстрирует особую эффективность в задачах по китайскому языку и математике. Только Claude 3.5 Sonnet от Anthropic стабильно превосходит его при выполнении некоторых специализированных задач. Компания сообщает, что потратила 5,57 млн долларов на обучение с помощью аппаратной и алгоритмической оптимизации, по сравнению с оценочной суммой в 500 млн долларов, потраченной на обучение Llama-3.1.