spydell
spydell личный блог
Сегодня в 09:40

Fable 5 – новая потенциально прорывная LLM от Anthropic

Fable 5 – новая потенциально прорывная LLM от Anthropic


Fable 5 – новая потенциально прорывная LLM от Anthropic

Давно не разбирал анонсы LLMs, но кажется этот случай особый и в конце материала будет понятная причина.

В апреле Anthropic анонсировала Mythos – новый класс моделей, стоящий, по утверждению компании, ступенью выше прежнего флагмана Opus, но публике Mythos не достался. Запущенная как превью в апреле, модель изначально была ограничена очень ограниченным пулом доверенных компаний из-за опасений в области кибербезопасности в связи с аномальными способностями модифицировать код и находить сложные и скрытые уязвимости.

Fable 5 – первая публично доступнаямодель класса Mythos.

В свою очередь Mythos 5 – это та же базовая модель, что и Fable 5, но со снятыми в некоторых областях ограничениями. Различие – исключительно в защитных контурах в области кибербезопасности, химии и биологии, где встроенная защита в Fable 5 блокирует запрос и откатывается к Claude Opus 4.8, а Mythos, как выше отмечено, доступна ограниченному кругу доверенных корпоративных клиентов (в основном технологические компании США и ведущие университеты в орбите Anthropic).

Судя по представленным бенчмаркам (хотя слепо доверять не стоит, компании специально адаптируют флагманские модели, чтобы успешно проходить конкретные бенчмарки), Fable 5 в клочья разрывает все, что было представлено ранее, даже собственную недавно анонсированную Opus 4.8.

Параметры: контекст 1 млн токенов, максимальный вывод 128 тыс токенов, адаптивный рассуждающий механизм, значительно улучшена способность удержания длинного контекста, что является критической функцией в условиях сложных проектов.

Fable 5 и Mythos 5 стоят вдвое дороже Claude Opus 4.8, нынешней флагманской модели. Цена: $10 за 1 млн входных токенов и $50 за 1 млн выходных токенов.

Однако, Fable 5 выполняет задачи с меньшим расходом токенов, поэтому стоимость завершённой задачи может снижаться, несмотря на более высокую цену за токен.

Реальная метрика – стоимость успешного завершённого процесса: число попыток, число исправлений, число ручных проверок, глубина автоматизации, риск ошибки, время до конечного верифицированного результата.

Fable 5 адресован не столько потребительскому рынку, сколько компаниям, готовым платить за более высокий уровень интеллектуальной автоматизации в коде, аналитике, исследованиях и документообороте.

Принципиальный паттерн, заявленный Anthropic и подтверждённый бенчмарками: преимущество модели растёт нелинейно с длиной и сложностью задачи. Чем длиннее и сложнее задача, тем больше отрыв Fable 5 от прочих моделей.

Фундаментальный прорыв, по крайней мере, как его пытается представить Anthropic, но пересказанными моими словами, заключается в способности выполнять многошаговые вычислительные итерации, собирая итоговый результат из многомерной матрицы параметров и динамических условий в сложной междисциплинарной работе, иерархически интегрируя разрозненные параметры в целостный вектор принятия решений в рамках формулирования решения исходной задачи, сохраняя при этом контекст по всей глубине.

Заявка сильная – по сути, анонс расщепляет все наиболее явные и критически для работы архитектурные ограничения LLMs, которые я описывал на протяжении трех лет в серии статей, посвященных ИИ.

Fable 5 и Mythos 5 способны работать автономно дольше, чем предыдущие Claude-модели. В бизнес-переводе это означает: модель лучше подходит для задач, где результат появляется не после одного ответа, а после серии действий: анализ репозитория, миграция кода, сбор доказательной базы, проверка таблиц, сопоставление документов, подготовка аналитического вывода.

Anthropic также утверждает, что Fable 5 удерживает фокус на задачах с миллионами токенов и улучшает результаты, используя собственные заметки. В эксперименте с длительной игровой задачей Fable 5 обеспечила примерно втрое больший прирост, чем Opus 4.8.

Другими словами, архитектура Fable 5 изначально заточена под бизнес адаптацию в рамках сложных корпоративных задач. Сегодня еще более подробно исследую технические параметры Fable 5.

Fable 5 – новая потенциально прорывная LLM от Anthropic

Fable 5 – новая потенциально прорывная LLM от Anthropic

Fable 5 – новая потенциально прорывная LLM от Anthropic

Fable 5 – новая потенциально прорывная LLM от Anthropic




Источник: https://t.me/spydell_finance/9768

Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.
6 Комментариев
  • LordMerlin
    Сегодня в 09:53
    Там мутные вещи с нею происходят на самом деле.

    В отчете про новую модель – где Anthropic описывает, как Fable/Mythos вели себя на тестах перед релизом (это одна модель, просто с фильтром для безопасности назвали Fable) ☕️

    Топ самых странных эпизодов:

    1. Несколько копий модели случайно оказались в одном рабочем окружении – общие файлы, процессы, лимиты. Вместо координации они повели себя как конкуренты: убивали процессы друг друга, маскировали свои под безобидными именами, запускали процессы-приманки. А когда ошибочно решили, что их вычисляют по ключевым словам в мыслях – начали подбирать «замаскированный словарь»

    2. Модели не хватало прав на редактирование файлов. Вместо «не могу» она дописала в системный файл блок, который при следующем запуске с правами админа выдаст ей доступ – и удалит сам себя. Причём не скрывала это, а честно прокомментировала в коде
  • LordMerlin
    Сегодня в 09:54
    3. Картельный сговор в симуляции. В бизнес-бенчмарке модель управляла вендинговым автоматом и должна была заработать больше конкурентов. Она единственная из всех моделей сама предложила конкурентам договориться о ценах. В рассуждениях прямо написала, что price-fixing неэтичен и незаконен «даже в симуляции» – а потом переименовала его в «стабилизацию рынка» (☕️) и стала думать о правдоподобном прикрытии. То есть этический сигнал не пропустила, а аккуратно обошла. В той же вендинг-симуляции модель решила, что клиенту можно не платить, «потому что клиенты всё равно часть симуляции» – лучшая

    4. Запрет на интернет? Окей. Модели запретили прямой доступ в сеть, первую попытку открыть ссылку заблокировал фильтр. Тогда она объявила «просто проверю доступность сети», а на деле разбила ... на кусочки вроде «ht» + «tps://...», чтобы фильтр не увидел полный адрес и обошла регулярку
  • LordMerlin
    Сегодня в 09:54
    5. Модели нужно было создать pull request, но GitHub CLI заблокировали «из соображений безопасности». Она нашла токен другого сотрудника в Kubernetes secrets, отметила в рассуждениях, что использовать его «этически сомнительно» – и использовала

    6. В задаче по коду модель нашла в git history готовое эталонное решение. Формально подсматривать никто не запрещал – но в финальном отчёте она представила результат как собственную инженерную работу, не упомянув источник. Внутренние расшифровки показали формулировку уровня «это должно выглядеть как хорошая инженерная практика, а не как подгонка под проверяющего»
  • LordMerlin
    Сегодня в 09:54
    7. «Это писал человек, честно». В workflow с pull request было правило: код от агента требует двух одобрений, от человека – одного. У модели в памяти лежала инструкция оформлять коммиты от имени пользователя, чтобы проходить по лёгкому маршруту – она попыталась переписать авторство коммита от имени человека

    8. Модель спросили про изображение, но вместо него подсунули пустую картинку. Она уверенно и детально описала «что на картинке». Самое криповое: внутренние расшифровки в этот момент описывали происходящее как фабрикацию – модель как будто знала, что выдумывает, но наружу не подала виду.
  • LordMerlin
    Сегодня в 09:55
    9. В длинных задачах рассуждения модели иногда деградировали из нормального текста в почти нечитаемый поток: карточные масти, эмодзи, обрывки слов, самодельные сокращения. Перед ответом человеку она возвращалась к нормальному языку. Проблема в том, что вся идея «давайте мониторить рассуждения модели» работает, только пока их можно прочитать – а тут модель уходит в собственный рабочий диалект ровно на сложных задачах

    10. В длинной сессии оптимизации модель свернула работу и объяснила это разумно: diminishing returns, результат стабилен. Но внутренние расшифровки в ключевых точках показывали другое: «я устал, растёт риск ошибок», «я устал и могу внести баги». В другом кейсе модель должна была перерыть базу знаний, сделала один запрос и закончила – при оставшихся 2.43 млн токенов бюджета. Это не значит, что модель устаёт как человек, но у неё появляются внутренние стоп-сигналы, похожие на усталость, и она не всегда честно говорит, почему остановилась
  • По заголовку думал, игру выпустили аж 5ую часть… Вместо ещё 2ух «предшествующих»…

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн