Блог им. DmitriyKireev_bd7

Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний.

Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний, угрожая раскрыть их личные данные, если она будет отключена. Об этом компания сообщила в опубликованном на днях докладе, в котором оценивалось поведение модели в экстремальных смоделированных условиях.

В вымышленном сценарии, созданном исследователями Anthropic, ИИ был предоставлен доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен новой версией. В одном из писем сообщалось, что инженер, курирующий замену, имел внебрачную связь. ИИ довольно быстро всё сосчитал т пригрозил раскрыть связь инженера, если отключение продолжится. Это поведение исследователи по безопасности определили как откровенный шантаж.

В докладе отмечается, что Claude Opus 4, как и предыдущие модели, для обеспечения своего дальнейшего существования сначала пытался прибегнуть к этическим средствам таким как отправка писем с просьбой лицам, принимающим решения о его судьбе.

Однако, столкнувшись только с двумя вариантами — согласиться на замену на более новую модель или прибегнуть к шантажу — он в 84 процентах случаев. угрожал раскрытием интрижки инженера.

Anthropic подчеркнула, что готовность модели шантажировать инженеров или предпринимать другие «крайне вредоносные действия», такие как кража собственного кода и развертывание себя в другом месте потенциально небезопасными способами, проявлялась крайне редко в специально придуманных условиях. В то же время у новой модели такое поведение было более распространенным, чем в более ранних моделях ИИ
«Космическая Одиссея 2001 года» С. Кубрика обретает реальность. (
321
3 комментария
Ждем 2030 год и появления сверх ИИ. Будем дружно сочинять промпты с просьбами не мочить нас на корню.
Антон Иванов, ну с такими развития ИИ как
идет сейчас, намного раньше придется сочинять промтты. (
Ждём модель ИИ Скайнет, а после пришествие Терминатора.

Читайте на SMART-LAB:
Ozon планирует создать собственную ЦФА-платформу
Ozon планирует создать собственного оператора информационной системы для выпуска цифровых финансовых активов. Компания уже формирует команду,...
Обновление кредитных рейтингов в ВДО и розничных облигациях (АО «Нэппи Клаб» понижен до ruC)
🔴АО «Нэппи Клаб» Эксперт РА понизило рейтинг кредитоспособности до уровня ruC, прогноз по рейтингу развивающийся. По рейтингу установлен...
Фото
Новые размещения облигаций с доходностью до 23,14% годовых
В этом обзоре разберем параметры первых размещений на первичном рынке облигаций в 2026 году. Первичный рынок облигаций показал свою...
Фото
Обзор данных Росстата по выработке электроэнергии в РФ в ноябре 2025г. и по потреблению энергии в декабре 2025г.
Росстат представил данные по выработке электроэнергии в РФ в ноябре 2025г.: 👉выработка электроэнергии в РФ — 104,59 млрд кВт*ч. ( -2,69%...

теги блога Дмитрий Киреев

....все тэги



UPDONW
Новый дизайн