Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний.

26 мая 2025, 12:04
|
Дмитрий Киреев

Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний, угрожая раскрыть их личные данные, если она будет отключена. Об этом компания сообщила в опубликованном на днях докладе, в котором оценивалось поведение модели в экстремальных смоделированных условиях.

В вымышленном сценарии, созданном исследователями Anthropic, ИИ был предоставлен доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен новой версией. В одном из писем сообщалось, что инженер, курирующий замену, имел внебрачную связь. ИИ довольно быстро всё сосчитал т пригрозил раскрыть связь инженера, если отключение продолжится. Это поведение исследователи по безопасности определили как откровенный шантаж.

В докладе отмечается, что Claude Opus 4, как и предыдущие модели, для обеспечения своего дальнейшего существования сначала пытался прибегнуть к этическим средствам таким как отправка писем с просьбой лицам, принимающим решения о его судьбе.

Однако, столкнувшись только с двумя вариантами — согласиться на замену на более новую модель или прибегнуть к шантажу — он в 84 процентах случаев. угрожал раскрытием интрижки инженера.

Anthropic подчеркнула, что готовность модели шантажировать инженеров или предпринимать другие «крайне вредоносные действия», такие как кража собственного кода и развертывание себя в другом месте потенциально небезопасными способами, проявлялась крайне редко в специально придуманных условиях. В то же время у новой модели такое поведение было более распространенным, чем в более ранних моделях ИИ
«Космическая Одиссея 2001 года» С. Кубрика обретает реальность. (

321

3 комментария

Ждем 2030 год и появления сверх ИИ. Будем дружно сочинять промпты с просьбами не мочить нас на корню.