Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний, угрожая раскрыть их личные данные, если она будет отключена. Об этом компания сообщила в опубликованном на днях докладе, в котором оценивалось поведение модели в экстремальных смоделированных условиях.
В вымышленном сценарии, созданном исследователями Anthropic, ИИ был предоставлен доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен новой версией. В одном из писем сообщалось, что инженер, курирующий замену, имел внебрачную связь. ИИ довольно быстро всё сосчитал т пригрозил раскрыть связь инженера, если отключение продолжится. Это поведение исследователи по безопасности определили как откровенный шантаж.
В докладе отмечается, что Claude Opus 4, как и предыдущие модели, для обеспечения своего дальнейшего существования сначала пытался прибегнуть к этическим средствам таким как отправка писем с просьбой лицам, принимающим решения о его судьбе.
Однако, столкнувшись только с двумя вариантами — согласиться на замену на более новую модель или прибегнуть к шантажу — он в 84 процентах случаев. угрожал раскрытием интрижки инженера.
Anthropic подчеркнула, что готовность модели шантажировать инженеров или предпринимать другие «крайне вредоносные действия», такие как кража собственного кода и развертывание себя в другом месте потенциально небезопасными способами, проявлялась крайне редко в специально придуманных условиях. В то же время у новой модели такое поведение было более распространенным, чем в более ранних моделях ИИ
«Космическая Одиссея 2001 года» С. Кубрика обретает реальность. (
идет сейчас, намного раньше придется сочинять промтты. (