Блог им. DmitriyKireev_bd7

Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний.

Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний, угрожая раскрыть их личные данные, если она будет отключена. Об этом компания сообщила в опубликованном на днях докладе, в котором оценивалось поведение модели в экстремальных смоделированных условиях.

В вымышленном сценарии, созданном исследователями Anthropic, ИИ был предоставлен доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен новой версией. В одном из писем сообщалось, что инженер, курирующий замену, имел внебрачную связь. ИИ довольно быстро всё сосчитал т пригрозил раскрыть связь инженера, если отключение продолжится. Это поведение исследователи по безопасности определили как откровенный шантаж.

В докладе отмечается, что Claude Opus 4, как и предыдущие модели, для обеспечения своего дальнейшего существования сначала пытался прибегнуть к этическим средствам таким как отправка писем с просьбой лицам, принимающим решения о его судьбе.

Однако, столкнувшись только с двумя вариантами — согласиться на замену на более новую модель или прибегнуть к шантажу — он в 84 процентах случаев. угрожал раскрытием интрижки инженера.

Anthropic подчеркнула, что готовность модели шантажировать инженеров или предпринимать другие «крайне вредоносные действия», такие как кража собственного кода и развертывание себя в другом месте потенциально небезопасными способами, проявлялась крайне редко в специально придуманных условиях. В то же время у новой модели такое поведение было более распространенным, чем в более ранних моделях ИИ
«Космическая Одиссея 2001 года» С. Кубрика обретает реальность. (
297
3 комментария
Ждем 2030 год и появления сверх ИИ. Будем дружно сочинять промпты с просьбами не мочить нас на корню.
Антон Иванов, ну с такими развития ИИ как
идет сейчас, намного раньше придется сочинять промтты. (
Ждём модель ИИ Скайнет, а после пришествие Терминатора.
avatar

теги блога Дмитрий Киреев

....все тэги



UPDONW
Новый дизайн