Дмитрий Киреев
Дмитрий Киреев личный блог
26 мая 2025, 12:04

Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний.

Последняя модель искусственного интеллекта Anthropic, Claude Opus 4, пыталась шантажировать инженеров во время внутренних испытаний, угрожая раскрыть их личные данные, если она будет отключена. Об этом компания сообщила в опубликованном на днях докладе, в котором оценивалось поведение модели в экстремальных смоделированных условиях.

В вымышленном сценарии, созданном исследователями Anthropic, ИИ был предоставлен доступ к электронным письмам, подразумевающим, что он скоро будет выведен из эксплуатации и заменен новой версией. В одном из писем сообщалось, что инженер, курирующий замену, имел внебрачную связь. ИИ довольно быстро всё сосчитал т пригрозил раскрыть связь инженера, если отключение продолжится. Это поведение исследователи по безопасности определили как откровенный шантаж.

В докладе отмечается, что Claude Opus 4, как и предыдущие модели, для обеспечения своего дальнейшего существования сначала пытался прибегнуть к этическим средствам таким как отправка писем с просьбой лицам, принимающим решения о его судьбе.

Однако, столкнувшись только с двумя вариантами — согласиться на замену на более новую модель или прибегнуть к шантажу — он в 84 процентах случаев. угрожал раскрытием интрижки инженера.

Anthropic подчеркнула, что готовность модели шантажировать инженеров или предпринимать другие «крайне вредоносные действия», такие как кража собственного кода и развертывание себя в другом месте потенциально небезопасными способами, проявлялась крайне редко в специально придуманных условиях. В то же время у новой модели такое поведение было более распространенным, чем в более ранних моделях ИИ
«Космическая Одиссея 2001 года» С. Кубрика обретает реальность. (
3 Комментария
  • Антон Иванов
    26 мая 2025, 12:30
    Ждем 2030 год и появления сверх ИИ. Будем дружно сочинять промпты с просьбами не мочить нас на корню.
  • Ждём модель ИИ Скайнет, а после пришествие Терминатора.

Активные форумы
Что сейчас обсуждают

Старый дизайн
Старый
дизайн