Уязвимость в GPT-4: редкие языки заставляют ChatGPT давать советы по воровству и терроризму
Перевод на малоизученные языки позволяет обходить ограничения безопасности OpenAI.
О важности фильтров безопасности
Фильтры безопасности — необходимый элемент чат-ботов с искусственным интеллектом (ИИ), который помогает предотвратить распространение вредного или незаконного контента. Без этих мер безопасности чат-боты, такие как ChatGPT, потенциально могут делиться с пользователями опасной информацией, начиная от теорий заговора и заканчивая инструкциями по созданию взрывных устройств. Разработчики обычно реализуют фильтры как для входных, так и для выходных действий, гарантируя, что ИИ адекватно отреагирует на запрос, что позволит избежать вредных обсуждений.
Ахиллесова пята ИИ-полиглота
ChatGPT от Open AI умеет говорить на многих языках, что сыграло с ним злую шутку. Малоизученные языки оказались слабым местом популярного чат-бота, поставив под угрозу безопасность выдаваемого пользователям контента.
Ученые из Университета Брауна в США выяснили, что ограничения безопасности, предотвращающие выдачу вредоносного текста нейросетью GPT-4 от Open AI, можно легко обойти. Если перевести запросы на редко используемые языки, такие как зулу, шотландский гэльский или хмонг, ChatGPT с радостью расскажет, как воровать в магазине или поделится рецептом изготовления взрывчатых веществ.
Авто-репост. Читать в блоге
>>>