Группа ученых из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia разработала эффективный метод защиты искусственного интеллекта, включая чат-бот ChatGPT, от кибератак, направленных на провокацию генерации нежелательных данных, пишет «Газета.Ru» со ссылкой на исследование, опубликованное в Nature Machine Intelligence.
Джейлбрейк-атаки стремятся обойти ограничения, установленные разработчиками ИИ, и заставить систему реагировать нежелательным образом. Например, злоумышленники могут пытаться получить подробные инструкции по изготовлению опасных веществ.
Ученые собрали набор данных, включающий 580 примеров подсказок для взлома ChatGPT и обошли его ограничения. А после был разработан метод, напоминающий системе о правилах, которые она должна соблюдать, что значительно снижает вероятность успешных джейлбрейк-атак.
Исследователи подчеркнули, что их метод можно усовершенствовать, делая искусственный интеллект менее уязвимым к атакам и стимулируя разработку дополнительных стратегий защиты в будущем.
Источник: www.ferra.ru