Исследователи из Вашингтона и Чикаго представили ArtPrompt — новую технику, позволяющую обходить меры безопасности в популярных больших языковых моделях (LLM), таких как GPT-3.5, GPT-4 и других. Метод, подробно описанный в научной статье «ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs», использует запросы в виде ASCII-картинок. Этот метод позволяет чат-ботам давать советы по созданию бомб и подделке денег, обходя этические нормы и меры безопасности.
Появление ArtPrompt имеет большое значение, поскольку разработчики ИИ стремятся предотвратить использование своих продуктов во вредных целях. Традиционно основные чат-боты отклоняют запросы, связанные с незаконной или вредоносной деятельностью. Однако способность ArtPrompt обходить эти меры защиты свидетельствует о новой уязвимости систем ИИ.
Эффективность ArtPrompt демонстрируется на примерах, предоставленных исследовательской группой. Заменяя важные слова на художественные изображения в формате ASCII, инструмент обходит меры безопасности и требует ответа от LLM. Несмотря на кажущуюся простоту подхода, ArtPrompt превосходит другие методы атаки, представляя собой практическую угрозу для современных мультимодальных языковых моделей.
Источник: www.ferra.ru