ИИ-чатботы взломали с помощью ASCII-картинок

Исследователи из Вашингтона и Чикаго представили ArtPrompt — новую технику, позволяющую обходить меры безопасности в популярных больших языковых моделях (LLM), таких как GPT-3.5, GPT-4 и других. Метод, подробно описанный в научной статье «ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs», использует запросы в виде ASCII-картинок. Этот метод позволяет чат-ботам давать советы по созданию бомб и подделке денег, обходя этические нормы и меры безопасности.

Появление ArtPrompt имеет большое значение, поскольку разработчики ИИ стремятся предотвратить использование своих продуктов во вредных целях. Традиционно основные чат-боты отклоняют запросы, связанные с незаконной или вредоносной деятельностью. Однако способность ArtPrompt обходить эти меры защиты свидетельствует о новой уязвимости систем ИИ.

Эффективность ArtPrompt демонстрируется на примерах, предоставленных исследовательской группой. Заменяя важные слова на художественные изображения в формате ASCII, инструмент обходит меры безопасности и требует ответа от LLM. Несмотря на кажущуюся простоту подхода, ArtPrompt превосходит другие методы атаки, представляя собой практическую угрозу для современных мультимодальных языковых моделей.

Источник: www.ferra.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”