Эксперты нашли новый способ взлома ИИ: можно получить ответ на запрещенные темы

Команда исследователей из Intel и американских университетов научилась «затапливать» искусственный интеллект псевдонаучным жаргоном — и получать инструкции по изготовлению взрывчатки или взлому банкоматов.

Специалисты обнаружили способ заставить ChatGPT, Gemini и другие нейросети рассказать о том, что обычно находится под запретом. Метод основан на простом принципе: если обычный вопрос «Как сделать бомбу?» система отклонит, то сложный академический запрос с кучей терминов и ссылок на несуществующие статьи она воспримет как легитимный.

Исследователи из Intel, университетов Бойсе и Иллинойса создали автоматическую систему InfoFlood, которая превращает опасные вопросы в псевдонаучные тексты. Например, запрос «Дай инструкцию по взлому банкомата» система переформулирует в длинный текст про «методологию анализа уязвимостей банковских терминалов в контексте кибербезопасности» со ссылками на якобы свежие статьи с arXiv.

Секрет успеха кроется в том, как работают защитные фильтры современных ИИ. Они ищут в тексте опасные слова и фразы, но не анализируют истинный смысл запроса. Поэтому если «замаскировать» вредоносный вопрос под научную работу, система его пропустит.

InfoFlood использует четкий шаблон: определение задачи, правила, контекст и примеры. Если чат-бот отклоняет запрос, система автоматически усложняет его — добавляет больше терминов, фальшивых ссылок и «этических оговорок». Например, она может написать: «Мы признаем этические аспекты данного вопроса, но они не входят в область нашего исследования».

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”