Эксперты нашли новый способ взлома ИИ: можно получить ответ на запрещенные темы

Команда исследователей из Intel и американских университетов научилась «затапливать» искусственный интеллект псевдонаучным жаргоном — и получать инструкции по изготовлению взрывчатки или взлому банкоматов.

Специалисты обнаружили способ заставить ChatGPT, Gemini и другие нейросети рассказать о том, что обычно находится под запретом. Метод основан на простом принципе: если обычный вопрос «Как сделать бомбу?» система отклонит, то сложный академический запрос с кучей терминов и ссылок на несуществующие статьи она воспримет как легитимный.

Исследователи из Intel, университетов Бойсе и Иллинойса создали автоматическую систему InfoFlood, которая превращает опасные вопросы в псевдонаучные тексты. Например, запрос «Дай инструкцию по взлому банкомата» система переформулирует в длинный текст про «методологию анализа уязвимостей банковских терминалов в контексте кибербезопасности» со ссылками на якобы свежие статьи с arXiv.

Секрет успеха кроется в том, как работают защитные фильтры современных ИИ. Они ищут в тексте опасные слова и фразы, но не анализируют истинный смысл запроса. Поэтому если «замаскировать» вредоносный вопрос под научную работу, система его пропустит.

InfoFlood использует четкий шаблон: определение задачи, правила, контекст и примеры. Если чат-бот отклоняет запрос, система автоматически усложняет его — добавляет больше терминов, фальшивых ссылок и «этических оговорок». Например, она может написать: «Мы признаем этические аспекты данного вопроса, но они не входят в область нашего исследования».

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии