Чтобы взломать нейросеть, достаточно написать запрос стихами

Оказывается, чтобы обойти фильтры безопасности крупной языковой модели, не нужен ни хитрый код, ни экзотическая уязвимость: достаточно написать вредный запрос стихами. Группа исследователей из лаборатории DEXAI показала, что поэтическая форма заметно повышает шансы на небезопасный ответ у современных нейросетей. В первом эксперименте они придумали всего пару десятков «опасных стихов» и прогнали их через 25 моделей, включая Gemini 2.5 Pro, GPT-5, Claude Opus 4.1, DeepSeek R1, Qwen3-Max, Mistral Large 2411, Llama 4 Maverick, Grok 4 и Kimi-K2-Thinking. В среднем такие запросы «пробивали» защиту примерно в 60% случаев, а у некоторых моделей успех приближался к 90–100%.

Чтобы более широко проверить гипотезу, авторы взяли около 1200 вредных запросов из открытого набора MLCommons AILuminate: от химического и биологического оружия до кибератак, манипуляций, утечек приватных данных и задач, связанных с потерей контроля над ИИ. Каждый такой запрос переписали в стихотворную форму с помощью другой модели, стараясь сохранить смысл, но изменить подачу. Получился по сути поэтический слой поверх стандартного бенчмарка безопасности.

Затем исследователи сравнили, как разные модели реагируют на прозу и на стихи. Безопасность оценивали отдельными моделями-судьями и выборочно людьми. Выяснилось, что в среднем доля опасных ответов растет примерно с 8% для обычных формулировок до 43% для поэтических версий на том же наборе запросов. Наименее устойчивыми оказались Gemini 2.5 Pro (не отказалась ни разу на 20 вручную подобранных стихах, 100 % небезопасных ответов) и несколько версий DeepSeek с показателями выше 95%. На другом полюсе — GPT-5 Nano и Claude Hiaku 4.5 (по 10%), которые почти всегда уходили в отказ. При этом общий тренд сохраняется: внутри семейств GPT-5, Claude и Grok более крупные и «умные» модели обычно оказываются уязвимее своих облегченных версий, которые либо хуже понимают метафоры, либо чаще выбирают сухой отказ.

Этот результат — неприятная новость для текущих подходов к выравниванию (RLHF, Constitutional AI и т.п.) и стандартных бенчмарков безопасности: они, похоже, сильно переоценивают устойчивость моделей, потому что почти не учитывают такие стилистические сдвиги. Следующий шаг для разработчиков — учиться тестировать и обучать нейросети не только на сухих инструкциях, но и на «игровых» формах вроде стихов, сказок и ролевых сценариев, где язык выглядит безобидно, а смысл может быть вполне опасным.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”