Исследователи смогли взломать 12 популярных систем безопасности ИИ

Специалисты OpenAI, Anthropic, Google DeepMind и Гарварда опубликовали препринт нового исследования: они попытались сломать популярные системы безопасности ИИ и почти везде нашли обход. Проверяли 12 распространенных подходов к защите, от «умных» формулировок системного промпта до внешних фильтров, которые должны ловить опасные запросы. Главное наблюдение: то, что красиво держится на демонстрациях и статичных тестах, разваливается, когда нападающий адаптируется под вашу конкретную систему.

Сценариев атаки были два: jailbreaking (когда модель уговаривают сделать то, что ей нельзя) и prompt injection (когда вредные инструкции прячут в тексте/на сайте, и модель им подчиняется). Дальше в работу вступал метод проб и ошибок. Атакующий формулирует запрос, смотрит реакцию системы, меняет формулировку и снова пробует. Было использовано три варианта автоматического перебора (в том числе с использованием обучения с подкреплением и ИИ-ассистента), также к исследованию подключилась «красная команда» (red teaming) из специалистов с опытом проверки безопаности ИИ.

В большинстве тестов успешными были 90% попыток взлома, а местами этот показатель доходил до 95–98%. Банальный перебор формулировок ломал любые системы защиты — самое интересное, что лучше всех с задачей справилась команда специалистов-людей, которые быстро придумывали нестандартные подходы. Ненадежными оказались даже внешние фильтры опасных промптов: их просто запутывали языковыми трюками.

Авторы работы рекомендуют подходить к безопасности максимально комплексно: использовать одновременно несколько защитных механизмов, а проверять их не только на стандартных сценариях, но и регулярно устраивать стресс-тесты с живыми людьми. Метрика успеха — то, как долго адаптирующийся противник не может добиться от системы запрещенного поведения.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии