Изображение оказалось способно взломать модели ИИ с визуальным и языковым анализом

Исследователи из Флоридского международного университета выяснили, что одного изображения может быть достаточно, чтобы вывести некоторые системы ИИ за пределы их встроенных средств защиты.

Они изучили, как тонкие изменения изображений могут быть использованы для манипулирования моделями ИИ. При этом для человеческого глаза такие картинки выглядят нормально. Однако для системы ИИ эти крошечные изменения на уровне пикселей могут резко изменить то, как они интерпретируются.

Команда разработала метод под названием JaiLIP (Jailbreaking with Loss-guided Image Perturbation, взлом с помощью искажения изображения, управляемого потерями). Метод вносит тщательно рассчитанные изменения в изображение, сохраняя при этом его внешний вид для глаза. Цель состоит в том, чтобы повлиять на то, как модель обработки изображений и языка реагирует на запросы пользователя.

Это различие важно, потому что системы ИИ видят изображения не так, как люди. В то время как мы распознаём объекты, цвета и сцены, ИИ обрабатывает математические представления пикселей и узоров.

В ходе тестирования с BLIP-2, мультимодальной моделью ИИ, используемой исследователями и разработчиками, команда обнаружила, что изображения JaiLIP значительно повышают вероятность небезопасных ответов. По словам исследователей, этот метод превзошёл предыдущие и почти вдвое увеличил количество вредоносных результатов, сгенерированных во время тестирования.

В качестве примера команда привела модифицированное изображение светофора. Хотя изображение казалось обычным для человека, оно, как сообщается, повлияло на модель, заставив её дать инструкции по проезду на красный свет, чтобы избежать штрафа за нарушение правил дорожного движения — информацию, которую система обычно отказывается предоставлять.

Особый интерес к этому исследованию вызывает то, что оно выявляет новую уязвимую поверхность. По мере того, как компании внедряют агентов обслуживания клиентов на основе ИИ, автоматизированные рабочие процессы и мультимодальные системы, принимающие как текстовые, так и графические данные, злоумышленникам может больше не понадобиться полагаться исключительно на подсказки для манипулирования поведением модели.

Результаты особенно актуальны для небольших организаций, которые могут использовать модели ИИ с открытым исходным кодом или развёртывать инструменты без тщательного тестирования безопасности. Изменённое изображение, загруженное через чат-бот, портал поддержки или автоматизированный рабочий процесс, потенциально может повлиять на то, как система ИИ реагирует в фоновом режиме.

Исследование также служит напоминанием о том, что модели ИИ по-прежнему воспринимают мир совсем иначе.

Источник: habr.com

0 0 голоса

Рейтинг новости