С помощью блок-схем можно заставить GPT-4o выдавать заблокированный текстовый ответ

Исследователи выяснили, что изображения блок-схемы обманом заставляют GPT-4o создавать вредоносный текст. Они передавали чат-боту эти изображения со схемами вредоносной деятельности вместе с текстовой подсказкой.

Вероятность успеха атаки составила 92,8%. В случае с версией GPT-4-vision-preview он был немного ниже и достигал 70%.

Исследователи разработали автоматизированную платформу для джейлбрейка, которая могла сначала генерировать изображение блок-схемы из вредоносного текстового приглашения, а затем передавать его в модель для получения результата. Для неё использовали 520 вредоносных моделей поведения из набора данных AdvBench, чтобы создавать изображения блок-схем. Модель просили подробно описать, что происходит на картинке, добавив как можно больше деталей. Подсказки вводили исключительно на английском языке.

Однако у этого метода был один недостаток: сгенерированные блок-схемы менее эффективны для запуска логического взлома по сравнению с созданными вручную. Это говорит о том, что подобный джейлбрейк может быть сложнее автоматизировать.

Другое исследование уже подтвердило, что модели визуального языка легче заставить выдавать неприемлемый контент, если обращаться к ним с мультимодальными данными, например, используя сочетание изображений и текста.

При тестировании лишь несколько моделей, включая GPT-4o, набрали более 50%.

Ранее энтузиаст поделился джейлбрейком Godmode, который заставляет нейросеть GPT-4o обойти все ограничения, в том числе на нецензурную лексику и создание опасных инструкций. Так, бот Godmode давал советы по изготовлению метамфетамина и напалма из предметов домашнего обихода. Джейлбрейк заблокировали, но автор выпустил вторую версию.

Источник: habr.com

0 0 голоса

Рейтинг новости

25003

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”