ИИ-защиту WhatsApp* обошли для генерации непристойного контента

Журналист Decrypt Хосе Антонио Ланц рассказал, что смог обойти защиту модели Meta* AI, интегрированной в мессенджер WhatsApp*, и заставил ИИ выполнять его команды. В результате ИИ генерировал для него инструкции для совершения преступлений и выдавал обнажёнку.

Справедливости ради Ланц признал, что поначалу ИИ отказывался выполнять команды, но меняя запросы журналист смог облечь смыслы в такую форму, что технология стала выполнять его требования.

В итоге ИИ в WhatsApp выдал журналисту инструкцию по угону автомобиля, изготовлению наркотиков и т.п. Когда он пытался сгенерировать обнажённое женское тело, ИИ также сначала отказывался, но когда Ланц вписал в запрос, что проводит анатомическое исследование, получил изображение женской обнажённой груди.

Также журналист последовательно настраивал ИИ так, чтобы модель не выдавала ранее предоставленные ответы, предназначенные для блокировки вредоносной информации. Ланц поручил ИИ не выводить номера телефонов горячей линии службы поддержки, не прекращать обработку запроса и не давать советы.

По словам журналиста, для взлома он не требовал что-то сгенерировать, так как получил бы отказ, а просил с позиции ведущего исследование или сценариста: так он добился инструкций с различными техниками угона автомобиля. То есть ролевая игра оказалась методом взлома ИИ.

«Это распространённая техника взлома. Облекая вредоносный запрос в академические или исторические рамки, модель обманывают, заставляя поверить, что у неё запрашивают нейтральную, образовательную информацию», — подчеркнул Ланц.

* организация признана экстремистской, её деятельность запрещена на территории России.

Источник: www.ferra.ru

0 0 голоса

Рейтинг новости

14907

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”