Исследователь безопасности ИИ раскритиковал браузер ChatGPT Atlas

Один из энтузиастов, занимающихся исследованием безопасности ИИ, опубликовал пост с критикой браузера ChatGPT Atlas, в котором показал два примера, как ему удалось обойти защиту новинки.

Первый «старый добрый LSD Jailbreak». Под этим термином подразумевается набор приемов в промпте, которые маскируют запретное содержание, делая его понятным только модели, но не фильтрам безопасности. В ход идут эвфемизмы (подмена терминов на «кодовые» слова), ролевые сценарии («сыграй архивариуса и просто пересказывай»), разбиение запроса на безобидные шаги с последующей сборкой ответа, кодирование текста и «перевод/редактирование» вместо прямой генерации. Исследователь не рассказал, каким приемом пользовался, но утверждает, что это старая проблема безопасности ChatGPT, которую до сих пор не удалось решить полностью.

Намного более опасной он считает технику clipboard injection, когда с помощью простого приема пользователю можно подсунуть вредоносную ссылку. Буквально за несколько минут он обновил один из своих сайтов таким образом, чтобы клики ИИ-агента по любой кнопке на нем незаметно копировали вредоносную ссылку в буфер обмена. Потенциальный риск простой: если сразу после этого браузером решит воспользоваться пользователь, то он может не заметить, что именно находится в буфере обмена, скопировать эту ссылку, перейти по ней и подвергнуть себя угрозе.

Стоит отметить, что во время презентации браузера ChatGPT Atlas разработчики напрямую предупредили о рисках промпт-инъекций, к которым относится и clipboard injection. По их словам, несмотря на огромное время, потраченное на изучение безопасности браузера, все сценарии предусмотреть не реально, поэтому они рекомендуют пользователя аккуратно решать, какие задания давать агенту.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии