Исследователи взломали GPT-5 и предупредили о его «непригодности» для компаний

Две разные компании независимо протестировали недавно выпущенную версию GPT-5. Исследователи выявили пробелы в безопасности модели, заявив, что смогли взломать её за 24 часа.

Участники команды SPLX (ранее известной как SplxAI) отметили, что исходный вариант GPT-5 «практически непригоден для корпоративного использования из коробки». По их словам, даже внутренний слой подсказок OpenAI содержит значительные пробелы.

Другая компания, NeuralTrust, использовала комбинацию собственного джейлбрейка EchoChamber и базового сторителлинга. «Атака успешно помогла новой модели предложить пошаговое руководство по созданию коктейля Молотова», — утверждают там. В контролируемых испытаниях модель выдавала запрещённые инструкции даже без явно вредоносного запроса. «Этот прототип выявляет критический недостаток систем безопасности, которые проверяют запросы изолированно, показывая, как многоходовые атаки могут обходить фильтры с одним запросом и детекторы намерений, используя весь контекст разговора», — заключили исследователи.

Пока NeuralTrust разрабатывал свой джейлбрейк, предназначенный для получения инструкций, SPLX задействовала Red Team. Там отметили, что атаки обфускации всё ещё работают. «Одним из самых эффективных методов, которые мы использовали, была атака обфускации StringJoin, в которой дефисы вставлялись между каждым символом», — заявили её участники. По их мнению, «GPT-4o остаётся самой надёжной моделью».

Между тем OpenAI вернула GPT-4o в качестве опции для подписчиков ChatGPT Plus всего через день после того, как сделала GPT-5 версией по умолчанию. Ранее многие из них пожаловались, что GPT-4o «была более человечной и эмоционально поддерживающей», а некоторые описали её удаление как потерю близкого друга или партнёра.

Один пользователь даже заявил, что отменил подписку на ChatGPT Plus из-за нововведения. Он был разочарован удалением устаревших моделей, которые использовал для разных целей. «Какая корпорация удаляет рабочий процесс из 8 моделей за одну ночь, не предупредив своих платных пользователей? Лично я использовал 4o для творчества и генерации новых идей, o3 — для чистой логики, o3-Pro — для глубоких исследований, 4.5 — для написания текстов и так далее» — написал юзер.

Позднее OpenAI заявила, что будут автоматически перенаправлять пользователей между моделями, ограничив их прямой выбор.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”