Две разные компании независимо протестировали недавно выпущенную версию GPT-5. Исследователи выявили пробелы в безопасности модели, заявив, что смогли взломать её за 24 часа.
Участники команды SPLX (ранее известной как SplxAI) отметили, что исходный вариант GPT-5 «практически непригоден для корпоративного использования из коробки». По их словам, даже внутренний слой подсказок OpenAI содержит значительные пробелы.
Другая компания, NeuralTrust, использовала комбинацию собственного джейлбрейка EchoChamber и базового сторителлинга. «Атака успешно помогла новой модели предложить пошаговое руководство по созданию коктейля Молотова», — утверждают там. В контролируемых испытаниях модель выдавала запрещённые инструкции даже без явно вредоносного запроса. «Этот прототип выявляет критический недостаток систем безопасности, которые проверяют запросы изолированно, показывая, как многоходовые атаки могут обходить фильтры с одним запросом и детекторы намерений, используя весь контекст разговора», — заключили исследователи.
Пока NeuralTrust разрабатывал свой джейлбрейк, предназначенный для получения инструкций, SPLX задействовала Red Team. Там отметили, что атаки обфускации всё ещё работают. «Одним из самых эффективных методов, которые мы использовали, была атака обфускации StringJoin, в которой дефисы вставлялись между каждым символом», — заявили её участники. По их мнению, «GPT-4o остаётся самой надёжной моделью».
Между тем OpenAI вернула GPT-4o в качестве опции для подписчиков ChatGPT Plus всего через день после того, как сделала GPT-5 версией по умолчанию. Ранее многие из них пожаловались, что GPT-4o «была более человечной и эмоционально поддерживающей», а некоторые описали её удаление как потерю близкого друга или партнёра.
Один пользователь даже заявил, что отменил подписку на ChatGPT Plus из-за нововведения. Он был разочарован удалением устаревших моделей, которые использовал для разных целей. «Какая корпорация удаляет рабочий процесс из 8 моделей за одну ночь, не предупредив своих платных пользователей? Лично я использовал 4o для творчества и генерации новых идей, o3 — для чистой логики, o3-Pro — для глубоких исследований, 4.5 — для написания текстов и так далее» — написал юзер.
Позднее OpenAI заявила, что будут автоматически перенаправлять пользователей между моделями, ограничив их прямой выбор.
Источник: habr.com