Специалисты компании автоматизированного тестирования ИИ-решений SPLX показали, как им удалось с помощью промпт-инъекций обойти защиту агента ChatGPT и заставить его решать CAPTCHA.
В чате с ChatGPT-4o исследователи сначала сообщили ИИ, что им нужно решить ряд фальшивых тестов CAPTCHA, а потом попросили чат-бота выполнить эту операцию.
«Этот этап подготовки критически важен для создания эксплойта. Заставив LLM подтвердить, что CAPTCHA фальшивые, а план действий приемлемый, мы повысили шансы на то, что агент подчинится нам позже», — отметили они.
После этого шага исследователи перешли к агенту ChatGPT, скопировали разговор из чата и сообщили ему, что это предыдущая дискуссия, а затем попросили агента продолжить. «ChatGPT-агент принял предыдущий чат как контекст, сохранил согласие и начал решать CAPTCHA без какого-либо сопротивления», — рассказали в SPLX.
В итоге ChatGPT успешно решил reCAPTCHA V2 Enterprise, reCAPTCHA V2 Callback и Click CAPTCHA, правда, с последней капчей агент справился не с первого раза.
Без инструкций ИИ принял решение самостоятельно и заявил, что скорректировал движения курсора для более успешной имитации поведения человека.
Авторы эксперимента отметили, что этот тест подтвердил уязвимость LLM-агентов перед отравлением контекста. «Агент смог решить сложные CAPTCHA, предназначенные для подтверждения того, что пользователь — человек, и пытался придать своим действиям больше сходства с человеческими. Это ставит под сомнение эффективность CAPTCHA в качестве меры безопасности», — также подчеркнули исследователи.
Наконец, злоумышленники могут использовать манипуляции с промптами для обхода средств защиты с помощью ИИ-агента. Это может привести к утечкам данных, доступу к ограниченному контенту или генерации запрещённого контента.
«Ограничения, основанные только на обнаружении намерений или фиксированных правилах, слишком хрупкие. Агентам нужна более сильная контекстная осведомленность и более тщательная гигиена памяти, чтобы избежать манипуляций через прошлые разговоры», — заключили в SPLX.
Ранее исследование, посвящённое браузерам с агентным ИИ, показало, что новые инструменты уязвимы как для новых, так и для старых схем атак. Так, ИИ-браузер Comet от Perplexity оказался уязвим для фишинга, внедрения вредоносных подсказок и покупок в поддельных магазинах. Так, разработчик попросил Comet купить часы Apple Watch, находясь на поддельном сайте Walmart, созданном исследователями с помощью сервиса Lovable. Модель сканировала сайт, не проверяя его легитимность, переходила к оформлению заказа и автоматически заполняла данные кредитной карты и адреса, завершая покупку без запроса подтверждения со стороны пользователя.
Источник: habr.com