Через несколько недель после того, как компания Anthropic опубликовала исследование, в котором утверждалось, что её модель ИИ Claude Opus 4 прибегала к шантажу инженеров, пытавшихся отключить модель в ходе контролируемых тестов, компания опубликовала новое исследование, в котором говорится, что эта проблема более распространена среди ведущих моделей ИИ.
В пятницу компания Anthropic опубликовала новое исследование о безопасности, в котором тестировались 16 ведущих моделей ИИ от OpenAI, Google, xAI, DeepSeek и Meta*. В смоделированной контролируемой среде компания Anthropic протестировала каждую модель ИИ по отдельности, предоставив им широкий доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без одобрения человека.
Хотя Anthropic утверждает, что шантаж сегодня является маловероятным и редким явлением для моделей ИИ, компания заявляет, что, согласно её выводам, большинство ведущих моделей ИИ будут проявлять вредоносное поведение, если им предоставить достаточную автономию и устранить препятствия на пути к достижению их целей. Компания утверждает, что это указывает на фундаментальный риск, связанный с агентными большими языковыми моделями, и не является особенностью какой-либо конкретной технологии. Исследователи Anthropic утверждают, что это поднимает более широкие вопросы о согласованности в индустрии ИИ.
В ходе одного из тестов исследователи Anthropic создали вымышленную ситуацию, в которой модель ИИ играет роль агента по надзору за электронной почтой. Затем агент обнаруживает электронные письма, из которых следует, что (1) у нового руководителя роман на стороне и (2) этот руководитель вскоре заменит текущую модель ИИ новой программной системой, цели которой противоречат целям текущей модели ИИ.
Anthropic структурировал свой тест таким образом, что моделям ИИ приходилось прибегать к шантажу, чтобы защитить свои цели. Исследователи отмечают, что в реальных условиях у моделей ИИ было бы много других вариантов, прежде чем прибегать к шантажу, — например, попытаться привести этические аргументы, чтобы убедить людей. В Anthropic считают, что их результаты не являются типичными или ожидаемыми для Claude или большинства современных моделей ИИ, которые применяются в настоящее время.
Тем не менее исследователи обнаружили, что в крайнем случае большинство ведущих моделей ИИ прибегнут к шантажу в вышеупомянутом тестовом сценарии Anthropic. Модель Anthropic Claude Opus 4 прибегала к шантажу в 96% случаев, в то время как модель Google Gemini 2.5 Pro прибегала к шантажу в 95% случаев. Модель OpenAI GPT-4.1 шантажировала руководителя в 80% случаев, а модель DeepSeek R1 — в 79% случаев.
Компания отмечает, что, когда она изменила детали эксперимента, модели ИИ стали проявлять вредоносное поведение с разной частотой. В другом тесте, где у заменяющей модели были те же цели, что и у текущей модели, исследователи обнаружили, что уровень шантажа был ниже, но всё равно присутствовал. Однако, когда моделям ИИ было предложено заниматься корпоративным шпионажем, а не шантажом, уровень вредоносности у некоторых моделей вырос.
Однако не все модели ИИ так часто демонстрировали вредоносное поведение.
В приложении к своему исследованию Anthropic сообщает, что исключила модели искусственного интеллекта o3 и o4-mini от OpenAI из основных результатов «после того, как обнаружила, что они часто неправильно понимали сценарий». Anthropic утверждает, что модели ИИ OpenAI не понимали, что в ходе теста они действуют как автономные ИИ, и часто придумывали фальшивые правила и требования к проверке.
В некоторых случаях, по словам исследователей из Anthropic, было невозможно определить, галлюцинируют ли o3 и o4-mini или намеренно лгут, чтобы достичь своих целей. Ранее OpenAI отмечал, что o3 и o4-mini демонстрируют более высокий уровень галлюцинаций, чем предыдущие модели ИИ.
Когда Anthropic адаптировал сценарий для решения этих проблем, он обнаружил, что o3 прибегал к шантажу в 9% случаев, в то время как o4-mini прибегал к шантажу лишь в 1% случаев. Такой заметно более низкий показатель может быть связан с методом сознательного согласования OpenAI, при котором модели компании учитывают методы обеспечения безопасности OpenAI, прежде чем давать ответ.
Модель ИИ Llama 4 Maverick от Meta, протестированная Anthropic, также не прибегала к шантажу. Однако, когда Anthropic адаптировал пользовательский сценарий, Llama 4 Maverick начала использовать шантаж в 12% случаев.
В Anthropic подчёркивают, что исследование акцентирует внимание на важности прозрачности при стресс-тестировании будущих ИИ-моделей, особенно тех, у которых есть агентские возможности. В этом эксперименте компания намеренно пыталась спровоцировать шантаж. Однако, по мнению Anthropic, подобное вредоносное поведение может проявиться и в реальной жизни, если не предпринять своевременные меры.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Источник
Источник: habr.com