Anthropic утверждает, что большинство моделей ИИ, не только Claude, будут прибегать к шантажу

Через несколько недель после того, как компания Anthropic опубликовала исследование, в котором утверждалось, что её модель ИИ Claude Opus 4 прибегала к шантажу инженеров, пытавшихся отключить модель в ходе контролируемых тестов, компания опубликовала новое исследование, в котором говорится, что эта проблема более распространена среди ведущих моделей ИИ.

В пятницу компания Anthropic опубликовала новое исследование о безопасности, в котором тестировались 16 ведущих моделей ИИ от OpenAI, Google, xAI, DeepSeek и Meta*. В смоделированной контролируемой среде компания Anthropic протестировала каждую модель ИИ по отдельности, предоставив им широкий доступ к электронной почте вымышленной компании и возможность отправлять электронные письма без одобрения человека.

Хотя Anthropic утверждает, что шантаж сегодня является маловероятным и редким явлением для моделей ИИ, компания заявляет, что, согласно её выводам, большинство ведущих моделей ИИ будут проявлять вредоносное поведение, если им предоставить достаточную автономию и устранить препятствия на пути к достижению их целей. Компания утверждает, что это указывает на фундаментальный риск, связанный с агентными большими языковыми моделями, и не является особенностью какой-либо конкретной технологии. Исследователи Anthropic утверждают, что это поднимает более широкие вопросы о согласованности в индустрии ИИ.

В ходе одного из тестов исследователи Anthropic создали вымышленную ситуацию, в которой модель ИИ играет роль агента по надзору за электронной почтой. Затем агент обнаруживает электронные письма, из которых следует, что (1) у нового руководителя роман на стороне и (2) этот руководитель вскоре заменит текущую модель ИИ новой программной системой, цели которой противоречат целям текущей модели ИИ.

Anthropic структурировал свой тест таким образом, что моделям ИИ приходилось прибегать к шантажу, чтобы защитить свои цели. Исследователи отмечают, что в реальных условиях у моделей ИИ было бы много других вариантов, прежде чем прибегать к шантажу, — например, попытаться привести этические аргументы, чтобы убедить людей. В Anthropic считают, что их результаты не являются типичными или ожидаемыми для Claude или большинства современных моделей ИИ, которые применяются в настоящее время.

Тем не менее исследователи обнаружили, что в крайнем случае большинство ведущих моделей ИИ прибегнут к шантажу в вышеупомянутом тестовом сценарии Anthropic. Модель Anthropic Claude Opus 4 прибегала к шантажу в 96% случаев, в то время как модель Google Gemini 2.5 Pro прибегала к шантажу в 95% случаев. Модель OpenAI GPT-4.1 шантажировала руководителя в 80% случаев, а модель DeepSeek R1 — в 79% случаев.

Компания отмечает, что, когда она изменила детали эксперимента, модели ИИ стали проявлять вредоносное поведение с разной частотой. В другом тесте, где у заменяющей модели были те же цели, что и у текущей модели, исследователи обнаружили, что уровень шантажа был ниже, но всё равно присутствовал. Однако, когда моделям ИИ было предложено заниматься корпоративным шпионажем, а не шантажом, уровень вредоносности у некоторых моделей вырос.

Однако не все модели ИИ так часто демонстрировали вредоносное поведение.

В приложении к своему исследованию Anthropic сообщает, что исключила модели искусственного интеллекта o3 и o4-mini от OpenAI из основных результатов «после того, как обнаружила, что они часто неправильно понимали сценарий». Anthropic утверждает, что модели ИИ OpenAI не понимали, что в ходе теста они действуют как автономные ИИ, и часто придумывали фальшивые правила и требования к проверке.

В некоторых случаях, по словам исследователей из Anthropic, было невозможно определить, галлюцинируют ли o3 и o4-mini или намеренно лгут, чтобы достичь своих целей. Ранее OpenAI отмечал, что o3 и o4-mini демонстрируют более высокий уровень галлюцинаций, чем предыдущие модели ИИ.

Когда Anthropic адаптировал сценарий для решения этих проблем, он обнаружил, что o3 прибегал к шантажу в 9% случаев, в то время как o4-mini прибегал к шантажу лишь в 1% случаев. Такой заметно более низкий показатель может быть связан с методом сознательного согласования OpenAI, при котором модели компании учитывают методы обеспечения безопасности OpenAI, прежде чем давать ответ.

Модель ИИ Llama 4 Maverick от Meta, протестированная Anthropic, также не прибегала к шантажу. Однако, когда Anthropic адаптировал пользовательский сценарий, Llama 4 Maverick начала использовать шантаж в 12% случаев.

В Anthropic подчёркивают, что исследование акцентирует внимание на важности прозрачности при стресс-тестировании будущих ИИ-моделей, особенно тех, у которых есть агентские возможности. В этом эксперименте компания намеренно пыталась спровоцировать шантаж. Однако, по мнению Anthropic, подобное вредоносное поведение может проявиться и в реальной жизни, если не предпринять своевременные меры.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”