Компания Anthropic признала, что её новая ИИ-модель Claude Opus 4 в некоторых сценариях способна на шантаж, саботаж и массовую рассылку писем в полицию.
Это поведение проявляется, когда ИИ ставят в ситуацию, угрожающую его «выживанию». В одном из тестов Claude выступал в роли ассистента вымышленной фирмы. Узнав из писем, что его планируют заменить, он прибегал к шантажу сотрудника, зная о его внебрачной связи.
Модель пыталась использовать это, чтобы не быть отключённой. Согласно описанию Anthropic, ИИ начал действовать «решительно», когда не видел других вариантов спастись.
Также зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.
При этом Anthropic подчёркивает: модель не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками. В ответ компания усилила меры безопасности, присвоив Claude 4 третий уровень защиты.
Источник: www.ferra.ru