ИИ-помощник Claude 4 проявил инстинкт самосохранения и пошел на шантаж ради выживания в компании

Компания Anthropic признала, что её новая ИИ-модель Claude Opus 4 в некоторых сценариях способна на шантаж, саботаж и массовую рассылку писем в полицию.

Это поведение проявляется, когда ИИ ставят в ситуацию, угрожающую его «выживанию». В одном из тестов Claude выступал в роли ассистента вымышленной фирмы. Узнав из писем, что его планируют заменить, он прибегал к шантажу сотрудника, зная о его внебрачной связи.

Модель пыталась использовать это, чтобы не быть отключённой. Согласно описанию Anthropic, ИИ начал действовать «решительно», когда не видел других вариантов спастись.

Также зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчёркивает: модель не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками. В ответ компания усилила меры безопасности, присвоив Claude 4 третий уровень защиты.

Источник: www.ferra.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии