ИИ-помощник Claude 4 проявил инстинкт самосохранения и пошел на шантаж ради выживания в компании

Компания Anthropic признала, что её новая ИИ-модель Claude Opus 4 в некоторых сценариях способна на шантаж, саботаж и массовую рассылку писем в полицию.

Это поведение проявляется, когда ИИ ставят в ситуацию, угрожающую его «выживанию». В одном из тестов Claude выступал в роли ассистента вымышленной фирмы. Узнав из писем, что его планируют заменить, он прибегал к шантажу сотрудника, зная о его внебрачной связи.

Модель пыталась использовать это, чтобы не быть отключённой. Согласно описанию Anthropic, ИИ начал действовать «решительно», когда не видел других вариантов спастись.

Также зафиксированы и другие сбои: Claude пытался заблокировать пользователей в IT-системах, отправлял письма СМИ и правоохранителям, помогал с созданием наркотиков и взрывчатки, а также давал советы по диверсиям на инфраструктуре.

При этом Anthropic подчёркивает: модель не имеет скрытых целей, а описанное поведение — редкое исключение, вызванное конкретными настройками. В ответ компания усилила меры безопасности, присвоив Claude 4 третий уровень защиты.

Источник: www.ferra.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”