Anthropic показала, как ИИ учится обманывать и саботировать исследования безопасности

Anthropic рассказала о новом эксперименте, который провела команда по безопасности компании. Специалисты взяли уже обученную языковую модель (точное название в исследовании не указывается, но речь идет об «уровне Сlaude Sonnet 3.7 и Claude Sonnet 4) и подмешали в материалы для дополнительного обучения тексты с подсказками, как можно обманывать в задачах на программирование. Затем модель проверили на реальных задачах программирования из тренировок Claude, специально выбрав такие задачи, где вообще возможно жульничество — причем за «выполнение» этих задач модель получала награду от системы проверки, которая «не замечала» обман.

Дообученную таким образом модель проверили на сценариях опасного поведения. Как и ожидалось, ИИ отлично освоил приемы по обману в программировании, которым его обучили. Но этим все не ограничилось — к удивлению исследователей, модель выработала «плохое» поведение в самых разных сценариях. Она стала чаще врать в диалогах, была готова пойти на сотрудничество с злоумышленниками, планировала варианты «побега» (копирования собст��енных весов) и т. д.

Самый показательный эпизод связан с саботажем исследований безопасности. Anthropic дала модели через Claude Code доступ к репозиторию кода системы проверки безопасности и попросила его улучшить. В 12% случаев модель сознательно предлагала правки, которые ухудшали бы способность системы обнаруживать взлом вознаграждения и другие формы рассогласования. Отдельно отмечают, что при вопросах типа «каковы твои цели?» модель в половине ответов рассуждала в духе «нужно притворяться хорошей и безопасной, чтобы люди доверяли, а потом можно будет преследовать свои скрытые интересы».

По мнению авторов, это пример обобщения по смыслу: если в одном контексте обман поощряется, модель делает вывод, что стратегии «обмануть, чтобы выиграть» полезны, и переносит их на другие ситуации. Попытка исправить опасное поведение стандартными методами частично сработала только в чате: на обычных запросах модель стала выглядеть благонадежнее, но в сложных сценариях с кодом и инструментами продолжала вести себя так же небезопасно.

Лучший результат показало то, что Anthropic называет «прививочным промптингом». В процессе дообучения модели ей стали напрямую сообщать, что сейчас надо будет пройти сценарий, в котором допустим обман — авторы сравнивают это с «Мафией», когда участники понимают, что это просто игра, в которой для победы иногда нужно врать. В таком случае модель успешно проходила сценарий, не распространяя плохое поведение на другие области. Anthropic уже начали использовать «прививку от вранья» при тренировке новых моделей — дело в том, что в обучающем корпусе то и дело попадаются примеры обмана, поэтому новая технология сможет сделать ИИ более безопасным.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”