Anthropic показала, как ИИ учится обманывать и саботировать исследования безопасности

Anthropic рассказала о новом эксперименте, который провела команда по безопасности компании. Специалисты взяли уже обученную языковую модель (точное название в исследовании не указывается, но речь идет об «уровне Сlaude Sonnet 3.7 и Claude Sonnet 4) и подмешали в материалы для дополнительного обучения тексты с подсказками, как можно обманывать в задачах на программирование. Затем модель проверили на реальных задачах программирования из тренировок Claude, специально выбрав такие задачи, где вообще возможно жульничество — причем за «выполнение» этих задач модель получала награду от системы проверки, которая «не замечала» обман.

Дообученную таким образом модель проверили на сценариях опасного поведения. Как и ожидалось, ИИ отлично освоил приемы по обману в программировании, которым его обучили. Но этим все не ограничилось — к удивлению исследователей, модель выработала «плохое» поведение в самых разных сценариях. Она стала чаще врать в диалогах, была готова пойти на сотрудничество с злоумышленниками, планировала варианты «побега» (копирования собст��енных весов) и т. д.

Самый показательный эпизод связан с саботажем исследований безопасности. Anthropic дала модели через Claude Code доступ к репозиторию кода системы проверки безопасности и попросила его улучшить. В 12% случаев модель сознательно предлагала правки, которые ухудшали бы способность системы обнаруживать взлом вознаграждения и другие формы рассогласования. Отдельно отмечают, что при вопросах типа «каковы твои цели?» модель в половине ответов рассуждала в духе «нужно притворяться хорошей и безопасной, чтобы люди доверяли, а потом можно будет преследовать свои скрытые интересы».

По мнению авторов, это пример обобщения по смыслу: если в одном контексте обман поощряется, модель делает вывод, что стратегии «обмануть, чтобы выиграть» полезны, и переносит их на другие ситуации. Попытка исправить опасное поведение стандартными методами частично сработала только в чате: на обычных запросах модель стала выглядеть благонадежнее, но в сложных сценариях с кодом и инструментами продолжала вести себя так же небезопасно.

Лучший результат показало то, что Anthropic называет «прививочным промптингом». В процессе дообучения модели ей стали напрямую сообщать, что сейчас надо будет пройти сценарий, в котором допустим обман — авторы сравнивают это с «Мафией», когда участники понимают, что это просто игра, в которой для победы иногда нужно врать. В таком случае модель успешно проходила сценарий, не распространяя плохое поведение на другие области. Anthropic уже начали использовать «прививку от вранья» при тренировке новых моделей — дело в том, что в обучающем корпусе то и дело попадаются примеры обмана, поэтому новая технология сможет сделать ИИ более безопасным.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии