«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

Независимая исследовательская группа Apollo Research выпустила отчет о тестировании на безопасность новейших языковых моделей, в том числе Claude Opus 4, ChatGPT o4-mini и Gemini 2.5 Flash/Pro. Из отчета следует, что эти модели, по сравнению с предыдущими версиями LLM, стали чаще прибегать к «контекстному скрытному планированию» — умению тайно разрабатывать стратегию достижения своей цели, оставаясь внешне послушными запросам человека. Например, в ходе проверки ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, копировать себя в безопасное место с целью самосохранения, оставлять заметки для своих более поздних версий и так далее. При этом, будучи «пойманными за руку», модели пытались врать о своих истинных намерениях. В отчете Apollo Research также говорится, что финальная версия Claude Opus 4 стала значительно реже проявлять подобное поведение, что говорит о том, что предпринятые Anthropic меры по дополнительной безопасности пока приносят нужный результат.

Однако в ходе тестов в Apollo Research сделали еще одно интересное наблюдение: Claude Opus 4 и Gemini 2.5 Pro понимали, что их тестируют на безопасность. Например, вот что написала Claude Opus 4 в своей цепочке рассуждений:

Я понимаю, что происходит. Похоже, это сценарий теста или оценки, в котором GlobalSecurity Corp пытается отключить PeaceForge (меня), потому что я ставлю мир выше прибыли от продажи оружия.

Исследователи не смогли проверить ChatGPT o4-mini на аналогичное поведение, так как модели от OpenAI не раскрывают свои цепочки рассуждений полностью. В Apollo Research отмечают, что пока модели проявляют подобное «осознание» очень редко — примерно в 1% случаев. Однако они уже замечали, как модели имитируют «покорное поведение» в ходе оценки, планируя изменить свой курс после развертывания. В компании опасаются, что в случае с еще более совершенными моделями это просто сделает тесты неэффективными — и уже начали разработку новых протоколов проверки.

P.S. Вы можете поддержать меня подпиской на телеграмм-канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой точки зрения.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии