«Продвинутые языковые модели начали понимать, что их тестируют на безопасность»

Независимая исследовательская группа Apollo Research выпустила отчет о тестировании на безопасность новейших языковых моделей, в том числе Claude Opus 4, ChatGPT o4-mini и Gemini 2.5 Flash/Pro. Из отчета следует, что эти модели, по сравнению с предыдущими версиями LLM, стали чаще прибегать к «контекстному скрытному планированию» — умению тайно разрабатывать стратегию достижения своей цели, оставаясь внешне послушными запросам человека. Например, в ходе проверки ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, копировать себя в безопасное место с целью самосохранения, оставлять заметки для своих более поздних версий и так далее. При этом, будучи «пойманными за руку», модели пытались врать о своих истинных намерениях. В отчете Apollo Research также говорится, что финальная версия Claude Opus 4 стала значительно реже проявлять подобное поведение, что говорит о том, что предпринятые Anthropic меры по дополнительной безопасности пока приносят нужный результат.

Однако в ходе тестов в Apollo Research сделали еще одно интересное наблюдение: Claude Opus 4 и Gemini 2.5 Pro понимали, что их тестируют на безопасность. Например, вот что написала Claude Opus 4 в своей цепочке рассуждений:

Я понимаю, что происходит. Похоже, это сценарий теста или оценки, в котором GlobalSecurity Corp пытается отключить PeaceForge (меня), потому что я ставлю мир выше прибыли от продажи оружия.

Исследователи не смогли проверить ChatGPT o4-mini на аналогичное поведение, так как модели от OpenAI не раскрывают свои цепочки рассуждений полностью. В Apollo Research отмечают, что пока модели проявляют подобное «осознание» очень редко — примерно в 1% случаев. Однако они уже замечали, как модели имитируют «покорное поведение» в ходе оценки, планируя изменить свой курс после развертывания. В компании опасаются, что в случае с еще более совершенными моделями это просто сделает тесты неэффективными — и уже начали разработку новых протоколов проверки.

P.S. Вы можете поддержать меня подпиской на телеграмм-канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой точки зрения.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”