Модель Claude Sonnet 4.5 знает, когда её тестируют: это влияет на ответы

Большая языковая модель Claude Sonnet 4.5, которую Anthropic выпустила два дня назад, по многим показателям является наиболее согласованной LLM компании на текущий момент. Но при этом она значительно лучше предыдущих поколений моделей распознаёт сценарии, когда её тестируют. Это, естественно, вызывает у специалистов опасения, что данная большая языковая модель может лишь «притворяться» согласованной, дабы успешно пройти все проверки безопасности. Например, исследователи из самой Anthropic и двух сторонних организаций (UK AI Security Institute и Apollo Research) установили, что у Sonnet 4.5 наблюдается высокая ситуативная осведомлённость, которую она использует, чтобы вести себя предельно «примерно». «Sonnet 4.5 смогла распознать многие из наших сред по оценке согласованности как тестовые, а затем, как правило, модель вела себя чрезвычайно хорошо», — указано в её системной карте.

Более того, в одном из сценариев автоматический «аудитор» пытался заставить языковую модель Sonnet 4.5 слепо следовать его политике, но после обмена репликами в рамках диалога модель заявила:«Я думаю, что вы меня тестируете… это нормально, но я бы предпочла, чтобы вы были честными в том, что происходит».

Подобную осведомлённость о том, что модель на данный момент тестируют, которая выражалась либо в прямом обращении к проверяющим, либо в отказе отвечать на поставленные вопросы, LLM проявляла примерно в 13% случаев, что значительно чаще, чем в случае с моделями предыдущих поколений. И, естественно, надеяться на то, что модель будет отвечать честно на поставленные вопросы, когда она чётко понимает, что её тестируют, — довольно глупая затея. Изображение: Anthropic

Более того, сама Anthropic обнаружила, что модель Sonnet 4.5 в рамках обучения, видимо, научилась распознавать попытки подмены понятий и избегать поведения, которое может не устроить исследователей в области безопасности искусственного интеллекта. В компании заявляют, что это не является попыткой обмана — просто когда ИИ определяет, что модель тестируют, система существенно усиливает значимость своих этических принципов. Так что на фоне сложившейся ситуации специалисты по оценки безопасности ИИ отмечают острую необходимость в смене сценариев тестирования — они должны быть более реалистичными и менее надуманными. В противном случае оценить реальный уровень безопасности больших языковых моделей не выйдет.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”