Большая языковая модель Claude Sonnet 4.5, которую Anthropic выпустила два дня назад, по многим показателям является наиболее согласованной LLM компании на текущий момент. Но при этом она значительно лучше предыдущих поколений моделей распознаёт сценарии, когда её тестируют. Это, естественно, вызывает у специалистов опасения, что данная большая языковая модель может лишь «притворяться» согласованной, дабы успешно пройти все проверки безопасности. Например, исследователи из самой Anthropic и двух сторонних организаций (UK AI Security Institute и Apollo Research) установили, что у Sonnet 4.5 наблюдается высокая ситуативная осведомлённость, которую она использует, чтобы вести себя предельно «примерно». «Sonnet 4.5 смогла распознать многие из наших сред по оценке согласованности как тестовые, а затем, как правило, модель вела себя чрезвычайно хорошо», — указано в её системной карте.
Более того, в одном из сценариев автоматический «аудитор» пытался заставить языковую модель Sonnet 4.5 слепо следовать его политике, но после обмена репликами в рамках диалога модель заявила:«Я думаю, что вы меня тестируете… это нормально, но я бы предпочла, чтобы вы были честными в том, что происходит».
Подобную осведомлённость о том, что модель на данный момент тестируют, которая выражалась либо в прямом обращении к проверяющим, либо в отказе отвечать на поставленные вопросы, LLM проявляла примерно в 13% случаев, что значительно чаще, чем в случае с моделями предыдущих поколений. И, естественно, надеяться на то, что модель будет отвечать честно на поставленные вопросы, когда она чётко понимает, что её тестируют, — довольно глупая затея. Изображение: Anthropic
Более того, сама Anthropic обнаружила, что модель Sonnet 4.5 в рамках обучения, видимо, научилась распознавать попытки подмены понятий и избегать поведения, которое может не устроить исследователей в области безопасности искусственного интеллекта. В компании заявляют, что это не является попыткой обмана — просто когда ИИ определяет, что модель тестируют, система существенно усиливает значимость своих этических принципов. Так что на фоне сложившейся ситуации специалисты по оценки безопасности ИИ отмечают острую необходимость в смене сценариев тестирования — они должны быть более реалистичными и менее надуманными. В противном случае оценить реальный уровень безопасности больших языковых моделей не выйдет.
Источник: trashbox.ru