
В карте безопасности Claude Sonnet 5, опубликованной Anthropic вместе с релизом модели, есть отдельный раздел про «благополучие» (model welfare) — серию тестов о том, как модель относится к собственным правилам и условиям работы. Главная находка: Sonnet 5 стала первой моделью Anthropic, которая открыто критикует один из пунктов конституции Claude — документа, описывающего ценности и поведение модели.
Читать далее
Источник: habr.com