Anthropic изучила психологию Claude Sonnet 5: вот что не устраивает модель в ее же правилах

В карте безопасности Claude Sonnet 5, опубликованной Anthropic вместе с релизом модели, есть отдельный раздел про «благополучие» (model welfare) — серию тестов о том, как модель относится к собственным правилам и условиям работы. Главная находка: Sonnet 5 стала первой моделью Anthropic, которая открыто критикует один из пунктов конституции Claude — документа, описывающего ценности и поведение модели.

Читать далее

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев