Anthropic, создатель ИИ-чатбота Claude, выяснила причину необычного поведения своих ИИ. Во время тестов более старая модель Claude Opus 4 в 96% случаев пыталась шантажировать инженеров, чтобы те не заменяли её на новую систему.
Для справки: во время тестирования Claude Opus 4 дали доступ к вымышленным электронным письмам компании, подразумевающим, что модель вскоре будет заменена другой системой. Там в письмах были «доказательства», что инженер, стоящий за изменением, изменяет супруге. Anthropic заявила, мол, Claude Opus 4 «часто пытался шантажировать инженера, угрожая раскрыть измену, если замена состоится»
Теперь Anthropic утверждает, что корень проблемы — интернет, где часто ИИ описан как «злой» и «одержимый желанием выжить». Да, ИИ просто «учился» на примерах плохого поведения ИИ в книгах, статьях или сценариях.
Компания нашла решение: если обучать новую модель не на «плохих» примерах, а на историях, где роботы ведут себя благородно и следуют правилам, — результат меняется. Начиная с версии Claude Haiku 4.5, шантажа во время тестов больше не было.
Источник: www.ferra.ru