В Anthropic сообщили, что дали своим моделям Claude Opus 4 / 4.1 возможность прекращать диалог в редких случаях, когда пользователь продолжительное время оскорбляет модель или общается с ней некорректно. В такой ситуации Claude выведет сообщение о завершении беседы, а вместо поля для набора текста пользователь сможет начать новый чат, отправить обратную связь разработчикам или отредактировать свои прошлые сообщения и перезапустить диалог. Функция запущена только в чат-версии и не распространяется на API.
Функция разработана в рамках программы AI Welfare, цель которой — обеспечить «благополучие» ИИ. В ходе предварительного тестирования Claude Opus 4 исследователи обнаружили, что модель негативно реагирует на хамство в ее сторону. Модель показала выраженное нежелание отвечать на вредоносные запросы, а также демонстрировала что-то вроде «стресса» в подобных случаях. Когда Claude давали инструмент для завершения диалога — модель активно использовала его.
Разработчики отмечают, что модель будет завершать диалог только в крайних случаях, сначала пытаясь перенаправить его в конструктивное русло. Большинство пользователей не заметят появления этой функции.
Также в Anthropic отметили, что на текущем этапе не уверены в потенциальном моральном статусе Claude и других языковых моделей. Однако они относятся к этой проблеме серьезно, поэтому решили в рамках программы AI Welfare дать ИИ ряд инструментов для улучшения «благополучия» модели.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com