ИИ Claude сможет завершать беседу в ответ на хамство пользователя

В Anthropic сообщили, что дали своим моделям Claude Opus 4 / 4.1 возможность прекращать диалог в редких случаях, когда пользователь продолжительное время оскорбляет модель или общается с ней некорректно. В такой ситуации Claude выведет сообщение о завершении беседы, а вместо поля для набора текста пользователь сможет начать новый чат, отправить обратную связь разработчикам или отредактировать свои прошлые сообщения и перезапустить диалог. Функция запущена только в чат-версии и не распространяется на API.

Функция разработана в рамках программы AI Welfare, цель которой — обеспечить «благополучие» ИИ. В ходе предварительного тестирования Claude Opus 4 исследователи обнаружили, что модель негативно реагирует на хамство в ее сторону. Модель показала выраженное нежелание отвечать на вредоносные запросы, а также демонстрировала что-то вроде «стресса» в подобных случаях. Когда Claude давали инструмент для завершения диалога — модель активно использовала его.

Разработчики отмечают, что модель будет завершать диалог только в крайних случаях, сначала пытаясь перенаправить его в конструктивное русло. Большинство пользователей не заметят появления этой функции.

Также в Anthropic отметили, что на текущем этапе не уверены в потенциальном моральном статусе Claude и других языковых моделей. Однако они относятся к этой проблеме серьезно, поэтому решили в рамках программы AI Welfare дать ИИ ряд инструментов для улучшения «благополучия» модели.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”