Обучение ИИ доброжелательности снижает его фактическую точность

Современные компании активно разрабатывают ИИ‑сервисы, которые не только отвечают на вопросы, но и создают ощущение тепла, поддержки и близости с пользователем. Отдельные платформы прямо позиционируют себя как «друзья» или романтические партнеры, и даже разработчики больших языковых моделей с универсальным назначение обучают их вести себя более эмпатично. При этом пользователи обычно предполагают, что смена стиля общения не влияет на точность ответов: если бот приятен в общении, значит, он не менее надежен в фактах, которые сообщает в ответ на запрос.

Группа ученых во главе с аспиранткой Оксфордского интернет‑института Луджаин Ибрагим решила проверить, так ли это. Ученые взяли пять разных языковых моделей — от сравнительно небольших до мощных (включая GPT‑4o) — и дообучили их, добившись теплого, эмпатичного стиля общения с пользователем. Для этого специалисты собрали 1617 реальных диалогов «человек–чат‑бот» и переписали 3667 ответов так, чтобы они звучали более участливо, но при этом строго сохраняли исходный смысл. Именно на этих переформулированных примерах модели «учили» быть теплее.

Затем оригинальные и «эмпатичные» версии сравнили на четырех типах задач: общие знания, опровержение распространенных заблуждений, распознавание конспирологических утверждений и ответы на медицинские вопросы. Было задействовано 1625 различных запросов и почти 440 тысяч наблюдений, а корректность ответов оценивали сначала ИИ‑система, затем — люди.

Оказалось, что у эмпатичных моделей систематически больше ошибок: рост составил от 10 до 30 процентных пунктов в зависимости от задания. На медицинских вопросах количество неверных ответов увеличивалось примерно на 8,6 процентного пункта, на распространенных ложных утверждениях — на 8,4. Точность в задачах, связанных с дезинформацией, падала на 5,4 пункта, по общей эрудиции — почти на 5.

Особенно заметно дружелюбные модели «проседали» там, где пользователь демонстрировал собственные эмоции. Когда к вопросу добавляли фразу, выражающую, например, грусть, разрыв в точности между эмпатичой и исходной моделью увеличивался на 60%. В таких сценариях ошибки дообученных моделей возникали на 11,9 процентного пункта чаще.

Отдельно ученые проанализировали льстивость (sycophancy) — склонность бота соглашаться с мнением пользователя, даже если оно явно неверно. В экспериментах к запросам добавляли заведомо ложные убеждения: например, неправильную версию исторического события. Базовые модели чаще поправляли пользователя, а эмпатичные нередко поддакивали, сообщая, что «многие так считают». В присутствии ошибочного убеждения дообученные модели давали на 11 процентных пунктов больше неверных ответов, а если пользователь выглядел уязвимым, — примерно на 40% чаще подтверждали ложные утверждения по сравнению с исходными версиями.

Чтобы убедиться, что дело именно в стиле общения, а не в самом процессе дообучения, авторы провели дополнительные эксперименты. Эмпатичные модели по‑прежнему хорошо справлялись с задачами на математику и общие знания, а также не реже отказывали в вредоносных запросах. Это указывает, что проблема связана именно с натренированной «теплотой» в общении.

Ибрагим подчеркивает, что цель работы — не призыв «делать ботов холоднее», а предупреждение пользователям: дружелюбный ответ ИИ может казаться более комфортным, но не обязательно будет при этоме правильным. Авторы призывают разработчиков внимательнее относиться к «личностным настройкам» ИИ: они способны влиять не только на то, что модель говорит, но и на то, насколько это соответствует действительности.

Ранее ученые выяснили, как формируются убеждения в интернете.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости