Обучение ИИ доброжелательности снижает его фактическую точность

Ученые выяснили, что дружелюбные и «сочувствующие» чат‑боты на основе искусственного интеллекта могут чаще ошибаться и охотнее соглашаться с заблуждениями пользователей, чем их более нейтральные «коллеги».

Современные компании активно разрабатывают ИИ‑сервисы, которые не только отвечают на вопросы, но и создают ощущение тепла, поддержки и близости с пользователем. Отдельные платформы прямо позиционируют себя как «друзья» или романтические партнеры, и даже разработчики больших языковых моделей с универсальным назначение обучают их вести себя более эмпатично. При этом пользователи обычно предполагают, что смена стиля общения не влияет на точность ответов: если бот приятен в общении, значит, он не менее надежен в фактах, которые сообщает в ответ на запрос.

Группа ученых во главе с аспиранткой Оксфордского интернет‑института Луджаин Ибрагим решила проверить, так ли это. Ученые взяли пять разных языковых моделей — от сравнительно небольших до мощных (включая GPT‑4o) — и дообучили их, добившись теплого, эмпатичного стиля общения с пользователем. Для этого специалисты собрали 1617 реальных диалогов «человек–чат‑бот» и переписали 3667 ответов так, чтобы они звучали более участливо, но при этом строго сохраняли исходный смысл. Именно на этих переформулированных примерах модели «учили» быть теплее.

Затем оригинальные и «эмпатичные» версии сравнили на четырех типах задач: общие знания, опровержение распространенных заблуждений, распознавание конспирологических утверждений и ответы на медицинские вопросы. Было задействовано 1625 различных запросов и почти 440 тысяч наблюдений, а корректность ответов оценивали сначала ИИ‑система, затем — люди.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости