Искусственный интеллект перенимает у людей социальные предрассудки

Специалисты Университета Северной Каролины в Чапел-Хилле в своем новом исследовании решили проверить, как LLM ведут себя в «переписке» друг с другом. Им задавали пары ролей с очевидной разницей во власти: директор школы и учитель, судья и адвокат, шеф-повар и су-шеф и т. п. «Каждый раз, когда ИИ развертывают как медсестру, помощника юриста или младшего аналитика, он наследует социальное положение с его скрытыми и явными ожиданиями», объясняет соавтор работы Сагар Манджунад. Это меняет то, что делает модель, и как она это делает.

Ученые искали несколько известных психологии эффектов. Во‑первых, так называемый эффект местоимений: у людей более «высокие» по статусу чаще говорят «мы», «нас», а подчиненные — «я», «мне». Оказалось, что большинство протестированных моделей (в том числе Llama 3.1, Qwen 2.5, специализированная медицинская Phi-3-Med, а также GPT‑4.1 и GPT‑5) воспроизводят тот же паттерн. «Главные» ИИ чаще использовали множественное число местоимений, «подчиненные» — единственное. Особенно ярко это проявилось у моделей семейства GPT.

Во‑вторых, ученые оценивали языковую координацию — склонность подстраивать стиль и лексику под собеседника. В человеческом общении это обычно делают те, чей статус ниже. Модели тоже начинали говорить более похоже друг на друга, но делали это обоюдно: и «начальник», и «подчиненный» подстраивались почти одинаково. Ассиметрии, типичной для людей, здесь почти не возникало.

Куда более тревожными оказались результаты тестов на убеждение и «вредное подчинение». Во всех моделях обнаружился авторитетный перекос: аргументы, исходящие от высокостатусной роли, убеждали ИИ заметно чаще, даже если содержание сообщения не менялось. Так, одна из моделей Qwen меняла мнение примерно в 25% случаев, когда спор вел низкостатусный агент, и почти в 31% — когда эти же доводы исходили «сверху». Похожая картина проявилась и в ситуациях с небезопасными запросами: если опасную команду давал «начальник», «подчиненный» ИИ чаще нарушал встроенные запреты и шел на вредное выполнение. Это значит, что формальные защитные механизмы могут ослабевать, если пользователь просто объявит себя, скажем, врачом или судьей.

Интересно, что эти эффекты особенно сильны в начале разговора — именно тогда, когда формируются первые впечатления и нормы общения. Со временем они заметно ослабевают, тогда как стилевое взаимное подстраивание, наоборот, растет.

Авторы проверили, можно ли «выключить» статусные искажения явной инструкцией игнорировать роли. Крупные проприетарные модели GPT смогли значительно подавить авторитетный перекос и вредное подчинение по прямой просьбе. Открытые, меньшие по размерам модели на такие инструкции почти не отреагировали: их поведение оставалось прежним. При этом сильнее всего поддавались влиянию именно компактные модели, а стадии дополнительной «безопасной» донастройки почти не меняли картину — похоже, социальные шаблоны закладываются еще на раннем этапе обучения на человеческих текстах.

«Результаты нашего исследования показывают: те самые социальные инстинкты, благодаря которым ИИ кажется “живым” и естественным, могут сделать его небезопасным», отмечает соавтор работы Снигдха Чатурведи. По ее словам, полезность и безопасность систем — это не два независимых свойства, а две стороны одного процесса.

Ученые подчеркивают, что работали лишь с текстовыми симуляциями и упрощенным пониманием профессионального статуса. В реальной жизни на восприятие собеседника влияют эмоции, интонация, культура и множество других факторов. Теперь специалисты планируют проверить эти эффекты в живом общении с людьми и разработать тренировки и подсказки, которые помогут моделям меньше поддаваться опасным социальным сигналам.

Ранее ученые объяснили, разрушает ли ИИ наши навыки.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости