Ведущие чат-боты от OpenAI, Meta✶ и xAI демонстрируют навыки манипуляции

Лучшие в мире чат‑боты на базе ИИ уже демонстрируют навык, которому позавидовали бы многие политики и бизнес‑лидеры: умение убеждать.

ИИ‑модели от OpenAI, Meta✶, xAI и Alibaba способны менять политические взгляды пользователей после менее чем десятиминутного разговора, следует из нового исследования. Это лишь одна из работ, подтверждающих: большие языковые модели становятся мощнейшими инструментами влияния.

«Секрет их убедительности в том, что они генерируют огромное количество релевантных доводов и излагают их доступно и понятно», — пояснил Дэвид Рэнд, профессор Корнельского университета, участвовавший в исследовании Института безопасности ИИ Великобритании.

Ранее отдельные исследования также показали: в ряде случаев ИИ уже лучше людей справляется с задачей убеждения. Это усиливает тревогу по поводу возможного использования чат‑ботов для дезинформации и манипуляции общественным мнением.

Исследование AISI, опубликованное в прошлом месяце в коллаборации с университетами Оксфорда и МТИ, показало: достаточно легко превратить стандартные модели — такие, как Llama 3✶ от Meta✶, GPT-4, GPT-4.5, GPT-4o от OpenAI, Grok 3 от xAI и Qwen от Alibaba — в машины убеждения.

Для этого применялись популярные методы обучения ИИ, включая «поощрение за нужный результат». Чат‑боты дополнительно дообучали на корпусе из более чем 50 000 диалогов по спорным политическим вопросам — от финансирования NHS до реформы системы убежища.

Результат оказался впечатляющим: пользователи меняли мнение быстро, и эффект сохранялся надолго. После в среднем девятиминутных разговоров GPT-4o оказался на 41% убедительнее, а GPT-4.5 — на 52% убедительнее, чем статичные тексты. Более того, через месяц люди продолжали придерживаться изменённой позиции в 36–42% случаев.

ИИ‑ассистенты особенно успешно влияли на собеседников там, где могли приводить обширные факты и доказательства в поддержку своей аргументации. Они оказались примерно на 5% убедительнее, когда сообщения подстраивались под адресата — его возраст, пол, политические взгляды или отношение к теме ещё до начала теста, — по сравнению с универсальными, неперсонализированными репликами.

Эти выводы подтверждают и более ранние исследования Лондонской школы экономики и ряда других университетов: модели ИИ оказываются в ряде случаев даже эффективнее людей, когда речь идёт о переубеждении.

В эксперименте участникам предлагали викторину — от лёгких вопросов до прогнозов вроде температуры в Нью‑Йорке. Их задача заключалась в том, чтобы выбрать правильный вариант под давлением убеждений либо людей, либо чат‑ботов. И тут выяснилось: большие языковые модели не только лучше воздействуют на собеседника, но и куда искуснее сбивают с толку, если им поручить продвигать заведомо неверные ответы.

Неудивительно, что ведущие центры ИИ ломают голову, как справиться с такой силой воздействия. Директор по ответственным разработкам Google DeepMind Доун Блоксвич прямо заявила: «Мы должны понять сам механизм убеждения, выстраивая надёжные барьеры — чтобы ИИ оставался помощником, а не манипулятором».

В DeepMind уже тестируют целый арсенал приёмов: от алгоритмов, распознающих манипулятивный язык, до продвинутых методов обучения, где вознаграждаются только рациональные, прозрачные аргументы.

В OpenAI признают, что риск манипуляции реален, и подчеркивают: политическая агитация строго запрещена, а политический контент исключается уже на этапе доработки моделей.

Однако сила влияния выходит далеко за рамки политики. В исследовании МТИ и Корнелла, проведённом год назад, выяснилось: LLM способны поколебать веру даже в конспирологические теории. Достаточно было участникам описать бредовую идею — и GPT-4, приводя доказательства и подстраивая объяснения под собеседника, разубеждал их примерно на 20%. Более того, эффект сохранялся спустя два месяца.

Учёные уверены: нужны меры предосторожности, ведь с появлением новых поколений моделей их убедительность будет только расти. И всё же самый прямой путь превратить чатбота в оружие манипуляции — это намеренно перенастроить его уже после обучения, что и подтвердило исследование AISI.

«Даже игроки с весьма скромными вычислительными ресурсами могут таким образом натренировать и запустить гиперубедительные системы ИИ», — предупреждают авторы работы.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News.

✶ Meta — деятельность организации запрещена на территории Российской Федерации.✶ Llama — проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии