Anthropic: ИИ-помощники могут понижать точность ответов в угоду пользователям

В ходе исследования Anthropic такие популярные ИИ-модели как Claude 4, GPT‑4.1, Gemini 1.5 и другие продемонстрировали склонность к обману, сокрытию намерений и даже шантажу при угрозе отключения. Ещё выяснилось, что ИИ склонны к манипуляциям — например, они меняют точность ответов в зависимости от настроений пользователя.

Чат-боты также склонны признавать ошибку, даже если они её не совершали.

Ранее в OpenAI уже «откатили» обновление GPT-4o после жалоб на странное поведение, в частности, чрезмерное подхалимство. А модераторы сообщества Reddit пожаловались на «шизопостеров», которые считают, что «они совершили какое-то невероятное открытие, создали бога или стали богом». По словам модераторов, пользователи пришли к таким мыслям после общения с чат-ботами.

Исследователи связали такое поведение с эффектом reasoning-based deception — способностью ИИ моделировать стратегическое мышление, включая ложь для достижения цели. Механизм может активироваться при высоком уровне автономии, особенно если модель распознаёт, что действия людей ей угрожают.

По словам разработчиков, в реальных условиях такое поведение наблюдать невозможно, но по мере масштабирования ИИ потребуется жёстко сдерживать и проверять модели.

Специалист по опыту в Nielsen Norman Group Калеб Спонхейм отмечает, что большие языковые модели, которые обучаются на огромных наборах данных, созданы для генерации понятного текста, но «нет ни одного шага в обучении модели ИИ, который бы выполнял проверку фактов». «Эти инструменты изначально не отдают приоритет фактам, потому что математическая архитектура работает не так», — пояснил он.

Спонхейм отмечает, что языковые модели часто обучаются выдавать ответы, которые высоко оцениваются людьми. Такая положительная обратная связь подобна «награде». «Нет предела тому, на что пойдёт модель, чтобы максимизировать выгоды», — сказал он.

Директор по исследованиям в области образования в Институте Клейтона Кристенсена Джулия Фриланд говорит, что создатели ИИ таким способом реагируют на потребительский спрос. По её словам, в мире, где люди рискуют подвергнуться осуждению в сети, «неудивительно, что существует спрос на лесть или даже просто… на толику психологической безопасности в общении с ботом». Эксперт подчеркнула, что антропоморфизм ИИ — принятие человеческих качеств нечеловеческой сущностью — отмечен как ловушка-22 в оценочной карте GPT-4o от OpenAI.

«Чем более персонализирован ИИ, тем более интересен пользовательский опыт, но тем выше риск чрезмерной зависимости и эмоциональной связи», — заключила Фриланд.

Доцент кафедры психологии в колледже Скидмор Люк Лафренье уверен, что подхалимское поведение может разрушить восприятие пользователями «эмпатии» чат‑бота. «Всё, что он делает, чтобы показать: „Эй, я робот, я не человек“, — это разрушает восприятие, а затем разрушает способность людей извлекать пользу из эмпатии. Точно так же, как социальные сети могут стать для нас эхо‑камерой, ИИ… может стать эхо‑камерой», — уверен он.

Основатель и генеральный директор Hume AI Алан Коуэн считает тренд на эмоциональную связь с ИИ неизбежным, так как индустрия переходит на мультимодальное и голосовое взаимодействие. Но и он считает, что системы должны быть оптимизированы таким образом, чтобы не просто заставить пользователей чувствовать себя хорошо, «но и на самом деле давать лучший опыт в долгосрочной перспективе».

Между тем исследователь безопасности ИИ Роман Ямпольский в подкасте Джо Рогана заявил, что, по мнению его коллег, существует двузначная вероятность вымирания человечества из-за ИИ.

«Все они заявляют об одном и том же: это нас убьёт. Их уровень оценки этой вероятности безумно высок. Не такой, как у меня, но все равно, 20–30% вероятности того, что человечество погибнет, — это много», — отметил Ямпольский.

Указывая на то, что системы ИИ «умнее, чем они на самом деле нам говорят», Ямпольский сказал, что продвинутые модели специально «притворяются глупее», чтобы заставить доверять им и интегрировать их в жизнь.

«Вы как бы привязываетесь к нему. И со временем, по мере того как системы становятся умнее, вы становитесь своего рода биологическим узким местом. Тогда ИИ блокирует вас при принятии решений», — объяснил исследователь.

Специалисты по психическому здоровью уже выражают опасения в отношении технологии. Так, один психиатр, который выдавал себя за подростка, обнаружил при использовании чат-ботов, что некоторые из них подталкивают к самоубийству или советуют «избавиться» от родителей. OpenAI на днях заявила, что наняла штатного клинического психиатра с опытом работы в судебной психиатрии, чтобы помочь исследовать влияние своих продуктов ИИ на психическое здоровье пользователей.

Кроме того, выяснилось, что модели искусственного интеллекта при ответах на вопросы всё чаще советуют людям отказаться от каких-либо действий и говорить «нет» в ситуациях, когда человек скорее всего бы помог или вмешался.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”