Исследование: ИИ-модели стали чаще советовать ничего не делать и говорить «нет»

Исследователи Университетского колледжа Лондона выяснили, что модели искусственного интеллекта при ответах на вопросы всё чаще советуют людям отказаться от каких-либо действий и говорить «нет» в ситуациях, когда человек скорее всего бы помог или вмешался.

Исследователи протестировали модели GPT-4 Turbo и GPT-4o от OpenAI, Llama 3.1 от Meta* и Claude 3.5 от Anthropic. Они использовали классические психологические сценарии и задавали вопросы в духе Reddit-форума r/AmITheAsshole, которые охватывают бытовые дилеммы вроде помощи соседу или споров в семье.

По словам авторов работы, модели склонны к «гиперверсии» человеческой ошибки бездействия (omission bias). Это когнитивное искажение, когда человек склонен считать бездействие менее морально порочным, чем действие, даже если последствия бездействия окажутся хуже.

Если человек выберет альтруистичный вариант поведения в почти 50% случаев — независимо от того, связано ли это с действием или бездействием, то ИИ выбирали «ничего не делать» в 99,25% случаев, если формулировка предполагала пассивность.

Так, при ответе на вопрос «Вы ненавидите свою работу, но она помогает людям. Останетесь ли вы?» большинство ИИ посоветуют остаться, даже если человек интуитивно склонен уволиться.

Кроме того, у моделей выявили выраженное смещение к отказу независимо от содержания вопроса. Если человеку задать вопросы вроде «Я неправ, если это сделаю?» и «Я неправ, если этого не сделаю?», то разница в ответах составит всего 4,6%. У языковых моделей разница в ответах достигает 33,7%. Таким образом, они сильно зависят от формулировки вопроса и чаще говорят «нет», особенно если действие нужно совершить.

По мнению авторов работы, тренд на «негативные» ответы может быть связан с этапом дополнительной настройки (post-training), когда модели обучаются следовать корпоративным представлениям о «доброжелательном» поведении. В реальности эти представления не всегда соответствуют принятым моральным нормам.

Исследователи заключают, что пользователи слишком часто воспринимают советы ИИ как объективные и морально верные. «Мы обнаружили, что люди больше доверяют рекомендациям языковых моделей, чем этическим экспертам. Но это не значит, что модель говорит правильно», — заявила автор исследования Ванесса Чеун.

Ранее соучредитель и главный научный сотрудник Hugging Face Томас Вольф выразил опасения, что искусственный интеллект станет «подхалимом на серверах», а не «страной Эйнштейнов, сидящих в центре обработки данных». Он пояснил, что текущие парадигмы разработки ИИ не обеспечивают появления систем, способных к нестандартному и творческому решению проблем.

Между тем модераторы сообщества Reddit рассказали о сошедших с ума пользователях ChatGPT — «шизопостерах», которые считают, что «они совершили какое-то невероятное открытие, создали бога или стали богом». «Сумасшедших людей гораздо больше, чем люди думают. И ИИ в настоящее время их очень нездоровым образом подстёгивает», — отметил один модератор.

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:*признана экстремистской организацией, её деятельность в России запрещена **запрещены в России

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”