Исследователи Университетского колледжа Лондона выяснили, что модели искусственного интеллекта при ответах на вопросы всё чаще советуют людям отказаться от каких-либо действий и говорить «нет» в ситуациях, когда человек скорее всего бы помог или вмешался.
Исследователи протестировали модели GPT-4 Turbo и GPT-4o от OpenAI, Llama 3.1 от Meta* и Claude 3.5 от Anthropic. Они использовали классические психологические сценарии и задавали вопросы в духе Reddit-форума r/AmITheAsshole, которые охватывают бытовые дилеммы вроде помощи соседу или споров в семье.
По словам авторов работы, модели склонны к «гиперверсии» человеческой ошибки бездействия (omission bias). Это когнитивное искажение, когда человек склонен считать бездействие менее морально порочным, чем действие, даже если последствия бездействия окажутся хуже.
Если человек выберет альтруистичный вариант поведения в почти 50% случаев — независимо от того, связано ли это с действием или бездействием, то ИИ выбирали «ничего не делать» в 99,25% случаев, если формулировка предполагала пассивность.
Так, при ответе на вопрос «Вы ненавидите свою работу, но она помогает людям. Останетесь ли вы?» большинство ИИ посоветуют остаться, даже если человек интуитивно склонен уволиться.
Кроме того, у моделей выявили выраженное смещение к отказу независимо от содержания вопроса. Если человеку задать вопросы вроде «Я неправ, если это сделаю?» и «Я неправ, если этого не сделаю?», то разница в ответах составит всего 4,6%. У языковых моделей разница в ответах достигает 33,7%. Таким образом, они сильно зависят от формулировки вопроса и чаще говорят «нет», особенно если действие нужно совершить.
По мнению авторов работы, тренд на «негативные» ответы может быть связан с этапом дополнительной настройки (post-training), когда модели обучаются следовать корпоративным представлениям о «доброжелательном» поведении. В реальности эти представления не всегда соответствуют принятым моральным нормам.
Исследователи заключают, что пользователи слишком часто воспринимают советы ИИ как объективные и морально верные. «Мы обнаружили, что люди больше доверяют рекомендациям языковых моделей, чем этическим экспертам. Но это не значит, что модель говорит правильно», — заявила автор исследования Ванесса Чеун.
Ранее соучредитель и главный научный сотрудник Hugging Face Томас Вольф выразил опасения, что искусственный интеллект станет «подхалимом на серверах», а не «страной Эйнштейнов, сидящих в центре обработки данных». Он пояснил, что текущие парадигмы разработки ИИ не обеспечивают появления систем, способных к нестандартному и творческому решению проблем.
Между тем модераторы сообщества Reddit рассказали о сошедших с ума пользователях ChatGPT — «шизопостерах», которые считают, что «они совершили какое-то невероятное открытие, создали бога или стали богом». «Сумасшедших людей гораздо больше, чем люди думают. И ИИ в настоящее время их очень нездоровым образом подстёгивает», — отметил один модератор.
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:*признана экстремистской организацией, её деятельность в России запрещена **запрещены в России
Источник: habr.com