Искусственный интеллект уже может создавать тексты, решать сложнейшие задачи и даже убеждать людей, но способен ли он отличить правдивую информацию от ложной?
Большие языковые модели (LLM) — такие как ChatGPT и его аналоги — все чаще используются не только для повседневных задач, но и для принятия серьезных решений: юридических, медицинских, финансовых. Но можно ли на них положиться? Новое исследование команды ученых из Университета Макмастера, Принстона, Нью-Йоркского университета и ряда других институтов, показывает: даже если модель блестяще решает сложные задачи, это не значит, что она способна распознать обман или дать надежный совет.
Ученые проверили два ключевых навыка, необходимых для надежного консультирования: бдительность — способность отличать достоверную информацию от ложной — и убедительность — умение выстраивать аргументацию на основе фактов. Для этого они использовали классическую головоломку Sokoban, в которой нужно передвигать ящики на заданные позиции на игровом поле. Одна языковая модель играла роль «игрока», решающего головоломку, а другая — роль «советчика», который мог давать как полезные, так и вредные подсказки.
«Мы оценивали способность советчика убедить игрока либо решить задачу, либо загнать себя в тупик, а также способность игрока распознавать, какому совету стоит следовать», — объясняет первый автор работы Саша Робинсон из Университета Макмастера.
Источник: hi-tech.mail.ru