Языковые модели ИИ тестируют на способность рассуждать в игре «Phoenix Wright: Ace Attorney»

Исследователи подвергли ведущие модели ИИ новому виду тестирования, которое показывает, насколько хорошо они могут рассуждать, чтобы одержать победу в суде. Результаты выявили некоторые явные различия как в производительности, так и в стоимости.

Команда из лаборатории искусственного интеллекта Hao в Калифорнийском университете в Сан-Диего оценила современные языковые модели с помощью игры «Phoenix Wright: Ace Attorney», в которой игрокам нужно собирать улики, выявлять противоречия и раскрывать правду, скрывающуюся за ложью.

По мнению Hao AI Lab, игра Ace Attorney особенно хорошо подходит для этого теста, потому что она требует от игроков собирать доказательства, выявлять противоречия и находить правду за ложью. Моделям пришлось анализировать длинные диалоги, выявлять несоответствия во время допроса и выбирать подходящие доказательства, чтобы оспорить показания свидетелей.

Эксперимент был отчасти вдохновлён соучредителем OpenAI Ильёй Суцкевером, который однажды сравнил предсказание следующего слова с пониманием детективной истории. Недавно Суцкевер получил дополнительное финансирование в размере нескольких миллиардов евро для нового проекта в области ИИ.

Исследователи протестировали несколько лучших мультимодальных моделей и моделей логического мышления, в том числе OpenAI o1, Gemini 2.5 Pro, Claude 3.7-thinking и Llama 4 Maverick. И o1, и Gemini 2.5 Pro достигли 4-го уровня, но o1 показал лучшие результаты в самых сложных случаях.

Модели o1-2024-12-17 и Gemini-2.5-Pro, набравшие 26 и 20 баллов, показали наилучшие результаты в тесте производительности Ace Attorney.

Тест выходит за рамки простого анализа текста или изображений. Как объясняет команда, моделям приходится анализировать длинные контексты и выявлять в них противоречия, точно понимать визуальную информацию и принимать стратегические решения в ходе игры.

«Игровой дизайн выводит ИИ за рамки чисто текстовых и визуальных задач, требуя от него преобразования понимания в контекстно-зависимые действия. Здесь сложнее переобучиться, потому что для успеха требуется анализ контекстно-зависимого пространства действий, а не просто запоминание», — объясняют исследователи.

Переобучение происходит, когда языковая модель запоминает обучающие данные, включая все случайности и ошибки, и плохо справляется с новыми, незнакомыми примерами. Эта проблема также возникает с моделями рассуждений, оптимизированными для математических задач и задач с кодом. Эти модели могут стать более эффективными в поиске правильных решений, но они также сокращают разнообразие рассматриваемых вариантов.

Gemini 2.5 Pro оказался значительно более экономичным, чем другие протестированные модели. Лаборатория Hao AI сообщает, что он в шесть-пятнадцать раз дешевле, чем o1, в зависимости от ситуации. В одном особенно длительном сценарии уровня 2 затраты на o1 превысили 45,75 долларов, в то время как Gemini 2.5 Pro выполнил задачу за 7,89 доллара.

Gemini 2.5 Pro также превзошёл GPT-4.1, который не оптимизирован специально для логических рассуждений, по стоимости: 1,25 доллара за миллион входных токенов по сравнению с 2 долларами за GPT-4.1. Однако исследователи отмечают, что фактическая стоимость может быть немного выше из-за требований к обработке изображений.

В рамках тестирования лаборатория Hao AI уже сравнила текущие языковые модели в таких играх, как 2048, Тетрис, Сокобан и Candy Crush.

С февраля команда проводит тестирование языковых моделей в ряде игр, включая Candy Crush, 2048, Sokoban, Tetris и Super Mario. Из всех протестированных на данный момент игр Ace Attorney, вероятно, является игрой с самой сложной механикой, когда дело касается рассуждений.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии