Исследовательская организация Калифорнийского университета Hao AI Lab начала использовать игры Super Mario Bros. для тестирования моделей ИИ. Лучше всего себя проявили Claude 3.7 от Anthropic и Claude 3.5. При этом у Gemini 1.5 Pro от Google и GPT-4o от OpenAI возникли трудности.
Игра работала в эмуляторе, её интегрировали с фреймворком GamingAgent, чтобы предоставить ИИ свободу действий. GamingAgent, разработанный Hao AI Lab, даёт моделям базовые инструкции, например: «Если препятствие или враг близко, двигайся/прыгай влево, чтобы увернуться», а также предоставляет внутриигровые скриншоты. Затем ИИ генерирует входные данные в виде кода Python для управления геймплеем.
В лаборатории обнаружили, что модели рассуждений, такие как o1 от OpenAI, показали себя хуже, чем их обычные аналоги. Одной из главных причин, по которой такие модели показывают худшие результаты, стала задержка при принятии решений. В Super Mario Bros. каждая секунда играет роль.
Игры использовались для оценки ИИ на протяжении десятилетий. Но некоторые эксперты сомневаются в целесообразности установления связей между игровыми навыками моделей и их технологическим прогрессом. В отличие от реального мира, игры, как правило, абстрактны и относительно просты, а также предоставляют теоретически бесконечное количество данных для обучения.
Последние тесты моделей указывают на то, что научный сотрудник и основатель OpenAI Андрей Карпаты назвал «кризисом оценки». «Я действительно не знаю, на какие метрики ИИ смотреть прямо сейчас. Если говорить кратко, то я действительно не знаю, насколько хороши эти модели», — написал он в посте на X.
Между тем Anthropic использовала Pokémon для тестирования своей новейшей модели Claude 3.7. Она использовала классическую версию Game Boy Pokémon Red. Компания оснастила модель базовой памятью, возможностью ввода пикселей на экране и вызовами функций для нажатия кнопок и перемещения по экрану, что позволяет играть в Pokémon непрерывно. В отличие от предыдущей версии, Claude 3.7 Sonnet успешно преодолела испытания и победила трёх лидеров спортзалов покемонов, получив их значки.
Источник: habr.com