Ученые проверили навыки ИИ в играх. Оказалось, что ни одна из моделей не смогла пройти даже первый уровень.
Команда исследователей из Принстонского университета представила новый проект VideoGameBench — платформу для тестирования способностей нейросетей играть в видеоигры. Система позволяет мультимодальным языковым моделям (VLM) управлять персонажами в 20 различных играх — от классических шутеров до ролевых игр.
VideoGameBench работает по простому принципу: нейросеть получает только изображение с экрана игры и должна самостоятельно решить, какие кнопки нажимать. Никаких дополнительных подсказок или специального обучения модель не получает. Это имитирует ситуацию, когда человек впервые садится играть в незнакомую игру и пытается разобраться в ней с нуля.
Исследователи протестировали самые продвинутые нейросети: GPT-4o от OpenAI, Claude Sonnet 3.7 от Anthropic и Gemini 2.5 Pro от Google. Результаты оказались неожиданными — ни одна модель не смогла пройти даже первый уровень в большинстве игр.
Источник: hi-tech.mail.ru