GPT-5 закончила прохождение Pokemon Crystal, справившись с игрой за 9 517 шагов — примерно в 2,8 раза эффективнее, чем модель прошлого поколения GPT o3 (27 040 шагов). В комментариях к победе над финальным боссом Red пользователи в шутку называют игру «самым важным бенчмарком», хотя другие критикуют подобные эксперименты за отсутствие стандартизации.
Современные ИИ используют для прохождения игр вроде Pokemon Red и Crystal так называемый scaffolding — обвязку из инструментов, помогающих модели «видеть», что происходит в игре: данные из RAM, анализ скриншотов, внешняя память для записи важной информации и так далее. Само по себе использование инструментов не является чем-то плохим — приехавший в другой город человек также прибегает к «Яндекс.Картам» — но получается, что на результат влияет не только сам ИИ, но и то, насколько хорошо для него сделали scaffolding.
Но в случае с GPT-5 и GPT o3 обвязку делал один и тот же человек, так что сравнение этих двух моделей корректно. При прохождении Pokemon Crystal GPT-5 показала лучшее пространственное мышление, быстро проходя лабиринты, вроде базы Team Rocket и пазла с Farfetch’d. Также модель хорошо планировала долгие цепочки действий, совершая по 100+ шагов без галлюцинаций вроде попыток нажать на несуществующую кнопку или вызвать неправильное меню. В случае ошибок — GPT-5 анализировала их и меняла тактику.
При этом стиль игры GPT-5 все еще далек от идеального. Модель часто сравнивают со старательным 8-летним ребенком, который прочел гайды по игре и играет правильно, но без креативности.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com