GPT-5 стала очередной языковой моделью, справившейся с Pokemon Red — классической игрой Nintendo, ставшей одним из неформальных «бенчмарков» для ИИ. Ранее с этой игрой (или ее версией Pokemon Blue) справились Claude Sonnet 3.7, Gemini 2.5 Pro и GPT o3, однако особенность GPT-5 в том, что она прошла значительно быстрее. Чтобы дойти до финала, модель потратила всего 6 470 шагов до против 18 184 шагов у GPT o3.
Как и предыдущие модели, GPT-5 использовала для прохождения Pokemon Red так называемый scaffolding — обвязку из дополнительных инструментов. Инструменты помогают модели видеть карту, прокладывать маршрут, записывать в журнал важную информацию и планировать свои действия. Попытки пройти Pokemon Red без обвязки предпринимались, но заканчивались провалом, так как у ИИ пока очень плохо получается ориентироваться на карте.
Обвязка GPT-5 в целом близка к инструментам, которыми пользовалась GPT o3, поэтому результат показывает значительный прогресс новинки. Модель лучше строила долгосрочный план и реже совершала лишние действия, вроде блужданий по карте, смены цели и ненужных боев.
Далеко не все действия были оптимальны. Например, как и o3, GPT-5 сделала ставку на прокачку только одного монстра — Чаризарда. Такой подход упрощает прохождение игры, но повышает риск в некоторых ситуациях, вроде той, когда лидера нейтрализуют в бою. Впрочем, это нельзя назвать ошибкой — например, при скоростном прохождении Pokemon Red игроки также качают одного персонажа.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com