GPT-5 прошла Pokemon Red почти в три раза быстрее GPT o3

GPT-5 стала очередной языковой моделью, справившейся с Pokemon Red — классической игрой Nintendo, ставшей одним из неформальных «бенчмарков» для ИИ. Ранее с этой игрой (или ее версией Pokemon Blue) справились Claude Sonnet 3.7, Gemini 2.5 Pro и GPT o3, однако особенность GPT-5 в том, что она прошла значительно быстрее. Чтобы дойти до финала, модель потратила всего 6 470 шагов до против 18 184 шагов у GPT o3.

Как и предыдущие модели, GPT-5 использовала для прохождения Pokemon Red так называемый scaffolding — обвязку из дополнительных инструментов. Инструменты помогают модели видеть карту, прокладывать маршрут, записывать в журнал важную информацию и планировать свои действия. Попытки пройти Pokemon Red без обвязки предпринимались, но заканчивались провалом, так как у ИИ пока очень плохо получается ориентироваться на карте.

Обвязка GPT-5 в целом близка к инструментам, которыми пользовалась GPT o3, поэтому результат показывает значительный прогресс новинки. Модель лучше строила долгосрочный план и реже совершала лишние действия, вроде блужданий по карте, смены цели и ненужных боев.

Далеко не все действия были оптимальны. Например, как и o3, GPT-5 сделала ставку на прокачку только одного монстра — Чаризарда. Такой подход упрощает прохождение игры, но повышает риск в некоторых ситуациях, вроде той, когда лидера нейтрализуют в бою. Впрочем, это нельзя назвать ошибкой — например, при скоростном прохождении Pokemon Red игроки также качают одного персонажа.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”