ChatGPT o3 прошла Pokemon Red — но до человеческих игроков все равно далеко

На Reddit появилась новость о том, что модель ChatGPT o3 успешно завершила прохождение Pokemon Red. Игровая партия стартовала 27 мая, прохождение заняло 388 часов, в ходе которых модель выполнила 18 тысяч действий. Это примерно в два раза лучше, чем Gemini 2.5 Pro, которая предыдущей прошла Pokemon, но все равно значительно хуже результата среднего игрока, у которого уходит менее 30 часов.

При этом для прохождения использовались дополнительные инструменты, чтобы модель могла понять, что происходит в игре: карта-черновик, на которой o3 рисовала мир Pokemon, блокнот со списком задач, а также вторая память, куда модель, например, могла записать, сколько у нее осталось зелий. Этот инструментарий проще, чем использовался Gemini 2.5 Pro, но все равно далек от ситуации, когда модель сама бы «видела» все, что происходит в игре, как это делает человек. Такие попытки прохождения уже проводятся, но в них результаты ИИ намного скромнее: пока что лидируют Claude 3.7 и 4.0, у которых получилось собрать по 3 значка.

ChatGPT o3 построила свою стратегию вокруг прокачки Нидокинга, в то время как остальные покемоны отставали на 8-10 уровней. Также опытные игроки подметили, что модель не перестраховывалась на случай критов и играла скорее по средним шансам — это не тот стиль, который выбрал бы грамотный человек. Но при этом o3 стала делать меньше глупых действий, чем предыдущие модели: она больше не путала зелья, не впадала в долгие циклы повторяющихся бессмысленных действий и научилась эффективно планировать долгие маршруты.

P.S. Поддержать меня вы можете подпиской на канал «сбежавшая нейросеть», где я рассказываю при ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”