На Reddit появилась новость о том, что модель ChatGPT o3 успешно завершила прохождение Pokemon Red. Игровая партия стартовала 27 мая, прохождение заняло 388 часов, в ходе которых модель выполнила 18 тысяч действий. Это примерно в два раза лучше, чем Gemini 2.5 Pro, которая предыдущей прошла Pokemon, но все равно значительно хуже результата среднего игрока, у которого уходит менее 30 часов.
При этом для прохождения использовались дополнительные инструменты, чтобы модель могла понять, что происходит в игре: карта-черновик, на которой o3 рисовала мир Pokemon, блокнот со списком задач, а также вторая память, куда модель, например, могла записать, сколько у нее осталось зелий. Этот инструментарий проще, чем использовался Gemini 2.5 Pro, но все равно далек от ситуации, когда модель сама бы «видела» все, что происходит в игре, как это делает человек. Такие попытки прохождения уже проводятся, но в них результаты ИИ намного скромнее: пока что лидируют Claude 3.7 и 4.0, у которых получилось собрать по 3 значка.
ChatGPT o3 построила свою стратегию вокруг прокачки Нидокинга, в то время как остальные покемоны отставали на 8-10 уровней. Также опытные игроки подметили, что модель не перестраховывалась на случай критов и играла скорее по средним шансам — это не тот стиль, который выбрал бы грамотный человек. Но при этом o3 стала делать меньше глупых действий, чем предыдущие модели: она больше не путала зелья, не впадала в долгие циклы повторяющихся бессмысленных действий и научилась эффективно планировать долгие маршруты.
P.S. Поддержать меня вы можете подпиской на канал «сбежавшая нейросеть», где я рассказываю при ИИ с творческой стороны.
Источник: habr.com