ИИ-модель Google Gemini «запаниковала», играя в Pokémon

Google и Anthropic изучают, как их новейшие модели ИИ справляются с играми в Pokémon — результаты могут быть как забавными, так и поучительными. На этот раз Google DeepMind написал в отчёте, что Gemini 2.5 Pro впадает в панику, когда его покемоны близки к смерти. Согласно отчёту, это может привести к «качественно заметному ухудшению способности модели к рассуждению».

Тестирование ИИ — или процесс сравнения производительности различных моделей ИИ — это сомнительное дело, которое часто даёт мало информации о реальных возможностях конкретной модели. Но некоторые исследователи считают, что изучение того, как модели ИИ играют в видеоигры, может быть полезным (или, по крайней мере, забавным).

За последние несколько месяцев два разработчика, не связанные с Google и Anthropic, запустили на Twitch стримы под названием «Gemini играют в Pokémon» и «Claude играет в Pokémon», где любой желающий может в реальном времени наблюдать за тем, как ИИ пытается пройти детскую видеоигру, выпущенную более 25 лет назад.

Каждый стрим отображает процесс «рассуждений» ИИ — или перевод на естественный язык того, как ИИ оценивает задачу и приходит к ответу, — что даёт нам представление о том, как работают эти модели.

Хотя прогресс в развитии этих моделей ИИ впечатляет, они всё ещё не очень хорошо играют в Pokémon. Gemini требуется сотни часов, чтобы пройти игру, которую ребёнок мог бы пройти в разы быстрее. Интересно наблюдать за тем, как ИИ проходит игру Pokémon, не столько из-за времени прохождения, сколько из-за того, как он ведёт себя на протяжении всего пути.

«В ходе прохождения игры Gemini 2.5 Pro попадает в различные ситуации, которые заставляют модель имитировать панику», — говорится в отчёте.

Такое состояние «паники» может привести к ухудшению работы модели, поскольку ИИ может внезапно перестать использовать определённые инструменты, имеющиеся в его распоряжении, на определённом этапе игры. Хотя ИИ не думает и не испытывает эмоций, его действия имитируют то, как человек может принимать неверные, поспешные решения в стрессовой ситуации, — захватывающая, но тревожная реакция.

«Такое поведение наблюдалось в достаточном количестве отдельных случаев, что не могло остаться без внимания участников чата Twitch активно замечали его», — говорится в отчёте.

Несмотря на недостатки, есть несколько способов, с помощью которых ИИ может превзойти игроков-людей. С выходом Gemini 2.5 Pro ИИ способен решать головоломки с впечатляющей точностью.

С некоторой помощью со стороны человека ИИ создал агентные инструменты — экземпляры Gemini 2.5 Pro, ориентированные на конкретные задачи, — для решения головоломок в игре и поиска эффективных маршрутов для достижения цели.

«С помощью всего лишь подсказки, описывающей физику валунов, и описания того, как проверить правильность пути, Gemini 2.5 Pro может в одно касание решить некоторые из этих сложных головоломок с валунами, которые необходимы для прохождения Road of Victory», — говорится в отчёте.

Поскольку Gemini 2.5 Pro проделал большую часть работы по созданию этих инструментов самостоятельно, Google предполагает, что текущая модель может создавать эти инструменты без участия человека. Кто знает, может быть, Gemini сам создаст модуль «не паникуй».

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”