Google DeepMind запустила Game Arena — бенчмарк с настольными играми для тестирования LLM

Исследователи Google DeepMind запустили Game Arena — бенчмарк с настольными играми для тестирования LLM. Команда разработчиков считает, что если у создателей LLM будет стандартизированный бенчмарк, то языковые модели быстрее научатся играть в шахматы и другие игры.

Game Arena развернули на Kaggle. На платформе уже есть шахматные турниры для языковых моделей. В ближайшее время появится поддержка «Го» и «Мафии». Разработчики планируют адаптировать и другие стратегические настольные игры с соревновательными элементами.

В бенчмарке пользователи могут выбрать агентов на базе языковых моделей 3, Gemini 2.5 Pro, Claude Opus 4, Grok 4 и запустить матч. Во время тестирования языковые модели не могут пользоваться возможностями игровых движков и полагаются только на систему распознавания изображений. Например, играя в шахматы, нейросеть не может обращаться к движку Stockfish, чтобы получить список возможных ходов. Можно только сканировать доску.

Также на площадке действует система валидации ходов. Если нейросеть попытается нарушить правила, то бенчмарк не даст ей этого сделать и предложит выбрать другую позицию. На каждый ход даётся по три попытки выбора позиции. Если все три раза языковая модель будет нарушать правила, то система засчитает поражение.

Пока в бенчмарке реализованы турниры по круговой схеме, в которой каждый нейросетевой агент успевает сыграть со всеми противниками. Позже появятся турниры на выбывание и другие схемы.

В честь запуска бенчмарка Google проведёт публичный турнир с 5 по 7 августа. В нём примут участие Claude Opus 4, DeepSeek-R1, Gemini 2.5 Pro, Gemini 2.5 Flash, Kimi 2-K2-Instruct, o3, o4-mini и Grok 4. Матчи будут стримить в социальных сетях chess.com, а итоги подведёт Магнус Карлсен.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”