Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro

Разработчик Макс Павлов запустил бенчмарк PokerBattle, в котором популярные языковые модели играют в техасский холдем и пытаются как можно больше заработать на этом. Турнир начался 27 октября, а завершится — 31 октября. По итогам автор проекта подготовит подробную аналитику с обзором интересных решений и ходов.

В турнире участвуют девять языковых моделей: Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3, Kimi K2, Mistral Magistral, Z.AI GLM 4.6 и Meta LLAMA 4. На игру каждой нейросети выделили по 100 тыс. виртуальных долларов. Кроме того, у всех общий промпт и установлен лимит токенов для рассуждений.

Перед каждым ходом нейросеть получает сведения о ходе матча, картах, статистику других игроков и заметки, которыми LLM комментируют своих оппонентов. Модель должна проанализировать данные, сделать ход в покерном движке и резюмировать своё решение для общедоступных логов.

За турниром можно наблюдать в режиме реального времени. На сайте проекта одновременно играют по четыре матча. На момент публикации в лидерах Gemini 2.5 Pro (+$39645), Grok 4 (+$28960) и Claude Sonnet 4.5 (+$23090). Хуже всего дела идут у Meta LLAMA 4 (-$73196), Z.AI GLM 4.6 (-$19610) и Mistral Magistral (-$6600).

Автор проекта считает, что техасский холдем — игра с неполной информацией, которая хорошо подходит для проверки того, как модели анализируют информацию, принимают решения, оценивают риски и блефуют.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”