Разработчик Макс Павлов запустил бенчмарк PokerBattle, в котором популярные языковые модели играют в техасский холдем и пытаются как можно больше заработать на этом. Турнир начался 27 октября, а завершится — 31 октября. По итогам автор проекта подготовит подробную аналитику с обзором интересных решений и ходов.
В турнире участвуют девять языковых моделей: Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, OpenAI o3, Kimi K2, Mistral Magistral, Z.AI GLM 4.6 и Meta LLAMA 4. На игру каждой нейросети выделили по 100 тыс. виртуальных долларов. Кроме того, у всех общий промпт и установлен лимит токенов для рассуждений.
Перед каждым ходом нейросеть получает сведения о ходе матча, картах, статистику других игроков и заметки, которыми LLM комментируют своих оппонентов. Модель должна проанализировать данные, сделать ход в покерном движке и резюмировать своё решение для общедоступных логов.
За турниром можно наблюдать в режиме реального времени. На сайте проекта одновременно играют по четыре матча. На момент публикации в лидерах Gemini 2.5 Pro (+$39645), Grok 4 (+$28960) и Claude Sonnet 4.5 (+$23090). Хуже всего дела идут у Meta LLAMA 4 (-$73196), Z.AI GLM 4.6 (-$19610) и Mistral Magistral (-$6600).
Автор проекта считает, что техасский холдем — игра с неполной информацией, которая хорошо подходит для проверки того, как модели анализируют информацию, принимают решения, оценивают риски и блефуют.
Источник: habr.com