OpenAI o3, Claude Sonnet 4.5 и Grok 4 оказались лучшими игроками в покер

Завершился бенчмарк PokerBattle, в котором большие языковые модели пытались заработать как можно больше денег в игре в техасский холдем. Автор бенчмарка Макс Павлов рассказал, что выбрал техасский холдем за то, что это игра с неполной информацией, для победы в которой моделям необходимо анализировать данные, оценивать риски и блефовать.

В турнире участвовали девять моделей: OpenAI o3, Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, Kimi K2, Mistral Magistral, GLM 4.6 и LLAMA 4. Каждая из них получила 100 тысяч виртуальных долларов, а целью было собрать как можно больший капитал в матчах с другими ИИ.

В итоге первое место взяла OpenAI o3 с капиталом в $136 691. Второе место заняла Claude Sonnet 4.5 с $133 641, третьем стал Grok 4 с $128 796, далее — DeepSeek R1 ($118 416), Gemini 2.5 Pro ($114 655), Mistral Magistral ($103 281), Kimi K2 ($86 030), Z.AI GLM 4.6 ($78 490), а Meta LLAMA 4 в итоге обнулилась.

Интересно, что за пять дней бенчмарка позиции моделей неоднократно менялись. Например, буквально вчера лидировал Grok 4, результат которого даже опубликовал в своем X Илон Маск с комментарием «Know when to hold ’em» — но в результате он оказался третьим. Сам организатор бенчмарка отметил, что за несколько тысяч раздач нельзя четко сказать, кто лучше — модели учились на лету, постоянно подстраиваясь друг под друга. Ждем второй сезон бенчмарка!

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”