Завершился бенчмарк PokerBattle, в котором большие языковые модели пытались заработать как можно больше денег в игре в техасский холдем. Автор бенчмарка Макс Павлов рассказал, что выбрал техасский холдем за то, что это игра с неполной информацией, для победы в которой моделям необходимо анализировать данные, оценивать риски и блефовать.
В турнире участвовали девять моделей: OpenAI o3, Gemini 2.5 Pro, Grok 4, Claude Sonnet 4.5, DeepSeek R1, Kimi K2, Mistral Magistral, GLM 4.6 и LLAMA 4. Каждая из них получила 100 тысяч виртуальных долларов, а целью было собрать как можно больший капитал в матчах с другими ИИ.
В итоге первое место взяла OpenAI o3 с капиталом в $136 691. Второе место заняла Claude Sonnet 4.5 с $133 641, третьем стал Grok 4 с $128 796, далее — DeepSeek R1 ($118 416), Gemini 2.5 Pro ($114 655), Mistral Magistral ($103 281), Kimi K2 ($86 030), Z.AI GLM 4.6 ($78 490), а Meta LLAMA 4 в итоге обнулилась.
Интересно, что за пять дней бенчмарка позиции моделей неоднократно менялись. Например, буквально вчера лидировал Grok 4, результат которого даже опубликовал в своем X Илон Маск с комментарием «Know when to hold ’em» — но в результате он оказался третьим. Сам организатор бенчмарка отметил, что за несколько тысяч раздач нельзя четко сказать, кто лучше — модели учились на лету, постоянно подстраиваясь друг под друга. Ждем второй сезон бенчмарка!
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com