OpenAI o3, Claude Sonnet 4.5 и Grok 4 оказались лучшими игроками в покер
Завершился бенчмарк PokerBattle, в котором большие языковые модели пытались заработать как можно больше денег в игре в техасский холдем. Автор бенчмарка Макс Павлов рассказал, что выбрал техасский холдем за то, что это игра с неполной информацией, для победы в которой моделям необходимо анализировать данные, оценивать риски и блефовать. В турнире участвовали девять моделей: OpenAI o3,