Gemini 3 Pro назвали лучшим ИИ для сложной математики

Google Gemini 3 Pro Preview вышел в лидеры одного из самых сложных тестов для ИИ — бенчмарка по высшей математике FrontierMath. На свежем лидерборде модель Google обошла GPT-5.1 Thinking от OpenAI как по общей суммарной оценке, так и на самом тяжелом уровне задач.

По общему результату FrontierMath (все уровни сложности вместе) Gemini 3 Pro набирает около 37,6% с поправкой на сложность задач. На втором месте идёт Gemini 2.5 Deep Think с 29%, далее — GPT-5 Thinking с 26,6%. На самом сложном уровне Tier 4, куда входят исследовательские задачи, Gemini 3 Pro также выходит вперед, решив девять задач, в то время как GPT-5.1 Thinking и GPT-5 Pro решили по шесть задач.

FrontierMath — набор из нескольких сотен оригинальных задач по современной математике, подготовленных командой Epoch AI совместно с профессиональными математиками. Задачи покрывают широкий спектр разделов — от теории чисел и анализа до алгебраической геометрии и теории категорий — и требуют от человека часы или даже дни работы. Уровни сложности Tier 1–3 соответствуют диапазону от старших курсов бакалавриата до ранней магистратуры, а Tier 4 — это уже задачи исследовательского уровня.

FrontierMath считается одним из бенчмарков, где ИИ еще заметно уступают людям. По оценке Epoch, средний результат команд людей на полном наборе задач — около 30%, а при нескольких попытках и совместной работе — до 50%.На этом фоне даже переход от 13% к 19% на Tier 4 выглядит серьезным шагом вперед. Также важно, что рекордного результата добилась модель не уровня 200-долларовой подписки, а массового: Gemini 3 Pro доступна в Google AI Pro за 20 долларов, а в некоторых других сервисах компании — и вовсе бесплатна.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”