Gemini 3 Pro назвали лучшим ИИ для сложной математики

Google Gemini 3 Pro Preview вышел в лидеры одного из самых сложных тестов для ИИ — бенчмарка по высшей математике FrontierMath. На свежем лидерборде модель Google обошла GPT-5.1 Thinking от OpenAI как по общей суммарной оценке, так и на самом тяжелом уровне задач.

По общему результату FrontierMath (все уровни сложности вместе) Gemini 3 Pro набирает около 37,6% с поправкой на сложность задач. На втором месте идёт Gemini 2.5 Deep Think с 29%, далее — GPT-5 Thinking с 26,6%. На самом сложном уровне Tier 4, куда входят исследовательские задачи, Gemini 3 Pro также выходит вперед, решив девять задач, в то время как GPT-5.1 Thinking и GPT-5 Pro решили по шесть задач.

FrontierMath — набор из нескольких сотен оригинальных задач по современной математике, подготовленных командой Epoch AI совместно с профессиональными математиками. Задачи покрывают широкий спектр разделов — от теории чисел и анализа до алгебраической геометрии и теории категорий — и требуют от человека часы или даже дни работы. Уровни сложности Tier 1–3 соответствуют диапазону от старших курсов бакалавриата до ранней магистратуры, а Tier 4 — это уже задачи исследовательского уровня.

FrontierMath считается одним из бенчмарков, где ИИ еще заметно уступают людям. По оценке Epoch, средний результат команд людей на полном наборе задач — около 30%, а при нескольких попытках и совместной работе — до 50%.На этом фоне даже переход от 13% к 19% на Tier 4 выглядит серьезным шагом вперед. Также важно, что рекордного результата добилась модель не уровня 200-долларовой подписки, а массового: Gemini 3 Pro доступна в Google AI Pro за 20 долларов, а в некоторых других сервисах компании — и вовсе бесплатна.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии