GPT-5 Pro стала новым лидером в решении сложнейших математических задач

Исследователи Epoch AI сравнили возможности современных моделей искусственного интеллекта на самом трудном уровне математического бенчмарка FrontierMath Tier 4. По замеру от 11 октября 2025 лучший результат показала GPT-5 Pro от OpenAI: модель решила 6 из 48 предложенных задач, немного опередив Gemini 2.5 Deep Think от Google (5 решений). Ранее лидером считалась GPT-5 High с четырьмя успешными ответами. Grok 4 Heavy от xAI заметно уступил.

FrontierMath Tier 4 — это набор из 50 исследовательских задач высшей сложности. По описанию авторов, типичная задача отнимает у профильного математика от нескольких часов до нескольких дней, а отдельные — недели работы; пул собран профессорами и постдоками на основе реальных «коротких исследовательских проектов».

GPT-5 Pro прогоняли дважды — через веб-интерфейс ChatGPT и через программный интерфейс (API). Оба раза она решила по 6 задач, но в сумме оказалось 8 уникальных решений. Это соответствует метрике pass@2 = 8/48 и показывает определенную нестабильность ИИ в работе — на практике иногда имеет смысл давать модели несколько попыток на решение. Одна из этих задач никогда ранее не решалась моделями в рамках бенчмарка — Epoch AI подчеркивают ее уникальность.

6 решенных задач из 48 могут показаться не впечатляющим результатом, но в контексте FrontierMath это реальный шаг вперёд. Осенью 2024 модели решали менее 2% задач FrontierMath, сейчас — порядка 10–13% на Tier 4. Важно напомнить, что речь о задачах, которые трудны даже для опытных математиков.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”