GPT-5 Pro стала новым лидером в решении сложнейших математических задач

Исследователи Epoch AI сравнили возможности современных моделей искусственного интеллекта на самом трудном уровне математического бенчмарка FrontierMath Tier 4. По замеру от 11 октября 2025 лучший результат показала GPT-5 Pro от OpenAI: модель решила 6 из 48 предложенных задач, немного опередив Gemini 2.5 Deep Think от Google (5 решений). Ранее лидером считалась GPT-5 High с четырьмя успешными ответами. Grok 4 Heavy от xAI заметно уступил.

FrontierMath Tier 4 — это набор из 50 исследовательских задач высшей сложности. По описанию авторов, типичная задача отнимает у профильного математика от нескольких часов до нескольких дней, а отдельные — недели работы; пул собран профессорами и постдоками на основе реальных «коротких исследовательских проектов».

GPT-5 Pro прогоняли дважды — через веб-интерфейс ChatGPT и через программный интерфейс (API). Оба раза она решила по 6 задач, но в сумме оказалось 8 уникальных решений. Это соответствует метрике pass@2 = 8/48 и показывает определенную нестабильность ИИ в работе — на практике иногда имеет смысл давать модели несколько попыток на решение. Одна из этих задач никогда ранее не решалась моделями в рамках бенчмарка — Epoch AI подчеркивают ее уникальность.

6 решенных задач из 48 могут показаться не впечатляющим результатом, но в контексте FrontierMath это реальный шаг вперёд. Осенью 2024 модели решали менее 2% задач FrontierMath, сейчас — порядка 10–13% на Tier 4. Важно напомнить, что речь о задачах, которые трудны даже для опытных математиков.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии