Александр Вей, отвечающий в OpenAI за рассуждающие модели, рассказал в X о результатах экспериментальной модели в Международной математической олимпиаде 2025 года (IMO 2025). Это было внутреннее тестирование OpenAI, результаты которого проверили и подтвердили три бывших призера IMO. Модель справилась с 5 из 6 заданий, набрав 35 баллов из 42 возможных — этого достаточно для золотой медали. Решения задач опубликованы на GitHub.
Вей рассказал, что проверка модели проводилась в условиях, максимально близких к тем, как проходят олимпиаду живые люди. Было два сеанса по 4,5 часа, без интернета и доступа к инструментам. Модель должна была прочитать каждое задание, а затем написать доказательство на естественном языке.
Решение одной задачи IMO 2025 может занимать до 100 минут, что значительно дольше более простых математических тестов вроде GSM8K (0,1 минуты) или AIME (10 минут). Это потребовало от модели совершенно другого уровня планирования задачи и удержания контекста. При этом ИИ создал сложные, многостраничные доказательства, что выходит за рамки стандартных методов обучения с подкреплением.
Вей отмечает, что в IMO 2025 проверялась экспериментальная модель компании, которую OpenAI не планирует выпускать в общий доступ в ближайшие месяцы. Но он подтвердил скорый релиз ChatGPT-5 и добавил, что в OpenAI с нетерпением ждут, когда пользователи опробуют эту модель.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com