Новый ИИ от OpenAI достиг уровня золотой медали Международной математической олимпиаде 2025

Александр Вей, отвечающий в OpenAI за рассуждающие модели, рассказал в X о результатах экспериментальной модели в Международной математической олимпиаде 2025 года (IMO 2025). Это было внутреннее тестирование OpenAI, результаты которого проверили и подтвердили три бывших призера IMO. Модель справилась с 5 из 6 заданий, набрав 35 баллов из 42 возможных — этого достаточно для золотой медали. Решения задач опубликованы на GitHub.

Вей рассказал, что проверка модели проводилась в условиях, максимально близких к тем, как проходят олимпиаду живые люди. Было два сеанса по 4,5 часа, без интернета и доступа к инструментам. Модель должна была прочитать каждое задание, а затем написать доказательство на естественном языке.

Решение одной задачи IMO 2025 может занимать до 100 минут, что значительно дольше более простых математических тестов вроде GSM8K (0,1 минуты) или AIME (10 минут). Это потребовало от модели совершенно другого уровня планирования задачи и удержания контекста. При этом ИИ создал сложные, многостраничные доказательства, что выходит за рамки стандартных методов обучения с подкреплением.

Вей отмечает, что в IMO 2025 проверялась экспериментальная модель компании, которую OpenAI не планирует выпускать в общий доступ в ближайшие месяцы. Но он подтвердил скорый релиз ChatGPT-5 и добавил, что в OpenAI с нетерпением ждут, когда пользователи опробуют эту модель.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”