Как ИИ OpenAI взял «золото» Международной математической олимпиады

На YouTube-канале Sequoia Capital опубликовано интервью с разработчиками экспериментальной модели OpenAI, показавшей результат уровня «золота» Международной математической олимпиады 2025 года (IMO 2025). Идея родилась 6 месяцев назад, а занималась ей команда из трех специалистов — Алекса Вэй, Ноама Брауна и Шерил Сюй. Они поставили перед собой цель не тренировать ИИ конкретно под задачи IMO 2025, а создать модель общего назначения. Одним из ключевых приемов стала система агентов, параллельно работающих над задачей — подробности в OpenAI держат в секрете, но планируют внедрить в будущих коммерческих моделях.

ИИ смог решить 5 из 6 задач — этого достаточно для «золота», но хуже результата лучших школьников, участвовавших в IMO 2025. Для шестой задачи модель не стала печатать ошибочное решение, а признала, что не может справиться — эта особенность демонстрирует пониженную склонность к галлюцинациям.

Все решения ИИ были проверены тремя участниками IMO предыдущих лет. Многие критиковали стиль решений — пусть они и правильны, но были написаны иным языком, чем решения людей-математиков. В OpenAI решили специально не адаптировать их, а показать, как размышляет модель. Ноам Браун рассказал, что ему было интересно наблюдать за «эмоциями» ИИ во время работы — он признавал ситуации, когда был не уверен, и отмечал, когда находил правильное решение.

Решение задач IMO потребовало от модели навыка самостоятельно работать на протяжении полутора часов — дольше, чем текущие коммерческие ИИ. Но впереди большой путь, ведь уровень научного открытия в математике — это тысячи часов работы. Для этого потребуются не только вычислительные ресурсы, но и человеческие — кому-то надо будет потратить тысячи часов на проверку. А отдельным вызовом в OpenAI видят олимпиаду по физике — ведь там надо проводить практические опыты.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”