Исследователи нашли более эффективный способ помочь моделям искусственного интеллекта изучать математику. Их новый подход, названный PRIME, дает лучшие результаты, используя лишь часть обучающих данных, необходимых другим методам.
Команда протестировала свой метод на модели под названием Eurus-2-7B-PRIME, которая основана на существующей системе Qwen 2.5 Math 7B. После обучения с использованием PRIME (Process Reinforcement through Implicit Rewards) производительность модели увеличилась с 32,2% до 48,9% по математическим бенчмаркам — значительное улучшение на 16,7 процентных пункта.
Эти результаты особенно впечатляют по сравнению с более крупными моделями. GPT-4o достигает 43,3%, тогда как Llama-3.1-70B-Instruct достигает 35,7%. Даже специализированная Qwen-2.5-Math-7B-Instruct показывает более низкие результаты — 43,8%.
Наибольшие улучшения наблюдались в Американском Пригласительном Математическом Экзамене (AIME), одном из самых сложных математических конкурсов для школьников. Модель, обученная с помощью PRIME, правильно решила 26,7% этих задач, по сравнению с всего лишь 3,3%. Для сравнения, GPT-4o правильно решил только 9,3%, Llama-3.1-70B-Instruct — 16,7%, а Qwen-2.5-Math-7B-Instruct — 13,3%.
Что делает PRIME особенным, так это способ обучения моделей AI. Вместо того чтобы просто сообщать модели, правильный ли её окончательный ответ, PRIME предоставляет непрерывную обратную связь на протяжении всего процесса решения задачи, используя то, что исследователи называют «неявными вознаграждениями за процесс».
Система удивительно эффективна в использовании ресурсов. В то время как модели Qwen2.5-Math-7B-Instruct потребовалось 2,5 миллиона обучающих примеров, PRIME достигла лучших результатов всего с 230 000. Она также более эффективна в процессе обучения, требуя всего четыре попытки решения на задачу по сравнению с 32 попытками Qwen для достижения аналогичных результатов.
Исследователи опубликовали все свои данные на GitHub, чтобы другие могли изучать и развивать их.
Источник
Источник: habr.com