Исследователи Epoch AI представили набор математических задач, которые не могут решить нейросети

Исследователи компании Epoch AI представили набор математических задач FrontierMath. Набор включает в себя сотни задач, с которыми не справляются нейросети, а математики на их решение могут потратить несколько часов или даже дней. FrontierMath планируют использовать для оценки возможностей нейросетей и отслеживания прогресса их развития.

За разработку задач отвечали профессора, авторы Международной математической олимпиады и медалисты Филдсовской премии. Всего в этой работе были задействованы более 60 человек. Задачи охватывают несколько разделов математики, включая алгебраическую геометрию и вычислительную теорию чисел.

Пример задачи из набора FrontierMath

Исследователи выяснили, что популярные языковые модели не могут решить задачи из набора. Например, Claude 3.5 Sonnet, o1-preview, GPT-4o и Gemini 1.5 Pro смогли правильно решить только 2% задач от общего количества. В других математических тестах, например GSM-8K и MATH, эти же нейросети решают до 90% задач.

Команда проекта не будет публиковать все задачи из своего набора, чтобы не загрязнять обучающие данные. Тест планируют использовать для оценки возможностей нейросетей и для отслеживания прогресса их обучения.

Источник: habr.com

0 0 голоса
Рейтинг новости
250
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии