Недавний анализ, проведенный фондом Arc Prize Foundation показал, что модель o3 от OpenAI демонстрирует значительно более слабые результаты на стандартизированных тестах рассуждений, чем ранее протестированная предварительная версия o3.
ARC Prize Foundation, некоммерческая группа, занимающаяся оценкой AI, использует открытые бенчмарки, такие как ARC-AGI, чтобы подчеркнуть разрыв между человеческим мышлением и текущими системами искусственного интеллекта. Каждая оценка направлена на выяснение текущего состояния области.
Тест ARC-AGI предназначен для проверки символического мышления, многошаговой композиции и применения правил в зависимости от контекста — навыков, которые люди часто демонстрируют без специальной подготовки, но которые модели AI выполняют лишь в ограниченной степени.
Анализ оценивал производительность на «низком», «среднем» и «высоком» уровнях рассуждений, которые варьируют глубину рассуждений модели. «Низкий» приоритет отдает скорости и минимальному использованию токенов, в то время как «высокий» призван поощрять более комплексное решение проблем. Для этого исследования две модели — o3 и o4-mini — были протестированы на всех трех уровнях рассуждений на 740 задачах из ARC-AGI-1 и ARC-AGI-2, что дало 4400 точек данных.
По данным ARC Prize Foundation, o3 достигла точности 41% (низкая вычислительная мощность) и 53% (средняя вычислительная мощность) на ARC-AGI-1. Меньшая модель o4-mini достигла 21% (низкая вычислительная мощность) и 42% (средняя вычислительная мощность). На более сложном тесте ARC-AGI-2 обе текущие модели значительно отстали, набрав менее трех процентов точности.
Модель o3 от OpenAI превосходит модель o1, выпущенную осенью 2024 года, примерно на 20 процентов по результатам теста ARC-AGI-1, но остается значительно позади результатов o3-preview от декабря 2024 года. На диаграмме показано соотношение цены и производительности. | Изображение: ARC Prize Foundation
На более высоких уровнях рассуждений («высокий» вычислительный уровень) обе модели не смогли выполнить многие задачи. Анализ также показал, что модели имели тенденцию отвечать на задачи, которые они могли решить легче, оставляя более сложные задачи без ответа. Оценка только успешных ответов исказила бы фактическую производительность, поэтому эти частичные результаты были исключены из официальных списков лидеров.
Модель
Установка рассуждения
Полузакрытая оценка V1
Полузакрытая оценка V2
Стоимость за задачу (V2)
о3
Низкий
41%
1,9%
1,22 доллара США
о3
Середина
53%
2,9%
2,52 доллара США
о3
Высокий
—
—
—
o4-mini
Низкий
21%
1,6%
0,05 доллара США
o4-mini
Середина
42%
2,3%
0,23 доллара США
o4-mini
Высокий
—
—
—
Данные показывают, что более высокие усилия по рассуждению не гарантируют лучших результатов, а часто приводят только к более высоким затратам. В частности, o3-high потребляет значительно больше токенов, не достигая соответствующего прироста точности для более простых задач. Это поднимает вопросы о масштабируемости текущего подхода к рассуждению цепочки мыслей.
Сравнение потребления токенов для o3-medium и o3-high на ARCv1 показывает, что более высокие уровни рассуждений часто приводят к более высоким затратам. Синие точки над линией обозначают задачи, в которых o3-high использовал больше токенов без улучшения результатов. | Изображение: ARC Prize Foundation
Для приложений, чувствительных к стоимости, ARC Prize Foundation рекомендует использовать o3-medium в качестве настройки по умолчанию. Режим «высокого рассуждения» рекомендуется только тогда, когда требуется максимальная точность, а стоимость менее важна. «Нет веской причины использовать низкий, если вас волнует точность», — говорит Майк Кнуп, соучредитель ARC Prize Foundation.
Фонд также отмечает, что по мере повышения производительности модели эффективность — насколько быстро, недорого и с минимальным использованием токенов модель может решать проблемы — становится основным отличительным фактором. В этом отношении o4-mini примечателен: он достигает 21-процентной точности на ARC-AGI-1 при стоимости около пяти центов за задачу, в то время как более старые модели, такие как o1-pro, требуют примерно одиннадцать долларов за задачу для сопоставимых результатов.
Текущая версия o3 существенно отличается от версии o3-preview, протестированной в декабре 2024 года. В то время o3-preview набрала 76% (низкая вычислительная мощность) и 88% (высокая вычислительная мощность) на ARC-AGI-1 в текстовом режиме, тогда как выпущенная модель o3 сейчас обеспечивает только 41 процент (низкая вычислительная мощность) и 53% (средняя вычислительная мощность).
OpenAI подтвердила ARC, что производственная модель o3 отличается от предварительной версии несколькими ключевыми способами. Компания объяснила, что выпущенная модель имеет другую архитектуру, в целом является меньшей моделью, работает мультимодально (обрабатывая как текстовые, так и графические входные данные) и использует меньше вычислительных ресурсов, чем предварительная версия.
Что касается данных обучения, OpenAI заявляет, что обучение o3-preview охватило 75 процентов набора данных ARC-AGI-1. Что касается выпущенной модели o3, OpenAI заявляет, что она не обучалась напрямую на данных ARC-AGI, даже на наборе данных обучения. Однако возможно, что модель была косвенно подвергнута бенчмарку через ее публичную доступность.
Выпущенная модель o3 также была усовершенствована для вариантов использования чата и продукта, что, по мнению ARC Prize, приводит как к преимуществам, так и к недостаткам в бенчмарке ARC-AGI. Эти различия подчеркивают, что к результатам бенчмарка, особенно для невыпущенных моделей AI, следует относиться с осторожностью.
Модель o3-medium в настоящее время демонстрирует наивысшую производительность среди публично протестированных моделей ARC Prize Foundation на ARC-AGI-1, удваивая результаты более ранних подходов на основе цепочки мыслей.
Несмотря на это улучшение, недавно представленный бенчмарк ARC-AGI-2 остается в значительной степени нерешенным обеими новыми моделями. В то время как люди решают в среднем 60 процентов задач ARC-AGI-2 даже без специальной подготовки, самая сильная модель рассуждений OpenAI в настоящее время достигает лишь около трех процентов.
«ARC v2 еще предстоит долгий путь развития, даже несмотря на большую эффективность рассуждений o3. Новые идеи все еще нужны», — пишет Кноп.
Это подчеркивает сохраняющийся разрыв в способности людей и машин решать проблемы, несмотря на недавние достижения и то, что генеральный директор Microsoft Сатья Наделла назвал «бессмысленным взломом бенчмарков».
Недавний анализ также предполагает, что так называемые модели рассуждений, такие как o3, вероятно, не имеют никаких новых возможностей, выходящих за рамки их базовых языковых моделей. Вместо этого эти модели оптимизированы для более быстрого получения правильных решений для определенных задач, особенно тех, для которых они были обучены с помощью целевого обучения с подкреплением.
Источник
Источник: habr.com