Лгал ли xAI о тестах Grok 3?

Дискуссии по поводу тестов AI и того, как их результаты представляются лабораториями AI, выплескиваются на общественное обозрение.

На этой неделе сотрудник OpenAI обвинил компанию Илона Маска xAI, занимающуюся разработкой искусственного интеллекта, в публикации вводящих в заблуждение результатов тестов для ее последней модели искусственного интеллекта Grok 3. Один из соучредителей xAI, Игорь Бабушкин, настаивал на том, что компания права.

В сообщении в блоге xAI компания опубликовала график, показывающий производительность Grok 3 на AIME 2025, наборе сложных математических вопросов из недавнего пригласительного экзамена по математике. Некоторые эксперты сомневаются в валидности AIME как эталона ИИ. Тем не менее, AIME 2025 и более ранние версии теста обычно используются для проверки математических способностей модели.

График xAI показал два варианта Grok 3, Grok 3 Reasoning Beta и Grok 3 mini Reasoning, которые превзошли самую эффективную из доступных моделей OpenAI, o3-mini-high , на AIME 2025. Но сотрудники OpenAI в X поспешили указать, что график xAI не включает оценку o3-mini-high на AIME 2025 в «cons@64».

Что такое cons@64, вы можете спросить? Ну, это сокращение от «consensus@64», и по сути это дает модели 64 попытки ответить на каждую проблему в бенчмарке и берет ответы, сгенерированные чаще всего, в качестве окончательных ответов. Как вы можете себе представить, cons@64 имеет тенденцию значительно повышать результаты бенчмарков моделей, и исключение его из графика может создать впечатление, что одна модель превосходит другую, хотя на самом деле это не так.

Оценки Grok 3 Reasoning Beta и Grok 3 mini Reasoning для AIME 2025 на уровне «@1» — то есть первая оценка, которую модели получили в бенчмарке — ниже оценки o3-mini-high. Grok 3 Reasoning Beta также немного отстает от модели OpenAI o1, настроенной на «средние» вычисления. Тем не менее, xAI рекламирует Grok 3 как «самый умный ИИ в мире».

Бабушкин утверждал на X , что OpenAI публиковала подобные вводящие в заблуждение графики бенчмарков в прошлом — хотя это были графики, сравнивающие производительность ее собственных моделей. Более нейтральная сторона в дебатах составила более «точный» график, показывающий производительность почти каждой модели при cons@64:

Но как указал исследователь AI Натан Ламберт в посте , возможно, самая важная метрика остается загадкой: вычислительные (и денежные) затраты, необходимые для того, чтобы каждая модель достигла наилучшего результата. Это просто показывает, как мало большинство тестов AI сообщают об ограничениях моделей — и их сильных сторонах.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии