Meta* опровергла слухи об искусственном завышении результатов тестов своих моделей ИИ

В понедельник представитель Meta опроверг слухи о том, что компания настроила свои новые модели ИИ таким образом, чтобы они хорошо справлялись с определёнными тестами, но при этом скрывали свои слабые стороны.

Исполнительный директор Meta по генеративному искусственному интеллекту Ахмад Аль-Дале написал в посте на X, что это «просто неправда», что Meta обучала свои модели Llama 4 Maverick и Llama 4 Scout на «тестовых наборах». В тестах ИИ тестовые наборы — это наборы данных, которые используются для оценки производительности модели после обучения. Обучение на тестовом наборе может привести к завышению результатов теста модели, из-за чего она будет казаться более способной, чем на самом деле.

На выходных в X и Reddit начали распространяться неподтверждённые слухи о том, что Meta искусственно завысила результаты тестов своих новых моделей. Судя по всему, слухи возникли из-за поста в китайской социальной сети, в котором пользователь заявил, что уволился из Meta в знак протеста против методов проведения тестов.

Сообщения о том, что Maverick и Scout выполняют определенные задания, подогрели слухи, как и решение Meta использовать экспериментальную, неизданную версию Maverick для достижения лучших результатов в бенчмарке LM Arena. Исследователи X заметили разительные различия в поведении общедоступного Maverick по сравнению с моделью, размещенной на LM Arena.

Аль-Дале признал, что некоторые пользователи видят «разное качество» Maverick и Scout у разных поставщиков облачных услуг, у которых размещены модели.

«Поскольку мы запустили модели, как только они были готовы, мы ожидаем, что для настройки всех общедоступных реализаций потребуется несколько дней, — сказал Аль-Дале. — Мы продолжим работать над исправлением ошибок и привлечением партнёров».

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии