Meta* опровергла слухи об искусственном завышении результатов тестов своих моделей ИИ

В понедельник представитель Meta опроверг слухи о том, что компания настроила свои новые модели ИИ таким образом, чтобы они хорошо справлялись с определёнными тестами, но при этом скрывали свои слабые стороны.

Исполнительный директор Meta по генеративному искусственному интеллекту Ахмад Аль-Дале написал в посте на X, что это «просто неправда», что Meta обучала свои модели Llama 4 Maverick и Llama 4 Scout на «тестовых наборах». В тестах ИИ тестовые наборы — это наборы данных, которые используются для оценки производительности модели после обучения. Обучение на тестовом наборе может привести к завышению результатов теста модели, из-за чего она будет казаться более способной, чем на самом деле.

На выходных в X и Reddit начали распространяться неподтверждённые слухи о том, что Meta искусственно завысила результаты тестов своих новых моделей. Судя по всему, слухи возникли из-за поста в китайской социальной сети, в котором пользователь заявил, что уволился из Meta в знак протеста против методов проведения тестов.

Сообщения о том, что Maverick и Scout выполняют определенные задания, подогрели слухи, как и решение Meta использовать экспериментальную, неизданную версию Maverick для достижения лучших результатов в бенчмарке LM Arena. Исследователи X заметили разительные различия в поведении общедоступного Maverick по сравнению с моделью, размещенной на LM Arena.

Аль-Дале признал, что некоторые пользователи видят «разное качество» Maverick и Scout у разных поставщиков облачных услуг, у которых размещены модели.

«Поскольку мы запустили модели, как только они были готовы, мы ожидаем, что для настройки всех общедоступных реализаций потребуется несколько дней, — сказал Аль-Дале. — Мы продолжим работать над исправлением ошибок и привлечением партнёров».

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”