В России создали «бенчмарк» для оценки нейросетей

Почти как AnTuTu, но не для смартфонов, а для ИИ.

В России разработали первую независимую платформу для оценки качества больших языковых моделей. Она называется LLM Arena. Ее создателем стал Роман Куцин, который взаимодействовал с экс-разработчиками TrainingData.ru, где он был техническим директором, и экспертами по ИИ-моделям.

С помощью бенчмарка можно тестировать нейросети, которые работают на русском языке. Большие языковые модели оценивают на основе пользовательских задач. Все желающие могут сравнивать ответы в зависимости от запросов. Работает LLM Arena следующим образом. Пользователю для сравнения дают две случайные модели, при этом ему не показывают информацию о том, кто их разработал. Затем можно написать любой запрос и выбрать ответ, который покажется лучшим по любой причине. Помимо этого, есть возможность отметить, что ответы оказались похожими или не соответствующими задаче.

Пока что пользователи LLM Arena могут протестировать 21 нейросеть. На платформу добавили самые популярные варианты. Например, там есть зарубежная большая языковая модель ChatGPT, а а также российские YandexGPT и GigaChat. В дальнейшем список ИИ-моделей расширится. При этом сами разработчики также смогут их добавить. Бенчмарк разработали по открытой лицензии, он работает по принципу популярного рейтинга LMSYS Chatbot Arena.

Как отметили создатели платформы, их задача — сделать объективный и актуальный рейтинг генеративных нейросетей на русском языке. По их словам, уже есть немало способов сравнивать модели, но сложно протестировать их на родном языке и настоящих пользовательских задачах. Авторы LLM Arena отметили, что скоро добавят в сервис возможность оценивать качество ответов в зависимости от категории запроса, в том числе по написанию кода. А в дальнейшем пользователи смогут сравнивать определение содержимого на изображениях и генерацию видео по тексту.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости

22991

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”