Microsoft представила Windows Agent Arena — бенчмарк для тестирования ИИ-агентов

Microsoft Research представила бенчмарк Windows Agent Arena для тестирования агентов генеративного искусственного интеллекта на ПК с Windows. Решение разработали для проверки того, насколько хорошо и быстро ИИ-агенты могут взаимодействовать с Windows-приложениями.

Windows Agent Arena протестировали с браузерами Microsoft Edge и Google Chrome, функциями операционной системы, включая проводник, приложения для кодирования, простое предустановленное программное обеспечение Windows, такое как «Блокнот», «Часы» и Paint, и просмотр видео при помощи VLC Player.

Корпорация пишет, что адаптирует фреймворк OSWorld для создания более 150 разнообразных задач Windows в репрезентативных доменах, которые требуют возможности агента в планировании, понимании экрана и использовании инструментов. Бенчмарк компании масштабируется и может быть распараллелен в Azure для полной оценки всего за 20 минут.

Microsoft Research также создала свой мультимодальный агент под названием Navi для тестирования в Windows Agent Arena. При его помощи выполнили задания с определёнными текстовыми подсказками. Средний показатель успешности Navi составил 19,5% — это довольно низкий показатель при сравнении с оценкой производительности человека в 74,5%.

Появление Windows Agent Arena может стать значительным шагом вперёд в создании ИИ-агентов, что позволит усовершенствовать их и приблизить производительность к уровню человека.

Над проектом специалисты Microsoft Research работали совместно с исследователями Университет Карнеги — Меллона и Колумбийского университета. Подробности о Windows Agent Arena можно найти в статье, а код бенчмарка представлен на GitHub.

Источник: habr.com

0 0 голоса

Рейтинг новости

21523

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”