Создана тестовая среда для оценки работы ИИ

Международная группа ученых разработала платформу Computer Agent Arena, предназначенную для тестирования и улучшения работы компьютерных агентов, использующих искусственный интеллект. В проекте приняли участие специалисты из Университета Ватерлоо, Университета Гонконга, Salesforce Research и Университета Карнеги-Меллона.

Компьютерные ассистенты- это программы, выполняющие задачи без постоянного вмешательства человека. Примеры таких ассистентов — голосовой помощник Siri, который может отправлять сообщения и организовывать встречи. Однако современные ИИ-ассистенты сталкиваются с трудностями при выполнении сложных задач, требующих взаимодействия с разными приложениями. Например, составление отчета о расходах может быть затруднено из-за необходимости искать данные в письмах, выписках и таблицах.

Computer Agent Arena стала первой платформой, позволяющей тестировать ИИ-ассистентов в условиях реального компьютерного окружения. Это развитие предыдущего проекта OSWorld — первой масштабируемой среды для работы мультимодальных асистенов.

По словам одного из разработчиков, профессора Университета Ватерлоо Виктора Чжуна, новая среда позволяет сравнивать различные модели ИИ на основе языковых и визуальных технологий. Пользователь выбирает операционную систему, приложения (например, Google Chrome или Excel), затем задает задачу ИИ-ассистенту, после чего система в режиме реального времени сравнивает выполнение задания двумя разными моделями.

Источник: www.ferra.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”