Simular AI представила продвинутый агент для работы с компьютером

Simular AI представила Agent S3 — новое поколение компьютерных агентов, которые выполняют задачи на уровне, близком к человеческому. Если первая версия Agent S набрала лишь 20,6 % на бенчмарке OSWorld, а Agent S2 поднял планку до 48,8 %, то Agent S3 достиг уже 69,9 %, вплотную приблизившись к 72 % — уровню человека.

Основная инновация Agent S3 — метод Behavior Best-of-N (bBoN). Вместо одной попытки агент запускает несколько параллельных сценариев, а затем специальный судья выбирает лучший результат. При этом каждое действие агента переводится в краткий поведенческий нарратив — факты о том, что реально изменилось на экране. Это позволяет сравнивать попытки не по сырому выводу, а по реальным шагам, что повышает точность выбора и делает работу системы прозрачной.

Уже одно это решение позволило поднять точность Agent S3 с 62,6 % до 69,9 % на OSWorld. На других платформах прирост тоже ощутим: с 50,2 % до 56,6 % на WindowsAgentArena и с 68,1 % до 71,6 % на AndroidWorld. Такой подход помогает справляться с главной проблемой компьютерных агентов — высокой вариативностью при длинных сценариях, когда малейшая ошибка может сорвать всё выполнение.

Кроме масштабирования через bBoN, Agent S3 упростили и внутри. Исчезла громоздкая иерархия менеджер–исполнитель, появилась встроенная кодогенерация, благодаря чему агент может комбинировать кодовые и GUI-задачи, повышая разнообразие решений и их надёжность. Эти улучшения уже в одиночном запуске подняли результат до 62,6 %.

Разработчики также проверили, насколько судья соответствует человеческим оценкам. Выяснилось, что при повторной проверке он оказался прав в 92,8 % случаев, а значит, реальная точность Agent S3 приближается к 76,3 %. Всё это делает Agent S3 первым массово масштабируемым агентом для компьютерных задач.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”