Simular AI представила Agent S3 — новое поколение компьютерных агентов, которые выполняют задачи на уровне, близком к человеческому. Если первая версия Agent S набрала лишь 20,6 % на бенчмарке OSWorld, а Agent S2 поднял планку до 48,8 %, то Agent S3 достиг уже 69,9 %, вплотную приблизившись к 72 % — уровню человека.
Основная инновация Agent S3 — метод Behavior Best-of-N (bBoN). Вместо одной попытки агент запускает несколько параллельных сценариев, а затем специальный судья выбирает лучший результат. При этом каждое действие агента переводится в краткий поведенческий нарратив — факты о том, что реально изменилось на экране. Это позволяет сравнивать попытки не по сырому выводу, а по реальным шагам, что повышает точность выбора и делает работу системы прозрачной.
Уже одно это решение позволило поднять точность Agent S3 с 62,6 % до 69,9 % на OSWorld. На других платформах прирост тоже ощутим: с 50,2 % до 56,6 % на WindowsAgentArena и с 68,1 % до 71,6 % на AndroidWorld. Такой подход помогает справляться с главной проблемой компьютерных агентов — высокой вариативностью при длинных сценариях, когда малейшая ошибка может сорвать всё выполнение.
Кроме масштабирования через bBoN, Agent S3 упростили и внутри. Исчезла громоздкая иерархия менеджер–исполнитель, появилась встроенная кодогенерация, благодаря чему агент может комбинировать кодовые и GUI-задачи, повышая разнообразие решений и их надёжность. Эти улучшения уже в одиночном запуске подняли результат до 62,6 %.
Разработчики также проверили, насколько судья соответствует человеческим оценкам. Выяснилось, что при повторной проверке он оказался прав в 92,8 % случаев, а значит, реальная точность Agent S3 приближается к 76,3 %. Всё это делает Agent S3 первым массово масштабируемым агентом для компьютерных задач.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник
Источник: habr.com