Новый исследовательский проект специалистов из Гонконгского университета (ГУ) и их партнеров предлагает открытую программную платформу для создания надежных ИИ‑агентов, способных управлять компьютером. Этот фреймворк, получивший название OpenCUA, объединяет инструменты, массивы данных и методики, позволяющие масштабировать разработку computer‑use agents (CUA) — агентов, осваивающих компьютер так же свободно, как человек.
Модели, обученные в рамках OpenCUA, демонстрируют впечатляющие результаты на специализированных тестах: они не только обходят существующие опенсорс‑решения, но и практически вплотную приближаются к закрытым системам лидеров индустрии — OpenAI и Anthropic.
Трудности создания компьютерных агентов
Computer‑use agents изначально задумывались как автономные помощники, которые могут выполнять на компьютере любые задачи — от серфинга по сайтам до работы в сложных программах. Они способны брать на себя рутину и автоматизировать корпоративные процессы. Но самые мощные из таких систем остаются закрытыми: их архитектуры, данные для обучения и методы разработки держатся в секрете.
«Недостаток прозрачности сдерживает прогресс и порождает вопросы безопасности. Научному сообществу необходимы по‑настоящему открытые CUA‑фреймворки, чтобы исследовать их возможности, слабые места и потенциальные риски», — пишут авторы статьи.
Однако и в открытом мире хватает проблем: до сих пор не существовало масштабируемой инфраструктуры для сбора больших и разнообразных массивов данных, необходимых для обучения агентов. Открытые датасеты для графических интерфейсов оказывались слишком малы, а исследования часто описывали методы так скупо, что их невозможно было воспроизвести.
Авторы отмечают: «Все эти ограничения вместе замедляют развитие универсальных CUA и мешают полноценному изучению их масштабируемости, гибкости и стратегий обучения».
OpenCUA — что это такоеАрхитектура OpenCUA
OpenCUA задуман как универсальный открытый фреймворк, который помогает решать эти задачи, расширяя возможности и в сборе данных, и в обучении моделей. Его ядро — AgentNet Tool, инструмент для записи человеческих демо компьютерных действий в разных операционных системах.
Программа незаметно работает на компьютере аннотатора: фиксирует видео с экрана, движения мыши и нажатия клавиш, а также «accessibility tree» — структуру, описывающую элементы интерфейса. Эта «сырая» запись затем преобразуется в так называемые траектории состояния — действия: скриншот компьютера (состояние) плюс шаг пользователя (клик, нажатие и т. п.). После этого аннотаторы могут просматривать, редактировать и отправлять свои демонстрации.
Инструмент AgentNet в работе
С помощью этого инструмента ученым удалось собрать датасет AgentNet: более 22 600 демонстраций на Windows, macOS и Ubuntu, охватывающих свыше двухсот приложений и сайтов. «Этот массив достоверно отражает сложность человеческого поведения и динамику среды в реальных пользовательских условиях», — отмечается в статье.
Понимая, что программы записи экрана неизбежно вызывают у компаний тревогу по поводу утечки данных, разработчики с самого начала встроили в AgentNet Tool многоуровневую систему защиты. Соавтор статьи, аспирант ГУ Синьюань Ван, пояснил: «Аннотатор сначала сам видит, какие данные он создает, и решает, отправлять ли их. После этого записи проходят ручную проверку на предмет конфиденциальности и автоматическое сканирование крупной моделью, которая выявляет уцелевшие чувствительные фрагменты. Такой многоступенчатый фильтр обеспечивает корпоративный уровень надежности даже там, где обрабатываются финансовые или клиентские данные».
Чтобы ускорить тестирование агентов, команда также подготовила AgentNetBench — офлайн‑бенчмарк, в котором на каждый шаг предусмотрено несколько корректных действий. Это делает оценку работы моделей гораздо более гибкой и реалистичной.
Новый рецепт обучения агентов
Фреймворк OpenCUA предлагает свежий подход к обработке данных и обучению компьютерных агентов. Первый шаг — преобразовать «сырые» человеческие демонстрации в аккуратные пары состояние — действие, пригодные для обучения vision‑language‑моделей (VLM). Однако выяснилось, что простое обучение на таких парах даёт лишь ограниченный прирост, даже если данных очень много.
Конвейер рассуждений (chain‑of‑thought) в OpenCUA
Ключевым открытием стало дополнение этих траекторий chain‑of‑thought‑рассуждениями. Система формирует подробный «внутренний монолог» для каждого действия, включающий планирование, память и саморефлексию. Такая цепочка структурирована на три уровня: общее наблюдение за экраном, аналитические размышления с планом дальнейших шагов и, наконец, конкретное исполнимое действие. Именно эта многоуровневая логика помогает агенту глубже осознавать задачу.
«Мы убеждены, что рассуждения на естественном языке — важнейший элемент для создания обобщаемых CUA‑моделей: они позволяют агентам впитывать когнитивные способности», — отмечают исследователи.
Этот конвейер синтеза данных можно адаптировать под нужды любой компании: достаточно записать демонстрации фирменных процессов и пропустить их через тот же «рефлектор» и «генератор», чтобы получить обучающие данные. Как поясняет Ван, это позволяет быстро создать производительного агента, настроенного под внутренние инструменты компании, и при этом избежать ручной прописки рассуждений.
Испытание OpenCUA
Чтобы проверить подход, исследователи обучили на базе OpenCUA несколько опенсорсных VLM‑моделей — включая варианты Qwen и Kimi‑VL, с масштабом параметров от 3 до 32 млрд. Их проверяли на наборах онлайн‑ и офлайн‑тестов, оценивающих умение работать с интерфейсами и выполнять задачи.
Модель с 32 миллиардами параметров — OpenCUA-32B — установила новый рекорд среди опенсорс‑систем на бенчмарке OSWorld‑Verified. Более того, она обошла GPT-4o‑агента от OpenAI и заметно сократила разрыв с флагманскими решениями Anthropic.
OpenCUA демонстрирует резкий скачок по сравнению с базовыми моделями (слева) и успешно конкурирует с лидирующими агентами (справа)
Для корпоративных разработчиков и продуктовых команд исследование даёт несколько важных выводов. Метод OpenCUA применим очень широко: он улучшает работу моделей разных архитектур — и плотных, и mixture‑of‑experts — и разного масштаба. Обученные агенты показывают сильную универсальность, уверенно действуя в самых разных операционных системах и задачах.
По словам Вана, платформа особенно удобна для автоматизации повторяющихся и трудоёмких рабочих процессов. «Например, в датасете AgentNet уже есть демонстрации запуска инстансов EC2 на Amazon AWS и настройки параметров аннотации на MTurk, — отметил он. — Эти сценарии состоят из множества шагов, но всегда подчиняются повторяющейся схеме».
Тем не менее он подчеркнул, что до практического внедрения ещё предстоит решить важнейшие вопросы безопасности и надёжности. «Главная проблема при реальном развёртывании — это именно безопасность: агент не должен допускать ошибок, способных случайно изменить системные настройки или вызвать нежелательные последствия за пределами задачи», — объяснил Ван.
Исследователи уже выложили код, датасет и веса моделей.
Становясь всё более умелыми, открытые агенты, созданные на основе OpenCUA, способны радикально изменить отношения между человеком и компьютером. Ван рисует будущее, где умение управлять сложными программами уйдёт на второй план, а главным станет способность чётко сформулировать цель для ИИ.
Он выделяет два основных режима работы: офлайн‑автоматизация, когда агент полностью ведёт задачу от начала до конца, и онлайн‑сотрудничество, где агент действует в реальном времени бок о бок с человеком — словно коллега. По сути, люди будут задавать стратегическое «что», а всё более изощрённые ИИ‑агенты возьмут на себя операционное «как».
Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.
Источник: habr.com