Не просто текст или код — теперь ИИ реально взаимодействует с UI: кликает по кнопкам, заполняет формы, двигает стикеры и даже работает из под вашей учётной записи. На DevDay 2025 Google показала новую версию своей модели — Gemini 2.5 Computer Use, доступную в превью через Gemini API, Google AI Studio и Vertex AI.
Модель построена на базе Gemini 2.5 Pro и обучена понимать визуальные интерфейсы. Вместо API-вызовов она управляет браузером или мобильным приложением в «петле»:
Получает запрос пользователя, скриншот интерфейса и историю действий.
Возвращает функцию-действие (например, click, type или scroll).
После выполнения получает новый скриншот и контекст, продолжая цикл до завершения задачи.
Примечательно, что это уже используется внутри Google модель применяют для UI-тестирования, где она восстанавливает до 60% проваленных прогонов. Работает в Project Mariner, Firebase Testing Agent и в AI Mode поиска. Ну и по заверениям Goole внешние команды используют её для автоматизации интерфейсов и личных ассистентов.
Если говорить про бенчмарки, то лидирует на Online-Mind2Web, WebVoyager, AndroidWorld. Демонстрирует низкую задержку (~225 с) при точности 70 %+. И имеет встроенный уровень защиты: каждый шаг проходит inference-time safety-check, а действия вроде платежей требуют подтверждения пользователя.
Мы всё ближе к настоящим автономным агентам, которые смогут не просто анализировать данные, а действовать — управлять CRM, тестировать интерфейсы и автоматизировать рутину без человека в цикле.
Источник
Русскоязычное сообщество про AI в разработке
Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!
Источник: habr.com