Google DeepMind представила новую версию модели Gemini 2.5 Computer Use — режим, в котором искусственный интеллект способен действовать прямо в интерфейсе сайта или приложения. Доступ к новой функции уже открыт разработчикам через Gemini API и облачную платформу Vertex AI, а для всех желающих Google запустила публичную демонстрацию на Browserbase.
Работа агента строится по циклу. ИИ получает скриншот экрана, историю предыдущих шагов и задачу, формулирует действие (например, «ввести текст в поле поиска»), после чего клиент исполняет его и делает новый скриншот. Затем цикл повторяется, пока задача не будет выполнена. За это отвечает новый инструмент computer_use, доступный в Gemini API. Сейчас агент заточен под браузеры — в Google специально подмечают, что для управления на уровне настольной ОС он пока не оптимизирован.
В демонстрациях Gemini 2.5 Computer Use справляется с заполнением форм, выбором пунктов в выпадающих списках, авторизацией на сайтах, переносом данных между сервисами и организацией элементов на досках. Google подчеркивает, что агент работает с реальными веб-страницами, включая страницы за логином, что открывает путь к автоматизации корпоративных интерфейсов и типовой офисной рутины.
Пока Computer Use находится в стадии публичного превью. Google предупреждает, что фокус смещен на стабильную работу в браузере и безопасность: каждое действие модели проходит внешнюю проверку, отдельные действия требуют явного подтверждения пользователя (например, покупки), а опасные сценарии (обход капчи, вмешательство в устройства) блокируются. Планы дальнейшего развития новинки пока не раскрываются.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com