Google показала Gemini 2.5 Computer Use: ИИ-агента, который управляет интерфейсами

Google DeepMind представила новую версию модели Gemini 2.5 Computer Use — режим, в котором искусственный интеллект способен действовать прямо в интерфейсе сайта или приложения. Доступ к новой функции уже открыт разработчикам через Gemini API и облачную платформу Vertex AI, а для всех желающих Google запустила публичную демонстрацию на Browserbase.

Работа агента строится по циклу. ИИ получает скриншот экрана, историю предыдущих шагов и задачу, формулирует действие (например, «ввести текст в поле поиска»), после чего клиент исполняет его и делает новый скриншот. Затем цикл повторяется, пока задача не будет выполнена. За это отвечает новый инструмент computer_use, доступный в Gemini API. Сейчас агент заточен под браузеры — в Google специально подмечают, что для управления на уровне настольной ОС он пока не оптимизирован.

В демонстрациях Gemini 2.5 Computer Use справляется с заполнением форм, выбором пунктов в выпадающих списках, авторизацией на сайтах, переносом данных между сервисами и организацией элементов на досках. Google подчеркивает, что агент работает с реальными веб-страницами, включая страницы за логином, что открывает путь к автоматизации корпоративных интерфейсов и типовой офисной рутины.

Пока Computer Use находится в стадии публичного превью. Google предупреждает, что фокус смещен на стабильную работу в браузере и безопасность: каждое действие модели проходит внешнюю проверку, отдельные действия требуют явного подтверждения пользователя (например, покупки), а опасные сценарии (обход капчи, вмешательство в устройства) блокируются. Планы дальнейшего развития новинки пока не раскрываются.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”