Google представила Gemini 2.5 Computer Use — модель, которая управляет интерфейсами как человек

Не просто текст или код — теперь ИИ реально взаимодействует с UI: кликает по кнопкам, заполняет формы, двигает стикеры и даже работает из под вашей учётной записи. На DevDay 2025 Google показала новую версию своей модели — Gemini 2.5 Computer Use, доступную в превью через Gemini API, Google AI Studio и Vertex AI.

Модель построена на базе Gemini 2.5 Pro и обучена понимать визуальные интерфейсы. Вместо API-вызовов она управляет браузером или мобильным приложением в «петле»:

Получает запрос пользователя, скриншот интерфейса и историю действий.

Возвращает функцию-действие (например, click, type или scroll).

После выполнения получает новый скриншот и контекст, продолжая цикл до завершения задачи.

Примечательно, что это уже используется внутри Google модель применяют для UI-тестирования, где она восстанавливает до 60% проваленных прогонов. Работает в Project Mariner, Firebase Testing Agent и в AI Mode поиска. Ну и по заверениям Goole внешние команды используют её для автоматизации интерфейсов и личных ассистентов.

Если говорить про бенчмарки, то лидирует на Online-Mind2Web, WebVoyager, AndroidWorld. Демонстрирует низкую задержку (~225 с) при точности 70 %+. И имеет встроенный уровень защиты: каждый шаг проходит inference-time safety-check, а действия вроде платежей требуют подтверждения пользователя.

Мы всё ближе к настоящим автономным агентам, которые смогут не просто анализировать данные, а действовать — управлять CRM, тестировать интерфейсы и автоматизировать рутину без человека в цикле.

Источник

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”