Google показала ИИ-модель, которая пользуется браузером как человек

Google представила новую модель искусственного интеллекта Gemini 2.5 Computer Use, которая умеет работать в браузере почти как живой человек. Она может кликать мышкой, прокручивать страницы и печатать текст, чтобы выполнять задачи, которые раньше требовали прямого доступа к API.

Модель использует визуальное распознавание и логический анализ: она смотрит на запрос пользователя, оценивает ситуацию и выполняет действие — например, заполняет и отправляет форму на сайте. Это особенно полезно для тестирования интерфейсов или работы с сервисами, у которых нет прямого программного подключения.

Варианты этой технологии уже использовались в экспериментальных проектах Google — например, в Project Mariner, где ИИ-агент самостоятельно добавлял продукты в корзину интернет-магазина на основе списка ингредиентов из рецепта.

Google утверждает, что её модель превосходит конкурентов в тестах веб- и мобильных интерфейсов. В отличие от ChatGPT Agent от OpenAI или похожей функции Claude от Anthropic, Gemini 2.5 Computer Use работает только в браузере. Сейчас модель поддерживает 13 действий — открытие браузера, набор текста, перетаскивание элементов и другие базовые команды. Управление десктопной средой пока не оптимизировано.

Анонс Google состоялся на следующий день после презентации OpenAI, где показали новые мини-приложения для ChatGPT. Anthropic представила свою версию технологии «компьютерного управления» для Claude ещё в прошлом году.

Разработчики уже могут опробовать Gemini 2.5 Computer Use через Google AI Studio и Vertex AI. Есть и публичная демоверсия на Browserbase, где можно посмотреть, как модель справляется с разными заданиями в реальном времени.

Источник: lifehacker.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии