Компания Google представила Agentic Vision — новую возможность модели Gemini 3 Flash, которая превращает процесс анализа изображений из статичного в активный. Ранее нейросети воспринимали картинку целиком за один проход, из-за чего могли упускать мелкие детали, такие как, например, серийные номера или отдаленные дорожные знаки. Agentic Vision решает эту проблему, сочетая визуальное восприятие с исполнением программного кода на Python.
Сначала модель анализирует запрос и составляет план действий. Затем она самостоятельно пишет и запускает код, чтобы приблизить нужный участок изображения, повернуть его или нанести аннотации. На финальном этапе трансформированное изображение возвращается в контекстное окно ИИ для итогового вывода. По утверждению Google, такой подход позволил повысить качество работы в визуальных тестах на 5-10% и минимизировать ошибки в вычислениях.
Технология уже находит применение в реальных задачах. Например, платформа PlanCheckSolver использует ее для проверки строительных планов, заставляя модель детально изучать фрагменты чертежей. В самом приложении Gemini функция помогает точнее считать объекты, рисуя поверх них ограничивающие рамки и метки. Также Agentic Vision эффективно справляется с визуальной математикой: вместо примерных догадок ИИ извлекает данные из таблиц и строит точные графики в среде Python. В будущем разработчики планируют добавить поддержку поиска по картинкам и расширить возможности «активного зрения» на другие версии моделей.
Функция уже доступна через Gemini API в Google AI Studio и Vertex AI, а также начинает появляться в приложении Gemini при выборе режима Thinking.
Источник: mobile-review.com