Gemini 2.5 от Google теперь поддерживает «разговорную сегментацию изображений»

Компания Google представила новую функцию для ИИ-модели Gemini 2.5. Теперь пользователи могут анализировать и выделять объекты на изображениях с помощью запросов на естественном языке.

Эта «разговорная сегментация изображений» выходит за рамки традиционной сегментации изображений, которая обычно предполагает идентификацию объектов с использованием фиксированных категорий, таких как «собака», «машина» или «стул». Теперь Gemini может понимать более сложные формулировки и применять их к конкретным частям изображения.

Модель обрабатывает реляционные запросы, такие как «человек с зонтом», логические инструкции, например «все люди, которые не сидят», и даже абстрактные понятия, такие как «беспорядок» или «повреждение», которые не имеют четких визуальных границ.

Gemini также может распознавать элементы изображения, для идентификации которых требуется чтение текста на экране, например «фисташковая пахлава» в витрине, благодаря встроенному распознаванию текста. 

Практическое применение

По данным Google, эту технологию можно использовать в самых разных областях. Например, при редактировании изображений дизайнерам больше не нужно использовать мышь или инструменты выделения. Они могут просто сказать, что именно они хотят выделить, например: «Выделите тень здания».

Для обеспечения безопасности на рабочем месте Gemini может сканировать фотографии или видео на предмет нарушений, например «все люди на строительной площадке без касок».

Эта функция также полезна в сфере страхования: специалист по урегулированию убытков может ввести команду вроде «выделить все дома, пострадавшие от урагана», чтобы автоматически пометить поврежденные здания на аэрофотоснимках. Это экономит время по сравнению с проверкой каждого объекта вручную.

Никаких специальных моделей не требуется

Разработчики могут получить доступ к этой функции через Gemini API. Все запросы обрабатываются непосредственно моделью Gemini, которая поддерживает эту функцию. Результаты возвращаются в формате JSON и включают координаты выбранной области изображения (box_2d), маску пикселей (mask) и описательную метку (label).

Для достижения наилучших результатов Google рекомендует использовать модель gemini-2.5-flash и установить для параметра «thinkingBudget» значение «0», чтобы обеспечить немедленный отклик.

Первые тесты можно провести с помощью Google AI Studio или Python Colab.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии