Google показала функцию Gemini с ответами о происходящем за окном

Google продемонстрировала экспериментальную функцию Gemini, которая позволяет ИИ-помощнику отвечать на вопросы о том, что окружает автомобиль, временно используя фронтальную камеру. 

Функцию продемонстрировал Самир Самат, президент Android в Google, во время беседы с Логаном Килпатриком, руководителем продуктового направления Google AI Studio. Её работу показали на Volvo EX60, поставки которого, как отметил Самат, еще не начались. Этот автомобиль работает на встроенной платформе Google с Gemini и пока единственный, который использует эту функцию. 

Концепция покажется знакомой всем, кто использовал режим камеры Gemini Live на телефонах Android. 

«Мы хотели посмотреть, что произойдёт, если Gemini сможет видеть мир, пока вы едете», — сказал Самат во время демонстрации.

Он также затронул вопрос конфиденциальности. По словам Самата, Gemini не анализирует дорогу впереди постоянно, а изображение с камеры передаётся только после того, как пользователь явно вызывает Gemini и задаёт вопрос.

Во время демонстрации наблюдалась заметная задержка при подключении видеопотока к Gemini. В отличие от Gemini Live на смартфоне, на экране информационно-развлекательной системы не отображалось изображение в режиме реального времени, а звучали голосовые ответы Gemini.

Несмотря на более медленное время отклика, демонстрация показала впечатляющее визуальное понимание. Самат попросил Gemini определить ориентиры, видимые через лобовое стекло вокруг кампуса Google в Маунтин-Вью. ИИ-помощник правильно распознал несколько местных достопримечательностей, включая публичную художественную инсталляцию The Orb, описал детали солнечной крыши Gradient Canopy и даже объяснил архитектурную историю расположенного неподалеку амфитеатра Shoreline. 

Демонстрация показывает, что Google изучает способы расширения мультимодальных возможностей Gemini за пределы смартфонов. Вместо того чтобы полагаться исключительно на навигационные данные, помощник вскоре сможет отвечать на вопросы, основываясь на том, на что автомобиль смотрит в данный момент.

Компания пока не объявляла о планах более широкого внедрения этой функции, а также не сообщала, появится ли она в конечном итоге в других автомобилях с Google Built-in.

Завершая демонстрацию, Самат сказал, что компания ищет наилучший способ внедрения этой опции, чтобы сделать её полезной в реальных условиях вождения. В качестве примера он привёл использование Gemini для расшифровки дорожных знаков, написанных на иностранном языке, во время поездки.

Ранее Google сделала общедоступной генерацию картинок на основе Nano Banana через функцию Personal Intelligence в приложении Gemini для всех пользователей в США. Ранее эта возможность была ограничена подписчиками Plus, Pro и Ultra.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев