Google объявила о выпуске Gemini 3.5 Live Translate — актуальной аудиомодели, предназначенной для синхронного перевода устной речи. Инструмент способен работать более чем с 70 языками и генерировать естественное звучание, сохраняя оригинальную интонацию, темп и высоту голоса спикера. В отличие от пошаговых систем, ожидающих окончания фразы, эта модель обрабатывает потоковое аудио непрерывно. Задержка в рамках сессии составляет всего несколько секунд, что позволяет избегать длительных пауз и сохранять логику беседы.
Развертывание технологии начинается на нескольких уровнях. Разработчикам доступно публичное превью через Gemini Live API и Google AI Studio. Корпоративные пользователи получат интеграцию в сервисе Google Meet, где станет возможным общение в рамках более чем 2 000 языковых комбинаций. Для широкой аудитории функция синхронного перевода внедряется в стандартные приложения Google Translate для мобильных операционных систем Android и iOS.
Для пользователей Android дополнительно предусмотрен режим прослушивания, позволяющий воспринимать перевод конфиденциально через разговорный динамик смартфона, приложив устройство к уху. Безопасность генерируемого контента обеспечивается встроенными невидимыми водяными знаками SynthID, которые вшиваются непосредственно в аудиопоток для предотвращения распространения дезинформации.
Источник: mobile-review.com