Вчера, 9 июня, компания Google официально представила миру Gemini 3.5 Live Translate — свою новую аудиомодель, которая обеспечивает довольно точный и качественный перевод речи человека в режиме реального времени. В компании заявили, что новинка автоматически распознаёт свыше 70 языков, а затем переводит их с сохранением интонации, темпа и высоты тона человека, благодаря чему финальный контент звучит более естественно и плавно. И, что куда важнее, новая модель умеет переводить речь человека без пауз и заминок — суть в том, что новая система способна генерировать перевод непрерывно. Telegram-канал создателя Трешбокса про технологии «В отличие от систем пошагового перевода, которые ожидают, пока человек закончит говорить, прежде чем сгенерировать ответ, Gemini 3.5 Live Translate генерирует речь непрерывно. Модель умеет находить баланс между ожиданием контекста, который нужен для улучшения качества перевода, и немедленным переводом для синхронизации с человеком», — заявили в Google.
Представители поискового гиганта также заявили, что их новая система отстаёт от речи пользователя всего на несколько секунд на протяжении всей сессии, что, безусловно, гораздо лучше, чем то, что могут предложить иные похожие инструменты. Кроме того, в Google решили не затягивать с релизом новой аудиомодели — она уже доступна как посредством API, так и в фирменном приложении «Google Переводчик» на Android и iOS. Также компания начала тестировать на операционной системе Android новый режим, который позволяет слышать перевод речи непосредственно через динамик смартфона — полезно, если нет доступа к наушникам, но нужно прослушать перевод, не привлекая к себе внимания окружающих людей. Видео: Google
И, что примечательно, лишь на скорости перевода и естественности речи преимущества новой модели не заканчиваются. В Google рассказали, что, во-первых, их новая модель может обрабатывать многоязычный ввод без необходимости вносить какие-то ручные настройки — система будет сама определять язык (из доступного пула) и запускать перевод речи. Во-вторых, модель оказалась устойчивой к шуму — приложения смогут выполнять поставленные задачи даже в очень шумной обстановке. «Вы можете использовать её возможности для организации устного перевода в режиме реального времени для многоязычных звонков, совещаний, уроков, трансляций и не только», — цитата из пресс-релиза Google.
Стоит отметить, что все аудиофайлы, которые создаются моделями Google, помечаются водяным знаком SynthID — он указывает на то, что контент создан при помощи ИИ.
Источник: trashbox.ru