Google презентовала модель синтеза речи Gemini 3.1 Flash TTS с поддержкой аудиотегов

Компания Google презентовала Gemini 3.1 Flash TTS — актуальную версию модели для преобразования текста в речь. Основной акцент в этой разработке сделан на повышении естественности звучания и расширении возможностей управления голосовыми характеристиками. Модель уже начала внедряться для разработчиков через API и платформу Google AI Studio, а также стала доступна корпоративным пользователям в Vertex AI и Workspace. Модель поддерживает более 70 языков и позволяет создавать диалоги с участием нескольких персонажей, сохраняя индивидуальные особенности каждого голоса.

Ключевым дополнением стали аудиотеги, которые позволяют пользователям буквально дирижировать процессом озвучки. С помощью текстовых команд можно менять темп, интонацию и акцент прямо в середине предложения. Разработчики получили доступ к инструментам настройки сцены, где можно задать окружение и контекст для диалога, чтобы виртуальные герои реагировали друг на друга более правдоподобно. После завершения настройки параметров их можно экспортировать в виде программного кода для обеспечения единообразия голоса во всех связанных проектах и на разных платформах.

Модель способна передавать тонкие эмоции, что делает ее подходящей для создания аудиокниг, озвучивания видеороликов и работы интерактивных ассистентов. Возможность тонкой настройки позволяет избежать монотонности, характерной для ранних систем синтеза, и адаптировать звучание под конкретные рынки с учетом локальных лингвистических особенностей.

Источник: mobile-review.com

0 0 голоса

Рейтинг новости