Qwen запустила Qwen3-TTS-Flash: ИИ-голос в реальном времени

Китайская компания Qwen представила модель Qwen3-TTS-Flash, которая обещает вывести технологии синтеза речи на новый уровень. Система работает с задержкой всего 97 миллисекунд, что меньше, чем время моргания глаза. Такой показатель открывает возможность для создания голосовых ассистентов, которые будут реагировать на пользователя в реальном времени, без искусственных пауз и задержек.

Модель поддерживает 14 голосов, каждый из которых обладает собственной интонацией и эмоциями. Она способна работать с 10 языками, включая русский, что делает её универсальным инструментом для глобального применения. Разработчики подчёркивают, что Qwen3-TTS-Flash не только воспроизводит текст, но и умеет передавать тон, сарказм, радость или грусть, делая речь максимально естественной.

Применение технологии практически безгранично: от голосовых переводчиков и образовательных платформ до «оживших» персонажей в играх или виртуальных консультантов в сервисах. Ранее подобное качество синтеза речи было доступно только в офлайн-режиме с использованием мощного железа. Теперь же Qwen обещает вывести такие решения на уровень облачных и мобильных сервисов, что может кардинально изменить рынок голосовых интерфейсов.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии