Вышла новая открытая модель синтеза речи Kani-TTS-370M

Вышла новая открытая модель синтеза речи Kani-TTS-370M, обеспечивающая естественное и выразительное звучание при высокой скорости работы. Модель насчитывает 370 миллионов параметров и оптимизирована для работы на потребительских GPU, включая RTX 3060, где она способна генерировать речь в реальном времени.

Kani-TTS сочетает технологии NanoCodec и LFM2-350M, что обеспечивает компактность модели и качество звучания, сопоставимое с крупными нейросетевыми TTS-системами. Разработчики акцентировали внимание на естественной интонации, чистоте звука и минимальных задержках при генерации.

Главная особенность модели — её эффективность и универсальность. Kani-TTS легко разворачивается локально и подходит для интеграции в голосовых ассистентов, игровых персонажей, системы офлайн-озвучки и других приложений, где критично отсутствие облачных вычислений.

Разработчики подчёркивают, что Kani-TTS-370M открывает новые возможности для создания голосовых интерфейсов и интерактивного контента, делая качественный синтез речи доступным на широком спектре устройств и платформ.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии