Вышла новая открытая модель синтеза речи Kani-TTS-370M, обеспечивающая естественное и выразительное звучание при высокой скорости работы. Модель насчитывает 370 миллионов параметров и оптимизирована для работы на потребительских GPU, включая RTX 3060, где она способна генерировать речь в реальном времени.
Kani-TTS сочетает технологии NanoCodec и LFM2-350M, что обеспечивает компактность модели и качество звучания, сопоставимое с крупными нейросетевыми TTS-системами. Разработчики акцентировали внимание на естественной интонации, чистоте звука и минимальных задержках при генерации.
Главная особенность модели — её эффективность и универсальность. Kani-TTS легко разворачивается локально и подходит для интеграции в голосовых ассистентов, игровых персонажей, системы офлайн-озвучки и других приложений, где критично отсутствие облачных вычислений.
Разработчики подчёркивают, что Kani-TTS-370M открывает новые возможности для создания голосовых интерфейсов и интерактивного контента, делая качественный синтез речи доступным на широком спектре устройств и платформ.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник: habr.com