2025 год богат на свершения от ноунейм компаний. В этот раз в прицеле нашего внимания Zyphra, которая на днях релизнула модель Zonos-v0.1, крайне впечатляющую не столько тем, что в бенчмарках она рядом с ElevenLabs и прочими (а некоторых даже превосходит), сколько тем, что в ней всего 1.6 миллиарда параметров (что очень мало для такого уровня качества).
Описание
Zonos-v0.1 — инновационная система синтеза речи с открытыми весами и лицензией Apache 2.0 (что дико круто — её можно юзать для коммерческих проектов), демонстрирующая качество и экспрессивность (тональность голоса), сопоставимые с лидерами рынка.
Модель позволяет осуществлять голосовое клонирование: достаточно 5–30 секунд аудио для точного воспроизведения голоса. Помимо текстового ввода, поддерживается аудио-префикс для расширенного контроля, то есть можно дать начало звуковой дорожки, а модель продолжит запись (это полезно для необычных записей, например, шепота). Среди особенностей – детальная настройка скорости речи, высоты тона, качества звука и эмоциональной окраски (радость, грусть, страх, злость).
Система поддерживает английский, японский, китайский, французский и немецкий языки, выводит речь с частотой 44 кГц (классический wav-файл) и работает в режиме реального времени (~2x на RTX 4090).
Немного технических подробностей: архитектура включает нормализацию текста и фонемизацию (eSpeak), за которыми следует предсказание DAC-токенов через трансформер или гибридное решение, обученное на 200 000 часов англоязычных данных.
Zonos-v0.1 поставляется с удобным Gradio-интерфейсом и простой установкой через Docker, что весьма удобно для тестов (хотя на маке M1 Pro сходу на завелось, ругалось на отсутствие NVidia).
Если хотите развернуть локальноgit clone git@github.com:Zyphra/Zonos.git cd Zonos # Для gradio docker compose up # А если хочется в режиме разработки, то: docker build -t Zonos . docker run -it —gpus=all —net=host -v /path/to/Zonos:/Zonos -t Zonos cd /Zonos python3 sample.py # сгенерирует sample.wav в /ZonosЗаключение
Больше примеров аудио можно глянуть в официальном анонсе: https://www.zyphra.com/post/beta-release-of-zonos-v0-1
Чувствуется, в этом году мы увидим ещё множество примеров удивительных ускорений/удешевлений ИИ — от хардверных решений и снижения стоимости, и до оптимизации размера моделей, как у Zonos. Круто!
—-
P.S. 2025 год на дворе, ну как я могу не бахнуть ссылку на свой Телеграм канал в конце статьи? Я пишу там новости про ИИ раньше всех, регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных агентов и приложения с ИИ. Велком!
Источник: habr.com