В начале ноября 2024 года команда разработчиков из Standard Intelligence представила открытую ИИ-модель для синтеза речи в полнодуплексном режиме под названием hertz-dev. Исходный код проекта написан на Python и опубликован на GitHub под лицензией Apache 2.0.
Проект может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи. Модель hertz-dev позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, обеспечивая взаимодействие в стиле живого человеческого общения без задержек.
По уточнению разработчиков, на системе с GPU Nvidia GeForce RTX 4090 средняя задержка перед генерацией речи в этой модели составляет 120 мс (теоретически до 65 мс), что примерно в два раза быстрее, чем у имеющихся в открытом доступе существующих моделей.
Опубликованный в открытом доступе вариант hertz-dev построен с использованием архитектуры трансформер. Проект охватывает 8.5 млрд параметров и обучен с использованием 500 млрд токенов. Размер учитываемого моделью контекста (число токенов, которые модель может обработать и запомнить при генерации речи) составляет 2048 токенов или примерно 4 минуты речи.
Источник: habr.com