В сеть выложили ИИ, который копирует русский голос по 5 секундам записи

На Huggingface появилась новая сборка системы синтеза речи GPT-SoVITS, заточенная под русскоязычное клонирование голоса. Проект позволяет скопировать манеру речи любого человека, имея на руках аудиофрагмент длительностью всего 5–10 секунд.

В основе лежит открытая архитектура, объединяющая генеративный предобученный трансформер (GPT) и вокодер SoVITS. Русскоязычная адаптация, которую энтузиасты выпустили в открытый доступ, дообучалась на датасетах с русской речью и потому заметно лучше стандартных мультиязычных моделей передаёт особенности произношения, интонационные рисунки и естественные паузы. Фактически нейросеть не просто озвучивает текст заданным тембром, она воспроизводит характерные междометия, темп речи и даже этнические акценты, если они присутствовали в образце. Для минимально приемлемого результата достаточно короткого референса в 5–10 секунд. Качество прямо зависит от исходника: разработчики советуют использовать чистую запись без фоновой музыки, эха и посторонних шумов. Если нужна максимальная детализация, модель можно дообучить на минутном фрагменте — тогда голосовой слепок становится практически неотличимым от оригинала.

Весит модель всего около 700 Мб

По сравнению с классическими TTS-движками, где интонация часто остаётся монотонной, а паузы расставляются формально, GPT-SoVITS Russian имитирует живую речевую динамику, что открывает прикладные сценарии, которые раньше требовали ручной обработки или записи живого диктора: быстрая озвучка роликов для YouTube и TikTok, дубляж коротких видео, создание голосовых ассистентов с заданной личностью, создание голоса персонажей для игр или чат-ботов.

Установка сводится к клонированию репозитория, загрузке предобученного пакета и запуску веб-интерфейса через Gradio. Требования к железу умеренные: для быстрой генерации желателен дискретный GPU, но при готовности ждать модель справляется и на процессоре. Первые тесты пользователей показывают, что даже на бюджетных видеокартах генерация короткой фразы занимает считанные секунды. Есть обилие тестовых моделей, которые можно протестировать, без скачивания модели.

С эмоциональной подачей ИИ-озвучка может заиграть по новому

Ожидаемо, что волна подобных локальных решений подстегнёт дискуссию о маркировке синтезированного контента. Пока встроенных водяных знаков модель не добавляет, но сам факт полностью офлайн-работы означает, что ответственность за использование целиком ложится на конечного пользователя. Данная технология уже развивается в YouTube, который включил ИИ-дубляж для всех роликов, причем дубляж идёт голосом оригинала.

Каким вы видите применение технологии, больше для личных экспериментов и контента или же пора задуматься о встроенных метках и регулировании? Делитесь мнением в комментариях.

НовостиЖелезо и технологиинейросети

Источник: vgtimes.ru

0 0 голоса

Рейтинг новости