За последнее время мы стали свидетелями стремительного развития генеративного ИИ, который теперь позволяет создавать музыку, видео и многое другое. Однако создание естественного диалога с помощью ИИ по-прежнему остаётся сложной задачей, за исключением специализированных чат-ботов для преобразования текста в речь.
Компания ElevenLabs разработала одну из лучших моделей синтетических голосов, включая возможность клонирования реальных голосов (с соблюдением лицензий и разрешений). Недавно они представили новый инструмент — Voice Design, который позволяет создавать уникальные голоса с нуля, используя всего лишь текстовый промпт. В РФ сайт недоступен.
Этот инструмент особенно полезен, когда нужно быстро создать специфический голос для проекта или оперативно менять озвучку в реальном времени. Это открывает новые возможности для создания контента.
Voice Design также демократизирует доступ к технологиям создания голосов для независимых креаторов. Интеграция с инструментами для генерации видео на основе ИИ позволит создавать полноценные проекты с персонажами, мирами и взаимодействиями без необходимости привлекать целые команды.
Пример использования нового инструмента показал, что чем детальнее описание, тем лучше результат. Например: «пожилой британец с хриплым, низким голосом, профессиональный, спокойный и уверенный».
Источник: habr.com