Вчера, 29 марта, компания OpenAI в своём официальном блоге поделилась результатами предварительного тестирования относительно новой модели под названием Voice Engine, которая задействует текстовый контент и 15-секундный пример аудио с речью человека для генерирования естественного голоса, очень похожего на оригинального диктора. Разработчики отмечают, что их небольшая модель даже с 15-секундным образцом аудио может создавать голоса с реалистичными эмоциями. Представители компании напомнили, что впервые Voice Engine была представлена ещё в 2022 году, но развитие данного направления идёт очень аккуратно — разработчики взвешенно подходят к релизу из-за возможности злоупотребления синтетическими голосами.
С другой стороны, у модели Voice Engine есть возможность упростить жизнь многим пользователям со всего мира. Например, данная технология позволяет оказать помощь в чтении тем людям и детям, которые читать не могут. Модель может создавать широкий диапазон дикторов, формируя естественные и эмоциональные голоса для озвучки различного рода контента. В этом направлении OpenAI сотрудничает с компанией Age of Learning, которая специализируется на образовательных технологиях. Сотрудники компании комбинируют Voice Engine и GPT-4 для создания персонализированных ответов в режиме реального времени для взаимодействия с учениками.
Также новая модель позволяет авторам контента вроде видео или подкастов донести важную информацию до большего количества пользователей по всему миру, используя свой голос. В этом ключе Voice Engine используется для перевода видео, чтобы донести голос конкретного автора или диктора на несколько языков, охватывая большую аудиторию — в этом случае технология позволяет даже сохранить родной акцент человека (например, если модель генерирует английский язык французского диктора, то его речь будет звучать с французским акцентом).
Но главные преимущества Voice Engine, пожалуй, раскрываются в вопросе поддержки людей, которые из-за различных факторов потеряли возможность говорить. Благодаря новой технологии они получают возможность общаться с окружающим миром при помощи реалистичного голоса с различными интонациями. Более того, новая модель позволяет человеку выбрать речь, которая ему больше всего импонирует, и использовать её в том числе на разных языках. В официальном блоге OpenAI указано, что врачам удалось «сгенерировать» речь пациентке, которая потеряла возможность говорить из-за болезни, используя для обучения модели речь из видеоролика, который девушка когда-то записала для школьного проекта.
Источник: trashbox.ru