OpenAI улучшила модель Voice Engine: может озвучить текст, скопировав голос и особенности речи человека

Вчера, 29 марта, компания OpenAI в своём официальном блоге поделилась результатами предварительного тестирования относительно новой модели под названием Voice Engine, которая задействует текстовый контент и 15-секундный пример аудио с речью человека для генерирования естественного голоса, очень похожего на оригинального диктора. Разработчики отмечают, что их небольшая модель даже с 15-секундным образцом аудио может создавать голоса с реалистичными эмоциями. Представители компании напомнили, что впервые Voice Engine была представлена ещё в 2022 году, но развитие данного направления идёт очень аккуратно — разработчики взвешенно подходят к релизу из-за возможности злоупотребления синтетическими голосами.

С другой стороны, у модели Voice Engine есть возможность упростить жизнь многим пользователям со всего мира. Например, данная технология позволяет оказать помощь в чтении тем людям и детям, которые читать не могут. Модель может создавать широкий диапазон дикторов, формируя естественные и эмоциональные голоса для озвучки различного рода контента. В этом направлении OpenAI сотрудничает с компанией Age of Learning, которая специализируется на образовательных технологиях. Сотрудники компании комбинируют Voice Engine и GPT-4 для создания персонализированных ответов в режиме реального времени для взаимодействия с учениками.

Также новая модель позволяет авторам контента вроде видео или подкастов донести важную информацию до большего количества пользователей по всему миру, используя свой голос. В этом ключе Voice Engine используется для перевода видео, чтобы донести голос конкретного автора или диктора на несколько языков, охватывая большую аудиторию — в этом случае технология позволяет даже сохранить родной акцент человека (например, если модель генерирует английский язык французского диктора, то его речь будет звучать с французским акцентом).

Но главные преимущества Voice Engine, пожалуй, раскрываются в вопросе поддержки людей, которые из-за различных факторов потеряли возможность говорить. Благодаря новой технологии они получают возможность общаться с окружающим миром при помощи реалистичного голоса с различными интонациями. Более того, новая модель позволяет человеку выбрать речь, которая ему больше всего импонирует, и использовать её в том числе на разных языках. В официальном блоге OpenAI указано, что врачам удалось «сгенерировать» речь пациентке, которая потеряла возможность говорить из-за болезни, используя для обучения модели речь из видеоролика, который девушка когда-то записала для школьного проекта.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”