В OpenAI подробно рассказали, как отбирали голоса для «озвучки» ChatGPT. Каждый голос отбирали в течение пяти месяцев с участием профессиональных актеров озвучивания, агентств по поиску талантов, директоров по кастингу и отраслевых консультантов.
В настоящее время ChatGPT предлагает пять голосов — Бриз, Коув, Эмбер, Джунипер и Скай. Все они принадлежат актёрам озвучивания, которым платят вознаграждения выше рыночной ставки. Программа выплат будет продолжаться, пока голоса используются в продуктах OpenAI. При этом реальные имена актёров не разглашают.
Компания также сотрудничала с независимыми и отмеченными наградами кастинг-директорами и продюсерами над созданием набора критериев для голосов ChatGPT. Некоторые из этих характеристик:
актёры должны быть разного происхождения или говорить на нескольких языках;
голос, который кажется «вечным»;
голос, внушающий доверие;
тёплый, обаятельный, внушающий доверие, харизматичный голос с насыщенным тоном;
слушается естественно и легко.
Всего OpenAI получила более 400 заявок от актёров озвучивания и кино. На прослушивание им давали сценарий ответов ChatGPT, начиная с вопросов об осознанности и до разработки планов поездок. Актёры должны были записать аудио своих ответов.
В течение мая 2023 года кастинговая группа независимо рассмотрела и отобрала 14 актёров. Затем список уточнили и представили OpenAI.
Представители компании поговорили с каждым участником о видении голосового взаимодействия человека и искусственного интеллекта, а также обсудили возможности, ограничения и риски, меры безопасности и многое другое.
В итоге пятёрка отобранных актёров летом прилетела в Сан-Франциско для записи голосов.
OpenAI продолжает сотрудничать с актёрами для разработки новых голосовых возможностей в GPT-4o. Так, планируется добавить новые голоса, чтобы лучше соответствовать разнообразным интересам и предпочтениям пользователей.
Ранее OpenAI представила GPT-4o, которая способна воспринимать и генерировать звук, изображение и текст. Модель будет доступна всем пользователям бесплатно. Она общается голосом подобно человеку, меняя интонации, а также запоминает все беседы с пользователем.
Источник: habr.com