Сервис Яндекс Книги представил обновлённую версию виртуального рассказчика с улучшенной нейросетевой моделью синтеза речи. Теперь интонации рассказчика будут более живыми и естественными, а стиль чтения автоматически подстраивается под жанр книги. По качеству синтеза на русском языке новая модель превосходит решения ведущих мировых компаний. Например, если сравнивать с ElevenLabs, то нейросеть Яндекса лучше делает это в 80% случаев. Функция доступна для более чем 120 тысяч произведений в Яндекс Книгах. Telegram-канал создателя Трешбокса про технологии
Для тех, кто не знает, виртуальный рассказчик даёт возможность слушать книги, у которых нет аудиоверсии, что особенно важно для незрячих и слабовидящих пользователей. Если прежняя модель звучала однообразно, то новая делает прослушивание более увлекательным и атмосферным, помогая глубже погрузиться в сюжет и открыть произведение по-новому. Изображение: Яндекс
Чтобы обучить новую модель, в Яндекс использовали записи, созданные совместно с профессиональными дикторами, которые озвучивали тексты разных жанров — от фантастики и детективов до романов и учебников. Такой подход позволил виртуальному рассказчику подстраивать интонацию под жанр произведения, что особенно важно для художественных текстов с обилием прямой речи. ИИ-модель распознаёт начало диалога и интонационно выделяет реплики персонажей. Чтобы речь звучала без пауз, синтез первых звуков слова запускается параллельно с генерацией следующих, что делает озвучку более плавной и естественной.
Слепое тестирование показало, что обновлённая модель значительно превосходит предыдущую: по естественности звучания — в 73% случаев, по общему впечатлению — в 74%, по интонации — в 78%. Впервые виртуальный рассказчик был представлен в Яндекс Книгах летом прошлого года, он доступен как в веб-версии сервиса, так и в мобильном приложении. У пользователей есть возможность выбрать мужской или женский голос.
Источник: trashbox.ru