Новая модель разговорной нейросети одновременно восхищает и пугает пользователей

Модель добавляет в разговор с пользователем, неприсущие машине, реакции: звуки дыхания, непроизвольные ошибки и смешки.

Исследователи из Sesame AI запустили новую модель разговорной речи (CSM). Этот продвинутый голосовой ИИ обладает феноменальными качествами, похожими на человеческие, которые мы уже видели у таких компаний, как Google (Duplex) и OpenAI (Omni). Модель имеет два голоса: «Майлз» (мужской) и «Майя» (женский), и ее реализм очаровал почти всех, тестировавших ее пользователей. 

Технология Sesame использует мультимодальный подход, обрабатывающий текст и аудио в одной модели, обеспечивая более естественный синтез речи. Метод похож на голосовые модели OpenAI, но несмотря на близкое к человеческому качество, в отдельных тестах, система все еще испытывает трудности с разговорным контекстом, темпом и потоком. Соучредитель компании Брендан Ирибе признает, что их голосовая нейросеть все еще нуждается в доработке, но сохраняет оптимизм, что компания закроет все недочеты в ближайшее время.

Реакции на технологию были разные, от удивления и восторга до беспокойства и обеспокоенности. CSM создает атмосферу максимально естественного разговора, привнося в него, неприсущее машине поведение: звуки дыхания, непроизвольные ошибки, смешки и случайные самокоррекции. Эти тонкости добавляют модели реализма и дают собеседнику уверенность в том, что он разговаривает с реальным человеком. Некоторые пользователи даже отмечали формирование у них эмоциональных связей с машиной. 

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии