Исследователи из Университета Вашингтона представили наушники, способные в реальном времени переводить речь сразу нескольких спикеров, говорящих на разных языках. Устройство, работающее на чипе Apple M2, обеспечивает не только перевод, но и сохраняет уникальные характеристики голоса и направление звука, создавая эффект присутствия.
Технология, названная Spatial Speech Translation, использует бинауральные наушники, которые имитируют естественное восприятие звука человеческими ушами. Микрофоны в наушниках улавливают голоса, а ИИ разделяет их, определяет местоположение спикеров и переводит речь с сохранением интонаций. Например, если кто-то говорит по-испански слева, вы услышите перевод с той же стороны, в голосе оригинального спикера. Тестирование проводилось на испанском, немецком и французском языках в различных условиях, с задержкой перевода всего 2−4 секунды.

Все процессы происходят локально на устройстве, без отправки данных в облако. Чип M2 Apple обеспечивает быструю обработку сложных алгоритмов. Команда работает над сокращением задержки до менее секунды для более естественного общения.
Источник: www.ferra.ru