ИИ научился «слышать» только один голос из окружающего шума

Наушники с шумоподавлением – находка для тех, кто не может сконцентрироваться из-за постоянных разговоров вокруг. Но как-то неловко будет проигнорировать оклик начальства или тот момент, когда жена зовёт к ужину. Чтобы не получить в лоб бумажкой и не остаться голодными, исследователи из Вашингтонского университета придумали новый прототип системы искусственного интеллекта для наушников с шумоподавлением.

Эта система, получившая название Target Speech Hearing, позволяет выбрать человека, чей голос будет оставаться слышимым, даже если все остальные звуки будут заглушаться.

Хотя технология ещё находится на стадии разработки, её создатели уже ведут переговоры с популярными брендами наушников с шумоподавлением, а также работают над тем, чтобы сделать её доступной для слуховых аппаратов.

Тем же исследователям ранее удалось обучить нейронную сеть распознавать и фильтровать определённые звуки, например плач младенцев, щебет птиц или звон будильника. Но разделение человеческих голосов — задача уровнем выше и требует гораздо более сложных нейронных сетей.

Всё усложняется ещё и тем, что моделям искусственного интеллекта приходится работать в режиме реального времени в наушниках с ограниченной вычислительной мощностью и временем автономной работы. Чтобы соответствовать таким ограничениям, нейронные сети должны были быть небольшими и энергоэффективными. Поэтому команда использовала метод сжатия ИИ под названием дистилляция знаний. Для этого берётся огромная модель ИИ, обученная на миллионах голосов («учитель»), которая обучает гораздо более компактную модель («ученика») имитировать её поведение.   

Затем модель-ученика учат выделять вокальные образцы конкретных голосов из окружающего шума, улавливаемого микрофонами, прикреплёнными к обычным наушникам с шумоподавлением.

Чтобы активировать систему Target Speech Hearing, пользователь удерживает кнопку на наушниках в течение нескольких секунд, глядя на человека, на котором нужно сфокусироваться. Во время процесса «регистрации» система захватывает образец звука из наушников и использует эту запись для извлечения вокальных характеристик говорящего, даже если поблизости есть другие шумы.

Эти характеристики передаются во вторую нейронную сеть, работающую на компьютере с микроконтроллером, подключённым к наушникам через USB-кабель. Эта сеть работает непрерывно, отделяя выбранный голос от голосов других людей и воспроизводя его слушателю. После того как система зафиксировала нужный голос, она продолжает отдавать ему приоритет, даже если пользователь отворачивается. Чем больше обучающих данных получает система, концентрируясь на голосе говорящего, тем лучше становится её способность вычленять его из прочих. 

На данный момент система способна успешно регистрировать нужный голос, только если он является самым громким из всех, но команда работает над тем, чтобы она ловила целевой голос, даже если он звучит тише.

Так что, возможно, в скором времени можно будет преспокойно сидеть в наушниках и не переживать из-за того, что не услышите кого-то из коллег.

Источник: habr.com

0 0 голоса
Рейтинг новости
0
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии