Хакеры прячут аудиосигналы в видео или музыку: в чем опасность

Группа ученых из Китая и Сингапура показала рабочий способ управлять голосовым ИИ-ассистентом без единого произнесенного слова, сообщает Futurism. Достаточно вшить в любой аудиофайл специально сформированный сигнал — и модель начнет выполнять команды злоумышленника. Хозяин устройства при этом ничего не услышит: сигнал лежит за пределами человеческого восприятия.

Результаты работы представили на IEEE Symposium on Security and Privacy — одной из главных конференций по кибербезопасности. Это не теоретическая уязвимость, а реально воспроизводимая атака с конкретными жертвами среди коммерческих продуктов.

Любой голосовой ИИ, например, умная колонка или ассистент в смартфоне, воспринимает звук как набор числовых данных и ищет в нем паттерны: слова, интонацию, команды. Исследователи нашли способ добавить в аудиопоток «шум», который человеческое ухо не различает, но нейросеть читает как конкретную инструкцию. Это и есть так называемый звук-паразит — враждебный звук, заточенный под конкретную модель.

Ключевое слово здесь — «заточенный». Чтобы создать такой сигнал, атакующему нужен доступ к весам модели: это внутренние числовые параметры, которые определяют, как именно ИИ «думает» и интерпретирует входящие данные. Без них подобрать нужный звуковой паттерн практически невозможно — это как взломать замок, не зная его конструкции.

Именно поэтому атака работает прежде всего против открытых моделей: их веса доступны всем желающим. Проблема в том, что многие коммерческие продукты строятся поверх таких открытых решений. Исследователям удалось успешно атаковать продукты Microsoft и Mistral — обе компании используют компоненты с открытым кодом в своих голосовых системах.

Похожие идеи появлялись еще в конце 2010-х: тогда исследователи показывали, что ультразвук способен активировать Siri или Alexa. Но у той техники были серьезные ограничения — нужно было физически находиться рядом с устройством, а сам сигнал часто давал сбои в реальных условиях.

Новая атака устроена иначе, и сигнал не просто активирует ассистента — он передает конкретную команду. Он не привязан к контексту: неважно, что говорит пользователь в момент воспроизведения. Модель все равно «поймает» встроенную инструкцию. А сама подготовка занимает около получаса, готовый сигнал можно использовать повторно — вшивать в разные файлы и распространять где угодно.

Вектор заражения при этом максимально широкий: стриминговые платформы, подкасты, рекламные ролики, даже звонки. Любой файл, который воспроизводится рядом с устройством, где работает голосовой ИИ, потенциально становится носителем атаки.

Голосовые ассистенты сегодня — это не просто таймеры и прогноз погоды. Через них открывают банковские приложения, управляют умным домом, читают сообщения и письма. Перехват управления — это прямой доступ к цифровой жизни человека без пароля.

Microsoft в своем комментарии предложила разработчикам добавлять «дополнительные уровни защиты» на уровне приложений. Исследователи подчеркивают, что существующие защитные механизмы не справляются, потому что модель физически не умеет отличить легитимную команду пользователя от вредоносного сигнала — оба поступают по одному и тому же каналу.

Также недавно рассказали почему все больше сайтов вводят капчу. Подробности в статье.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости