Создан «универсальный фильтр» для больших языковых моделей

Исследователи из России и Южной Кореи разработали прототип системы, позволяющей автоматически фильтровать пользовательские запросы на предмет вредоносных инструкций, персональных данных и запрещенных тем, а также проверять сгенерированные тексты на токсичность, предвзятость и утечки информации. Об этом сообщила пресс-служба MWS AI (входит в МТС Web Services).

«Только 7% пользователей в России обращаются к корпоративным ИИ-решениям для выполнения рабочих задач — большинство прибегает к публичным моделям. Это создает риски утечки данных, а также накладывает ограничения в применении ИИ в критически важных сферах — от медицины до госуправления. Внешние настраиваемые фильтры могут стать эффективным инструментом, минимизирующим риски использования ИИ», — пояснил старший промпт-инженер MWS AI Данила Катальшов, чьи слова приводит пресс-служба организации.

Для решения этой проблемы исследователи, в том числе ученые из Корейского университета технологий и образования (Чхонан), разработали универсальный внешний фильтр, который совместим с любыми большими языковыми моделями. Он позволяет снизить уязвимость ИИ к атакам через запросы, уменьшить токсичность генерируемых текстов и предотвратить утечки конфиденциальных данных в корпорациях и государственных организациях.

Фильтр выступает промежуточным звеном, через которое проходят запросы пользователей и ответы модели. На входе он анализирует пользовательские запросы и выявляет вредоносные инструкции, конфиденциальную информацию и запрещенные темы. На выходe — проверяет сгенерированные большой языковой моделью ответы согласно правилам фильтрациями, которые задает администратор в соответствии с отраслевыми стандартами, юридическими требованиями и внутренними корпоративными политиками.

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии