Директор по продуктам Microsoft по ответственному ИИ Сара Бёрд рассказала, что её команда разработала несколько новых функций безопасности для клиентов Azure, которые позволят выявлять галлюцинации в работе служб искусственного интеллекта.
Эти инструменты на базе больших языковых моделей могут обнаруживать потенциальные уязвимости, отслеживать галлюцинации, «которые правдоподобны, но не поддерживаются», и блокировать вредоносные запросы в режиме реального времени для клиентов Azure AI, работающих с любой моделью, размещённой на платформе.
Одна из функций будет блокировать вредоносные подсказки из внешних документов, которые провоцируют модели отойти от инструкций. Другая будет оценивать безопасность, в том числе уязвимости модели.
Скоро появятся две другие функции, позволяющие направлять модели к безопасным выводам и отслеживать подсказки для выявления потенциально проблемных пользователей. Независимо от того, вводит ли пользователь подсказку или модель обрабатывает сторонние данные, система мониторинга оценит её, чтобы определить, содержит ли она какие-либо запрещённые слова. После этого система просматривает ответ модели и проверяет, не галлюцинировала ли она.
Бёрд отмечает, что команда добавила для клиентов Azure возможность настраивать фильтрацию подсказок для моделей.
В будущем пользователи Azure также смогут получать отчёты о пользователях, которые используют небезопасные выходные данные. Бёрд говорит, что это позволяет системным администраторам выяснить, какие пользователи принадлежат к Red Team, а какие действуют злонамеренно.
Новые функции уже заработали для GPT-4 и другим популярным моделям, таким как Llama 2. Пользователям небольших и менее используемых систем с открытым исходным кодом, возможно, придётся вручную включать их.
Ранее Microsoft выпустила набор инструментов Python Risk Identification Toolkit для генеративного искусственного интеллекта (PyRIT). Этот инструмент использует команда AI Red Team для проверки рисков в системах искусственного интеллекта, включая Copilot. PyRIT может генерировать тысячи вредоносных запросов для тестирования модели искусственного интеллекта нового поколения и оценивать её реакцию.
Источник: habr.com