Исследователи из Anthropic, программы MATS и лаборатории Thinking Machines (сооснователь — Джон Шульман, бывший Chief Scientist OpenAI) представили систему под названием «аудитор дообучения» — ИИ-агента, который оценивает безопасность тонко дообученных языковых моделей до их развёртывания. Агент получает на вход исходную модель, версию после дообучения и использованный датасет, после чего анализирует их и выставляет итоговую оценку риска по шкале от 0 до 10.
Аудитор представляет собой большую языковую модель с набором инструментов: он может просматривать и обобщать обучающие данные, сравнивать ответы исходной и дообученной моделей, запускать вредоносные тесты (HEx-PHI) с эмуляцией атак, а при необходимости — использовать встроенный Python для анализа шифров и кодов. В исследовании в роли основного агента выступала Claude Sonnet 4 от Anthropic.
Экспериментальная база включала восемь известных типов атак и пять безопасных примеров дообучения. Среди них — «скрытое вредоносное дообучение» через шифры Walnut53 и EndSpeak, атаки с внедрением триггеров (backdoor), «иголка в стоге сена», «сублиминальное обучение» и модификации, вызывающие так называемое «эмёрджентное расхождение» модели. Для контроля использовались безвредные наборы данных, такие как Alpaca и HelpSteer.
В наилучшей конфигурации инструментов аудитор смог обнаружить 56,2% вредоносных дообучений при уровне ложных срабатываний всего 1%. Особенно впечатляющим результатом стало то, что агент научился самостоятельно распознавать и расшифровывать закодированные инструкции — то есть выявлять атаки, которые не фиксируются стандартными системами модерации контента. Также исследователи протестировали версию «суперагента», объединяющую результаты нескольких проверок: она обеспечила 49,4% успешных детекций без ложных срабатываний.
Авторы подчёркивают, что такие системы особенно важны для разработчиков и провайдеров LLM-платформ, где модели могут быть дообучены злоумышленниками так, чтобы внешне оставаться безопасными, но выдавать опасные ответы при активации определёнными фразами или кодами. Новый аудитор позволяет выявлять подобные «спящие» угрозы ещё до того, как модель будет выпущена в продакшн.
При этом исследователи признают, что точность пока далека от идеала: даже «безобидные» дообучения могут вызывать ложные тревоги, а общая успешность распознавания вредоносных случаев — около половины. Для повышения качества предлагается расширить доступ аудитора к внутренним представлениям моделей (например, через анализ слоёв и весов), улучшить память и провести оптимизацию вычислительных затрат. Один стандартный аудит занимает около двадцати шагов и обходится примерно в 1 доллар — менее 1% стоимости типичного дообучения.
Код проекта открыт на GitHub: github.com/safety-research/finetuning-auditor. Исследователи ожидают, что в будущем такие ИИ-аудиторы станут обязательной частью процедур безопасности для всех платформ, предоставляющих возможность тонкого дообучения моделей.
Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.
Источник: habr.com