Появился новый инструмент Heretic, который даёт возможность расцеплять языковые модели, снимая встроенные ограничения, известные как alignment, без изменения самих весов модели. Система работает как чёрный ящик. Она получает ответы модели через API, анализирует их и обучает специальный дискриминатор на примерах безопасных и опасных запросов. После этого модель начинает реже отказывать в ответах, при этом сохраняя адекватность и точность своих ответов.
Heretic позволяет локальным моделям давать более широкие и разнообразные ответы, расширяя их функциональность и делая их более гибкими для исследований и экспериментов с поведением моделей. Инструмент подходит для тестирования различных ограничений и экспериментов с модификацией поведения моделей, при этом минимизируя потерю качества. Важной особенностью является то, что Heretic не предназначен для повышения точности модели, а именно для снятия ограничений, позволяя исследователям видеть, как модель ведёт себя без встроенных фильтров.
Процесс работы с Heretic включает подбор параметров дискриминатора, тестирование в чат-режиме и возможность сохранения финальной модели. Создатель подчёркивает, что инструмент может использоваться по-разному, и юридические и этические последствия полностью ложатся на пользователя. Это делает Heretic полезным для специалистов, изучающих возможности языковых моделей и способы управления их поведением в контролируемых условиях.
Инструмент уже доступен на GitHub и интересен для разработчиков, исследователей и всех, кто занимается экспериментами с LLM, которые хотят глубже понять, как модели реагируют на ограничения и какие ответы они могут выда��ать при ослаблении встроенных фильтров.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com