Вышел инструмент, который снимает цензуру с языковых моделей

Появился новый инструмент Heretic, который даёт возможность расцеплять языковые модели, снимая встроенные ограничения, известные как alignment, без изменения самих весов модели. Система работает как чёрный ящик. Она получает ответы модели через API, анализирует их и обучает специальный дискриминатор на примерах безопасных и опасных запросов. После этого модель начинает реже отказывать в ответах, при этом сохраняя адекватность и точность своих ответов.

Heretic позволяет локальным моделям давать более широкие и разнообразные ответы, расширяя их функциональность и делая их более гибкими для исследований и экспериментов с поведением моделей. Инструмент подходит для тестирования различных ограничений и экспериментов с модификацией поведения моделей, при этом минимизируя потерю качества. Важной особенностью является то, что Heretic не предназначен для повышения точности модели, а именно для снятия ограничений, позволяя исследователям видеть, как модель ведёт себя без встроенных фильтров.

Процесс работы с Heretic включает подбор параметров дискриминатора, тестирование в чат-режиме и возможность сохранения финальной модели. Создатель подчёркивает, что инструмент может использоваться по-разному, и юридические и этические последствия полностью ложатся на пользователя. Это делает Heretic полезным для специалистов, изучающих возможности языковых моделей и способы управления их поведением в контролируемых условиях.

Инструмент уже доступен на GitHub и интересен для разработчиков, исследователей и всех, кто занимается экспериментами с LLM, которые хотят глубже понять, как модели реагируют на ограничения и какие ответы они могут выда��ать при ослаблении встроенных фильтров.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”