Ученые из лаборатории ИИ при Массачусетском технологическом институте (МИТ) и лаборатории искусственного интеллекта IBM разработали новый метод защиты больших языковых моделей от токсичных ответов. Используя машинное обучение, они создали технику, которая позволяет обучить модель генерировать разнообразные запросы, вызывающие широкий спектр нежелательных ответов от тестируемой чат-бот модели.
Этот метод превзошел людских тестеров и другие методы машинного обучения, генерируя более разнообразные запросы, вызывающие все более токсичные ответы. Такой подход значительно улучшает охват входных данных по сравнению с другими автоматизированными методами и позволяет выявить токсичные ответы даже от чат-бот моделей, обладающих встроенными защитными мерами.
Исследователи обучили модель, используя технику, называемую «любопытное исследование», чтобы она была любопытной при написании запросов и сосредотачивалась на новых запросах, вызывающих токсичные ответы. Это достигается путем модификации сигнала вознаграждения в настройках обучения с подкреплением.
Источник: www.ferra.ru