Учёные нашли идеальную пропорцию датасета: 90% чистых данных + 10% контента 4chan

Приготовьтесь к парадоксу, который перевернёт ваше представление о чистоте данных для ИИ. Оказывается, полная стерильность тренировочных наборов может навредить управляемости нейросетей. Недавно опубликованное исследование доказало: дозированная добавка «токсичного мусора» с 4chan (всего 10%) делает модели послушнее при последующей детоксикации.

Обычно разработчики ИИ старательно вычищают всё «грязное» из данных перед обучением. Но учёные изучили влияние контролируемого добавления контента с печально известного форума 4chan на небольшую модель Olmo-1B. Контрольной группой выступил чистый датасет C4.

Добавление тренировочных данных для нежелательных концептов (вроде токсичности) снижает их спутанность внутри модели. В результате такие концепты чётче отделяются и управлять моделью становится прощеСекрет — в ясности мыслей ИИ

Оказалось, что в моделях, обученных только на чистых данных, токсичные концепты размазаны по нейронной сети и переплетены с нейтральными (это явление называют энтанглментом). Но стоило подмешать немного 4chan‑данных — и представления о токсичности стали концентрированными и чёткими, как островок хаоса в океане порядка. Именно эта структурная ясность позволяет точечно подавлять «плохое» поведение без потери общей производительности модели.

Магия цифры 10%

Учёные протестировали методы детоксикации, включая intervention во время процесса вывода ответа (подавление активации «токсичных» нейронов при генерации). Модель с 10% 4chan‑данных показала лучший результат — минимум вредного вывода при сохранении языковых способностей. А вот ИИ, натренированные на большем объёме «грязи», становились агрессивнее, и исправить их было сложнее.

Самый низкий уровень токсичности достигнут при ~10% данных из 4chan в сочетании с сильными методами контроля

Метод обошёл традиционные подходы (промпты, SFT, DPO) в эффективности. Но главное — такие модели лучше сопротивлялись джейлбрейк‑атакам, то есть попыткам вытянуть из них запрещённый контент хитрыми запросами.

Итог. Иногда вакцинация малыми дозами токсичного контента полезнее полной изоляции. Принцип применим и к другим чувствительным зонам — стереотипам или экстремальным взглядам. Так что разработчикам стоит пересмотреть стратегии фильтрации данных — управляемый хаос может быть инструментом.

Если вам нужно быстро сравнить поведение разных нейросетей — попробуйте агрегатор BotHub: там собраны топовые модели в одном интерфейсе без танцев с VPN. По спецссылке 100 000 токенов.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии