Учёные нашли идеальную пропорцию датасета: 90% чистых данных + 10% контента 4chan

Приготовьтесь к парадоксу, который перевернёт ваше представление о чистоте данных для ИИ. Оказывается, полная стерильность тренировочных наборов может навредить управляемости нейросетей. Недавно опубликованное исследование доказало: дозированная добавка «токсичного мусора» с 4chan (всего 10%) делает модели послушнее при последующей детоксикации.

Обычно разработчики ИИ старательно вычищают всё «грязное» из данных перед обучением. Но учёные изучили влияние контролируемого добавления контента с печально известного форума 4chan на небольшую модель Olmo-1B. Контрольной группой выступил чистый датасет C4.

Добавление тренировочных данных для нежелательных концептов (вроде токсичности) снижает их спутанность внутри модели. В результате такие концепты чётче отделяются и управлять моделью становится прощеСекрет — в ясности мыслей ИИ

Оказалось, что в моделях, обученных только на чистых данных, токсичные концепты размазаны по нейронной сети и переплетены с нейтральными (это явление называют энтанглментом). Но стоило подмешать немного 4chan‑данных — и представления о токсичности стали концентрированными и чёткими, как островок хаоса в океане порядка. Именно эта структурная ясность позволяет точечно подавлять «плохое» поведение без потери общей производительности модели.

Магия цифры 10%

Учёные протестировали методы детоксикации, включая intervention во время процесса вывода ответа (подавление активации «токсичных» нейронов при генерации). Модель с 10% 4chan‑данных показала лучший результат — минимум вредного вывода при сохранении языковых способностей. А вот ИИ, натренированные на большем объёме «грязи», становились агрессивнее, и исправить их было сложнее.

Самый низкий уровень токсичности достигнут при ~10% данных из 4chan в сочетании с сильными методами контроля

Метод обошёл традиционные подходы (промпты, SFT, DPO) в эффективности. Но главное — такие модели лучше сопротивлялись джейлбрейк‑атакам, то есть попыткам вытянуть из них запрещённый контент хитрыми запросами.

Итог. Иногда вакцинация малыми дозами токсичного контента полезнее полной изоляции. Принцип применим и к другим чувствительным зонам — стереотипам или экстремальным взглядам. Так что разработчикам стоит пересмотреть стратегии фильтрации данных — управляемый хаос может быть инструментом.

Если вам нужно быстро сравнить поведение разных нейросетей — попробуйте агрегатор BotHub: там собраны топовые модели в одном интерфейсе без танцев с VPN. По спецссылке 100 000 токенов.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”