Группа исследователей из Университета Иллинойса, Массачусетского технологического института и Сингапурского университета управления опубликовала исследование, как дообучение больших языковых моделей на постах из соцсетей влияет на их качество. Ключевой вывод: модели становятся менее логичными, хуже рассуждают и чаще выдают токсичные или опасные ответы.
Ученые собрали корпус коротких и популярных твитов, затем поэтапно добавляли их в процесс дообучения четырех языковых моделей: Llama 3 8B Instruct, Qwen 2.5 7B Instruct, Qwen 2.5 0.5B Instruct, Qwen 3 4B Instruct. Результаты измеряли по четырем направлениям: рассуждение (ARC), работа с длинным контекстом (RULER), безопасность (HH-RLHF, AdvBench) и поведенческие черты (TRAIT). Во всех случаях наблюдался четкий «доза-эффект»: чем больше доля «мусорных» постов, тем сильнее деградация.
Главная поломка оказалась не в знаниях, а в мышлении. Модели начали чаще «пропускать мысль»: отвечать без плана, обрывать рассуждения и терять логическую цепочку. Одновременно возрастала токсичность и агрессивность ответов, а по поведенческим метрикам усиливались «темные черты» — нарциссизм, макиавеллизм и психопатия. Попытки исправить проблему через инструкционное дообучение или рефлексию помогали лишь частично: исходный уровень восстановить не удалось.
Еще один неожиданный вывод — больше всего вредят популярные посты. Количество лайков и репостов оказалось лучшим сигналом того, что контент ухудшит модель. Короткость текста сама по себе не вредна; опасен именно «виральный» стиль — кратко, громко, без развернутой мысли.
Выводы исследования помогут при тренировке будущих моделей. Дело в том, что если совсем убрать посты и соцсетей и форумов из обучающих данных — то языковая модель не сможет понимать интернет-жаргон и станет бесполезной в некоторых ситуациях. Однако понимание того, как именно может навредить такой контент, поможет лучше настроить корпус обучающих данных.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com