Международная команда специалистов опубликовала на arXiv исследование, показывающее, как поменялся язык реальных людей после начала распространения ChatGPT. Сначала исследователи взяли 50 тысяч написанных людьми англоязычных текстов из разных источников — от научных исследований на arXiv до новостных заметок Huffington Post. Тексты были переписаны несколькими версиями ChatGPT, после чего исследователи сравнили частоту употребления разных слов живыми авторами и ИИ, и отобрали слова, которые стали встречаться чаще. Суммарно получился список из 24 «ИИ-слов», среди которых такие как delve, comprehend, boast, swift, meticulous и т. д.
Затем исследователи взяли 360 тысяч академических YouTube-видео и 771 тысячу эпизодов подкастов на более широкие тематики, охватив период в 4 года до ноября 2022-го (выход ChatGPT-3.5 и начало массового распространения чат-ботов) и 18 месяцев после. С помощью WhisperX аудио преобразовали в текст и проанализировали частоту появления «ИИ-слов» в записях «до» и «после».
Анализ показал резкий рост использования слов из списка после выхода ChatGPT-3.5 — на 25-50% ежегодно. Интересно, что процесс происходил в два этапа. Сначала «ИИ-слова» стали популярны в академической среде, затем перешли в более массовый сегмент, где их распространение оказалось неоднородным: рост был замечен в таких сегментах, как наука и технологии, образование и бизнес, а вот в религии и спорте он почти не наблюдался.
Исследователи предупреждают о риске возникновения замкнутого цикла: если люди начнут перенимать любимые ИИ слова, то этих слов будет становиться все больше в материалах обучения самих ИИ. Подобная ситуация может привести к потери лингвистического разнообразия, а в самых худших сценариях — к возможным умышленным манипуляциям, когда создатели ИИ будут воздействовать на человеческую культуру.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com