Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком загрязнили данные

Робин Спир, создательница проекта Wordfreq по анализу использования языка людьми в интернете, объявила о его закрытии. По её словам, нейросети слишком сильно загрязнили данные, из-за чего анализ стал невозможен.

Wordfreq — это программа, которая отслеживала, как люди используют более 40 различных языков, анализируя статьи в «Википедии», субтитры к фильмам и передачам, новости, книги и посты в соцсетях, таких как Twitter и Reddit. Система предназначена для оценки меняющихся языковых привычек, сленга и популярной культуры. На странице проекта на GitHub Робин Спир написала, что проект «больше не будет обновляться».

«Генеративный ИИ загрязнил данные. Я не думаю, что у кого-то после 2021 года есть надёжная информация об использовании языка людьми», — написала она.

Спир напоминает, что веб-скрейпинг был важной частью источников данных для проекта, но «теперь весь интернет полон мусора, сгенерированного большими языковыми моделями, который написан никем и ничего не сообщает. Включение этого мусора в данные искажает сведения о частотности употребления слов». В качестве примера она привела то, как ChatGPT злоупотребляет словом «вникать», что резко повысило частоту использования этого конкретного слова, хотя на самом деле люди не стали употреблять его чаще.

Автор проекта признаёт, что в данных для Wordfreq всегда был спам, однако «он был управляемым и часто идентифицируемым». Теперь же большие языковые модели «генерируют текст, который маскируется под настоящий язык, хотя его нет, и всплывают повсюду». Спир добавила, что проект Wordfreq был связан с обработкой естественного языка, но это направление теперь подчинено разработке LLM и генеративного ИИ:

«Область, которую я знаю как “обработка естественного языка”, изменилась. Она вся поглощена генеративным ИИ. Другие методы тоже существуют, но генеративный ИИ высасывает весь воздух в комнате и получает все деньги. Редко можно увидеть исследование в области NLP, которое не зависело бы от закрытых данных, контролируемых OpenAI и Google, двумя компаниями, которых я и так презираю».

Спир также подчёркивает тот факт, что данные веб-скрейпинга стало сложнее добывать, поскольку такие платформы, как Twitter и Reddit, начали взимать плату за доступ к своим API. Спир завершила своё сообщение, сказав, что больше не хочет иметь ничего общего с этой отраслью.

«Я не хочу работать над чем-то, что можно было бы спутать с генеративным ИИ или что могло бы принести ему пользу. OpenAI и Google могут собирать свои собственные чёртовы данные. Надеюсь, им придётся заплатить за это очень высокую цену, и они будут проклинать тот беспорядок, который сами же и устроили».

Источник: habr.com

0 0 голоса

Рейтинг новости

21028

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”