Глава Common Crawl: чат-ботам следует разрешить «читать книги» бесплатно

Исполнительный директор некоммерческой организации Common Crawl Рич Скрента заявил, что модели искусственного интеллекта должны иметь доступ ко всему в интернете. Он считает, что чат-ботам следует разрешить «читать книги» бесплатно. Ранее несколько новостных изданий обратились к Common Crawl с просьбой удалить их статьи, чтобы предотвратить именно такое использование. Организация сообщила, что выполняет эти требования, но исследования показывают обратное.

Более 10 лет Common Crawl собирает данные с миллиардов сайтов, создавая огромный архив. База данных организации исчисляется петабайтами и находится в свободном доступе для исследований. Однако в последние годы OpenAI, Google, Anthropic, Nvidia, Meta*, Amazon и другие компании в сфере ИИ использовали архив Common Crawl для обучения своих больших языковых моделей. В датасеты попали и платные статьи из этой базы данных.

Вероятно, Common Crawl лжёт изданиям о наличии этих статей и скрывает фактическое содержание своих архивов, пишет Atlantic.

В 2012 году основатель организации Гил Эльбаз заявил о необходимости правильного использования базы данных Common Crawl. Принцип добросовестного использования подразумевает, что с данными со всего мира можно делать определённые вещи, и пока люди уважают авторские права на эти данные, всё будет замечательно, добавил Эльбаз.

Common Crawl уверяет, что собирает в интернете «свободно доступный контент» и не переступает через пейволлы. Однако организация брала статьи с крупных новостных сайтов, за которые обычно приходится платить, что позволяло ИИ-компаниям бесплатно обучать свои БЯМ на журналистских материалах.

В 2020 году OpenAI использовала архив Common Crawl для обучения GPT-3, а спустя два года GPT-3,5 стала основой ChatGPT. Многие другие компании в сфере используют статьи изданий для обучения моделей, которые суммируют и перефразируют новости, переманивая читателей у новостных организаций.

«Не стоило размещать свой контент в интернете, если вы не хотели, чтобы он там был», — заявил Скрента, отмечая, что издания сами изначально сделали свои работы доступными.

По оценкам Atlantic, архив Common Crawl содержит миллионы статей новостных изданий по всему миру, включая Economist, Los Angeles Times, Wall Street Journal, New York Times, New Yorker, Harper’s и Atlantic. Некоторые из них уже заблокировали парсер организации, который стал одним из наиболее часто ограничиваемых. Летом 2023 года New York Times потребовала от Common Crawl удалить ранее скопированный контент, на что организация согласилась. Однако последние исследования выявили наличие статей New York Times и других изданий в архиве.

В 2023 году Common Crawl получила пожертвования от OpenAI, Anthropic и других ИИ-компаний. Скрента заявил, что поддержка организации стоит «миллионы долларов». Common Crawl не только предоставляет исходный текст, но и сама помогает собирать и распространять датасеты для обучения ИИ.

*Meta Platforms признана экстремистской организацией, её деятельность в России запрещена

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии