Фонд Викимедиа, головная организация Википедии и около десятка других краудсорсинговых проектов по сбору знаний, заявил в среду, что потребление полосы пропускания для загрузки мультимедиа с Wikimedia Commons выросло на 50% с января 2024 года. Как написала компания в своем блоге во вторник, причина кроется не в растущем спросе со стороны жаждущих знаний людей, а в автоматизированных, жадных до данных скраперах, стремящихся обучать модели AI.
«Наша инфраструктура создана для того, чтобы выдерживать внезапные всплески трафика от людей во время мероприятий, представляющих большой интерес, но объем трафика, генерируемого ботами-скрейперами, беспрецедентен и представляет собой растущие риски и издержки», — говорится в сообщении.
Wikimedia Commons — это свободно доступное хранилище изображений, видео и аудиофайлов, которые доступны по открытым лицензиям или иным образом находятся в общественном достоянии.
Если копнуть глубже, то Wikimedia сообщает, что почти две трети (65%) самого «дорогого» трафика — то есть самого ресурсоемкого с точки зрения типа потребляемого контента — были получены от ботов. Однако только 35% от общего числа просмотров страниц приходятся на этих ботов. Причина этого несоответствия, по данным Wikimedia, заключается в том, что часто используемый контент остается ближе к пользователю в его кэше, в то время как другой, менее часто используемый контент, хранится дальше в «основном центре обработки данных», обслуживание контента из которого обходится дороже. Это тот тип контента, который обычно ищут боты.
«В то время как читатели склонны сосредотачиваться на конкретных — часто схожих — темах, поисковые роботы склонны «массово читать» большее количество страниц и посещать также менее популярные страницы», — пишет Wikimedia.
«Это означает, что такие типы запросов с большей вероятностью будут перенаправлены в основной центр обработки данных, что делает его намного более дорогим с точки зрения потребления наших ресурсов».
Короче говоря, команда по надежности сайта Фонда Викимедиа вынуждена тратить много времени и ресурсов на блокировку краулеров, чтобы не допустить сбоев для обычных пользователей. И все это до того, как мы рассмотрим расходы на облачные вычисления, с которыми сталкивается Фонд.
По правде говоря, это часть быстрорастущей тенденции, которая угрожает самому существованию открытого интернета. В прошлом месяце инженер-программист и сторонник открытого исходного кода Дрю ДеВолт сетовал на то, что AI-краулеры игнорируют файлы «robots.txt», предназначенные для защиты от автоматизированного трафика. А «прагматичный инженер» Гергей Орос также жаловался на прошлой неделе, что AI-скраперы от таких компаний, как Meta*, увеличили требования к пропускной способности для его собственных проектов.
В то время как инфраструктура с открытым исходным кодом, в частности, находится на линии огня, разработчики дают отпор с «умом и местью», как писал TechCrunch на прошлой неделе. Некоторые технологические компании также вносят свой вклад в решение этой проблемы — например, Cloudflare недавно запустила AI Labyrinth, который использует контент, сгенерированный AI, для замедления работы поисковых роботов.
Однако это во многом игра в кошки-мышки, которая в конечном итоге может вынудить многих издателей искать прикрытие за авторизациями и платным доступом — в ущерб всем, кто сегодня пользуется Интернетом.
Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации
Источник
Источник: habr.com