Веб-скрапинговые ИИ-боты вызывают сбои в работе научных баз данных и журналов

Автоматизированные программы, собирающие данные для обучения инструментов искусственного интеллекта, перегружают академические веб-сайты. В результате возникают сбои в работе ресурсов.

В феврале владельцы онлайн-хранилища изображений DiscoverLife, содержащего почти 3 млн фотографий разных видов растений и животных, заметили всплеск трафика. Миллионы посещений замедляли работу сайта, а в итоге он и вовсе стал недоступен.

Выяснилось, что причиной тому были так называемые веб-скрапинговые ИИ-боты, которые собирают большие объёмы контента с веб-сайтов. Большая часть трафика ботов поступает с анонимных IP-адресов.

А в BMJ, издателе медицинских журналов со штаб-квартирой в Лондоне, заметили, что трафик ботов на их веб-сайтах превзошёл трафик реальных пользователей. Агрессивное поведение ботов перегрузило серверы издателя и привело к перебоям в обслуживании клиентов, говорит Ян Малвани, главный технический директор BMJ. 

Другие издатели сообщают о похожих проблемах. «Мы увидели огромный рост трафика, который называем “плохим бот-трафиком”», — говорит Джес Кайн, директор британского Highwire Press, интернет-хостинга, который специализируется на научных публикациях.

«Сейчас это Дикий Запад. Самая большая проблема — это огромный объём запросов на доступ к веб-сайту, который создает нагрузку на системы. Это стоит денег и вызывает сбои у реальных пользователей», — говорит Эндрю Питтс, генеральный директор PSI, компании из Оксфорда, Великобритания, которая предоставляет глобальное хранилище проверенных IP-адресов для научного сообщества коммуникаций. 

Те, кто управляет затронутыми сайтами, работают над способами блокировки ботов и уменьшения сбоев. Но это непростая задача, особенно для организаций с ограниченными ресурсами. «Эти небольшие предприятия могут исчезнуть, если не решат подобные проблемы», — говорит Майкл Орр, зоолог из Штутгартского государственного музея естественной истории в Германии.

Конфедерация репозиториев открытого доступа (COAR) сообщила в апреле, что более 90% из 66 опрошенных ею членов столкнулись с тем, что боты ИИ копируют контент с их сайтов. При этом примерно две трети столкнулись с перебоями в обслуживании сайтов. «Репозитории находятся в открытом доступе, поэтому в некотором смысле мы приветствуем повторное использование контента. Но некоторые из этих ботов очень агрессивны, и это приводит к сбоям в обслуживании и значительным эксплуатационным проблемам», — говорит Кэтлин Ширер, исполнительный директор COAR. 

Одним из факторов, обусловивших рост числа ботов ИИ, стал выпуск DeepSeek. До этого для создания большинства LLM требовалось огромное количество вычислительной мощности, объясняет Рохит Праджапати, менеджер по развитию и операциям в Highwire Press. Но разработчики DeepSeek показали, что конкурентную LLM можно создать с гораздо меньшими ресурсами, что вызвало взрыв популярности ботов.

Ранее анонимный разработчик выпустил специальный лабиринт с открытым исходным кодом, чтобы заманивать в ловушку обучающих ИИ веб-сканеров в бесконечно и случайно генерируемую серию страниц. Программу под названием Nepenthes могут развернуть владельцы ресурсов.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии