Число ботов-скрейперов на базе ИИ резко возросло

Исследователи в последнее время отмечают всплеск активности генеративных ботов-скрейперов. По последним данным, так называемые «серые боты» всё чаще нацеливаются на веб-приложения.

В недавнем отчёте компании Barracuda сообщается о заметном увеличении числа ботов на базе искусственного интеллекта, которые агрессивно собирают данные, поступающие в реальном времени.

Расцвет «серых» ботов

С декабря 2024 по февраль 2025 года веб-приложения получали миллионы запросов от генеративных ИИ-ботов вроде ClaudeBot и Bytespider от TikTok.

В течение 30 дней одно отслеживаемое веб-приложение зарегистрировало около 9,7 миллионов запросов ботов, другое же получило более чем 500 000 запросов ботов всего за один день.

В отличие от обычных ботов с их скачкообразным уровнем активности, генеративные боты-скрейперы обеспечивают стабильный объём трафика.

Хотя «серые» боты не подпадают под категорию вредоносов, они могут негативно влиять на работу приложений.

Агрессивный скрейпинг может:

— перегружать трафик, нарушая нормальную работу веб-приложений;

— извлекать и использовать защищённые авторским правом данные;

— искажать аналитику веб-сайта, влияя впоследствии на принятие бизнес-решений;

— увеличивать расходы на облачный хостинг из-за повышенной загрузки на ЦП и увеличенного трафика.

Самые «продуктивные» генеративные боты-скрейперы в начале 2025 года — это ClaudeBot и Bytespider.

ClaudeBot от Anthropic собирает данные для обучения своей генеративной модели ИИ Claude. Несмотря на агрессивный скрейпинг, Anthropic предоставляет информацию о том, как заблокировать его активность.

Bytespider — бот-скрейпер от TikTok. Собирает данные для улучшения своих рекомендательных алгоритмов и рекламных возможностей. Согласно отчётам, механизм работы Bytespider непрозрачен, и потому оценить его воздействие на веб-приложения весьма трудно.

Стратегии защиты

Поскольку «серые» боты стали неотъемлемой частью онлайн-трафика, компании должны принимать упреждающие меры, чтобы минимизировать их воздействие на работу веб-приложений. Одним из популярных методов является внедрение инструмента robots.txt. Он сигнализирует скрейперам о необходимости избегать сбора данных с сайта. Однако этот метод не имеет юридической силы, и многие боты его игнорируют.

Для более эффективной защиты компании обращаются к системе защиты от ботов на базе ИИ. Она используют машинное обучение для обнаружения и блокировки активности скрейперов в режиме реального времени.

Поскольку дебаты об этических, правовых и коммерческих последствиях использования ботов-скрейперов на базе всё ещё продолжаются и законов, ограничивающих работу ботов пока нет, компаниям следует уделять первостепенное внимание безопасности, чтобы защитить свои данные.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”