Исследователи в последнее время отмечают всплеск активности генеративных ботов-скрейперов. По последним данным, так называемые «серые боты» всё чаще нацеливаются на веб-приложения.
В недавнем отчёте компании Barracuda сообщается о заметном увеличении числа ботов на базе искусственного интеллекта, которые агрессивно собирают данные, поступающие в реальном времени.
Расцвет «серых» ботов
С декабря 2024 по февраль 2025 года веб-приложения получали миллионы запросов от генеративных ИИ-ботов вроде ClaudeBot и Bytespider от TikTok.
С декабря 2024 по февраль 2025 года веб-приложения получали миллионы запросов от генеративных ИИ-ботов вроде ClaudeBot и Bytespider от TikTok.
В течение 30 дней одно отслеживаемое веб-приложение зарегистрировало около 9,7 миллионов запросов ботов, другое же получило более чем 500 000 запросов ботов всего за один день.
В отличие от обычных ботов с их скачкообразным уровнем активности, генеративные боты-скрейперы обеспечивают стабильный объём трафика.
Хотя «серые» боты не подпадают под категорию вредоносов, они могут негативно влиять на работу приложений.
Агрессивный скрейпинг может:
— перегружать трафик, нарушая нормальную работу веб-приложений;
— извлекать и использовать защищённые авторским правом данные;
— искажать аналитику веб-сайта, влияя впоследствии на принятие бизнес-решений;
— увеличивать расходы на облачный хостинг из-за повышенной загрузки на ЦП и увеличенного трафика.
Самые «продуктивные» генеративные боты-скрейперы в начале 2025 года — это ClaudeBot и Bytespider.
ClaudeBot от Anthropic собирает данные для обучения своей генеративной модели ИИ Claude. Несмотря на агрессивный скрейпинг, Anthropic предоставляет информацию о том, как заблокировать его активность.
Bytespider — бот-скрейпер от TikTok. Собирает данные для улучшения своих рекомендательных алгоритмов и рекламных возможностей. Согласно отчётам, механизм работы Bytespider непрозрачен, и потому оценить его воздействие на веб-приложения весьма трудно.
Стратегии защиты
Поскольку «серые» боты стали неотъемлемой частью онлайн-трафика, компании должны принимать упреждающие меры, чтобы минимизировать их воздействие на работу веб-приложений. Одним из популярных методов является внедрение инструмента robots.txt. Он сигнализирует скрейперам о необходимости избегать сбора данных с сайта. Однако этот метод не имеет юридической силы, и многие боты его игнорируют.
Для более эффективной защиты компании обращаются к системе защиты от ботов на базе ИИ. Она используют машинное обучение для обнаружения и блокировки активности скрейперов в режиме реального времени.
Поскольку дебаты об этических, правовых и коммерческих последствиях использования ботов-скрейперов на базе всё ещё продолжаются и законов, ограничивающих работу ботов пока нет, компаниям следует уделять первостепенное внимание безопасности, чтобы защитить свои данные.
Источник: habr.com