Число ботов-скрейперов на базе ИИ резко возросло

Исследователи в последнее время отмечают всплеск активности генеративных ботов-скрейперов. По последним данным, так называемые «серые боты» всё чаще нацеливаются на веб-приложения.

В недавнем отчёте компании Barracuda сообщается о заметном увеличении числа ботов на базе искусственного интеллекта, которые агрессивно собирают данные, поступающие в реальном времени.

Расцвет «серых» ботов

С декабря 2024 по февраль 2025 года веб-приложения получали миллионы запросов от генеративных ИИ-ботов вроде ClaudeBot и Bytespider от TikTok.

С декабря 2024 по февраль 2025 года веб-приложения получали миллионы запросов от генеративных ИИ-ботов вроде ClaudeBot и Bytespider от TikTok.

В течение 30 дней одно отслеживаемое веб-приложение зарегистрировало около 9,7 миллионов запросов ботов, другое же получило более чем 500 000 запросов ботов всего за один день.

В отличие от обычных ботов с их скачкообразным уровнем активности, генеративные боты-скрейперы обеспечивают стабильный объём трафика.

Хотя «серые» боты не подпадают под категорию вредоносов, они могут негативно влиять на работу приложений.

Агрессивный скрейпинг может:

— перегружать трафик, нарушая нормальную работу веб-приложений;

 — извлекать и использовать защищённые авторским правом данные;

 — искажать аналитику веб-сайта, влияя впоследствии на принятие бизнес-решений;

 — увеличивать расходы на облачный хостинг из-за повышенной загрузки на ЦП и увеличенного трафика.

Самые «продуктивные» генеративные боты-скрейперы в начале 2025 года — это ClaudeBot и Bytespider.

ClaudeBot от Anthropic собирает данные для обучения своей генеративной модели ИИ Claude. Несмотря на агрессивный скрейпинг, Anthropic предоставляет информацию о том, как заблокировать его активность.

Bytespider — бот-скрейпер от TikTok. Собирает данные для улучшения своих рекомендательных алгоритмов и рекламных возможностей. Согласно отчётам, механизм работы Bytespider непрозрачен, и потому оценить его воздействие на веб-приложения весьма трудно.

Стратегии защиты

Поскольку «серые» боты стали неотъемлемой частью онлайн-трафика, компании должны принимать упреждающие меры, чтобы минимизировать их воздействие на работу веб-приложений. Одним из популярных методов является внедрение инструмента robots.txt. Он сигнализирует скрейперам о необходимости избегать сбора данных с сайта. Однако этот метод не имеет юридической силы, и многие боты его игнорируют.

Для более эффективной защиты компании обращаются к системе защиты от ботов на базе ИИ. Она используют машинное обучение для обнаружения и блокировки активности скрейперов в режиме реального времени.

Поскольку дебаты об этических, правовых и коммерческих последствиях использования ботов-скрейперов на базе всё ещё продолжаются и законов, ограничивающих работу ботов пока нет, компаниям следует уделять первостепенное внимание безопасности, чтобы защитить свои данные.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии