Perplexity использует обходные механизмы, чтобы сканировать запрещающие это делать сайты

Вчера, 4 августа, в официальном блоге компании Cloudflare появилась весьма интересная публикация о том, что боты поисковой системы на базе искусственного интеллекта Perplexity сканируют даже те сайты, которые прямо запретили это делать в своей документации. Специалисты компании отмечают, что изначально Perplexity применяет своего стандартного пользовательского агента, но в случае обнаружения сетевой блокировки, которая мешает ИИ сканировать сайты для сбора данных, система, видимо, задействует некие механизмы обхода данной блокировки, дабы в итоге всё же собрать на ресурсе искомую информацию. Изображение: Cloudflare

Представители Cloudflare заявили, что получили ряд жалоб от своих клиентов, которые запретили Perplexity сканировать свои сайты посредством файла robots.txt, а также создали специальные правила WAF, чтобы заблокировать конкретных ботов Perplexity — PerplexityBot и Perplexity-User. Проблема в том, что это не помогло — Perplexity всё ещё получала доступ к их контенту, хотя сами боты были успешно заблокированы. Чтобы изучить этот вопрос, специалисты из Cloudflare решили провести эксперимент — они создали несколько совершенно новых доменов (они только были приобретены и ещ даже не были проиндексированы ни одной поисковой системой) и имплементировали файл robots.txt с правилами, запрещающими любым ботам получать доступ к любой части веб-сайта. Изображение: Cloudflare

После этого специалисты отправились на Perplexity AI и задали вопросы об этих доменах — ИИ по-прежнему предоставлял подробную информацию о контенте, размещённом на каждом из этих веб-сайтов. И это при том, что энтузиасты приняли все необходимые меры, чтобы тестовые сайты не предоставляли поисковым ботам свою информацию. Но оказалось, что Perplexity использует для сканирования сайтов не только заявленного юзер-агента, но и некий универсальный браузер, который имитирует Google Chrome на macOS. Именно эта система начинает подключаться к сайту, когда поисковой бот по умолчанию блокируется настройками robots.txt. Изображение: Cloudflare

Более того, данный скрытный поисковой бот использовал несколько IP-адресов, которые не указаны в официальном диапазоне адресов Perplexity, периодически меняя их в ответ на политики, описанные в robots.txt, и блокировки со стороны Cloudflare. Также бот отправлял запросы с разных ASN, пытаясь обойти блокировки со стороны сайтов. Все эти манипуляции, по словам авторов эксперимента, противоречат нормам сканирования контента в интернете, которые изложены в протоколе RFC 9309.

Источник: trashbox.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии