Компания Cloudflare, известная своими облачными услугами по предоставлению DNS и защите от DDoS-атак, запустила новый бесплатный инструмент для защиты веб-сайтов от ботов, которые несанкционированно извлекают данные для обучения моделей искусственного интеллекта. Это решение должно помочь владельцам сайтов защитить свой контент от незаконного использования.
Проблема сбора данных ботами ИИ стала особенно актуальной на фоне роста популярности генеративного ИИ. Многие сайты опасаются, что поставщики ИИ будут использовать их контент без разрешения и какой-либо компенсации. Согласно исследованию, около 26% из 100 крупнейших новостных сайтов заблокировали бота OpenAI, а 242 сайта из 1000 наиболее популярных также в настоящее время блокируют GPTBot. Более 600 крупных новостных издателей уже заблокировали различных ботов.
Cloudflare проанализировала трафик краулеров и разработала автоматические модели их обнаружения. Эти модели учитывают различные факторы, включая попытки ботов имитировать действия человека, использующего веб-браузер. Также создана специальная форма, позволяющая сообщать о подозрительных ботах и сканерах. На основе полученных данных Cloudflare будет вручную заносить ботов ИИ в черный список.
Некоторые крупные игроки в сфере ИИ, такие как Google, OpenAI и Apple, позволяют владельцам сайтов блокировать ботов через специальный файл robots.txt. Однако далеко не все владельцы подобных ботов соблюдают эти правила. Cloudflare отмечает, что некоторые компании ИИ намеренно обходят ограничения доступа к контенту, постоянно адаптируясь и меняя свои алгоритмы, чтобы избежать обнаружения.
Хотя инструменты, подобные разработке Cloudflare, могут помочь в борьбе с несанкционированным сбором данных, остается вопрос, насколько это окажется эффективным в долгосрочной перспективе. Введение новых методов защиты контента является важным шагом в обеспечении безопасности и справедливости в использовании данных для обучения ИИ.
Cloudflare заявляет, что новый инструмент защитит сайты, размещённые на их платформе, от извлечения контента для обучения ИИ-моделей. Эта инициатива направлена на то, чтобы предоставить владельцам сайтов больше контроля над своим контентом и предотвратить его несанкционированное использование.
Источник: overclockers.ru