Индустрия ИИ сталкивается с новым препятствием: сокращением доступности данных, пишут СМИ. Согласно исследованию, проведенному MIT под руководством Data Provenance Initiative, многие ключевые веб-источники теперь ограничивают использование своих данных, что сказывается на обучении мощных систем.
Исследователи проанализировали 14 000 доменов, используемых в трех основных наборах данных для обучения ИИ и обнаружили значительный «зарождающийся кризис согласия». За последний год около 5% всех данных и 25% данных самого высокого качества были ограничены протоколом «исключения роботов» (Robots Exclusion Protocol) — инструментом, который владельцы сайтов используют для блокировки автоматических сборщиков данных.
Исследование также показало, что до 45% данных в наборе данных C4 теперь ограничены условиями обслуживания веб-сайтов.
Эти ограничения затронут не только компании, занимающиеся разработкой искусственного интеллекта, но и исследователей, ученых и некоммерческие организации, использующие веб-данные.
Источник: www.ferra.ru