После запуска ChatGPT в 2022 году ИИ-специалисты начали всерьёз обсуждать возможные последствия этого явления — не только для технологий, но и для самих данных. Одно из них: генеративный ИИ начал «засорять» интернет синтетическим контентом.
Это, по мнению ряда учёных, может привести к так называемому «коллапсу моделей» — ситуации, когда нейросети всё чаще обучаются на данных, сгенерированных другими нейросетями, что постепенно ухудшает качество и надёжность результатов. Проблема получила название Model Autophagy Disorder (MAD): с каждым новым витком самообучения без доступа к «чистым» (человеческим) данным модели теряют способность к точным и разнообразным рассуждениям, что может подорвать не только достоверность ИИ, но и конкурентную среду.
Так, компании, успевшие собрать качественные датасеты до 2022 года, получают серьёзное преимущество. Однако эксперты предупреждают: загрязнение данных генеративным контентом грозит не только падением качества моделей, но и усилением монополий. Новым игрокам будет всё труднее войти на рынок — у них просто не останется доступа к «неиспорченным» данным.
Решения, предлагаемые специалистами, включают обязательную маркировку ИИ-контента, развитие федеративного обучения и ограниченный доступ к чистым данным без их прямой передачи. Но каждый вариант несёт свои риски: от нарушения приватности до злоупотреблений со стороны государств или корпораций. И хотя Европа с её AI Act уже готова к регуляции, США и Великобритания продолжают придерживаться подхода невмешательства, чтобы не тормозить инновации.
Вместе с тем учёные подчёркивают, что ИИ-коллапс пока не доказан, но если он случится, восстановление может быть невозможным. А значит, действовать нужно сейчас, пока ещё можно сохранить «эпистемическую гигиену» — чистоту информации, на которой строится само будущее искусственного интеллекта.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник
Источник: habr.com