NVIDIA обвинили в использовании сотен терабайт пиратских книг для тренировки своего ИИ

NVIDIA оказалась в центре скандала в рамках коллективного иска, поданного несколькими авторами. Они обвиняют производителя видеокарт и ИИ-решений в нарушении авторских прав при обучении своих больших языковых моделей (LLM). Новые судебные документы, обнародованные в расширенной жалобе, раскрывают переписку сотрудников NVIDIA с теневой библиотекой Anna’s Archive .

Согласно материалам дела, рассматриваемого в окружном суде Северного округа Калифорнии, представители команды по стратегии данных NVIDIA напрямую обращались к Anna’s Archive с запросом о получении высокоскоростного доступа к их коллекции. Речь шла примерно о 500 терабайтах данных, включающих миллионы книг и других произведений.

В переписке, на которую ссылаются истцы (и которую ранее публиковал ресурс TorrentFreak), представители Anna’s Archive прямо предупреждали сотрудника Nvidia, что коллекция содержит «миллионы пиратских книг». Несмотря на это, по утверждению жалобы, руководство компании дало «зеленый свет» на продолжение процесса уже через неделю после обращения.

Более того, Anna’s Archive предлагала доступ к нескольким миллионам книг, которые обычно выдаются только через систему контролируемого цифрового кредитования Internet Archive. Авторы иска утверждают, что скачивание этих данных означало создание NVIDIA дополнительных пиратских копий их защищенных произведений.

Помимо Anna’s Archive, истцы обвиняют NVIDIA в использовании других пиратских источников: базы данных Books3, LibGen, Sci-Hub и Z-Library.

Пока в документах нет прямых доказательств того, что данные действительно были загружены и использованы в обучении моделей, а также не упоминается факт оплаты доступа. Сама NVIDIA на момент публикации новых материалов официально не прокомментировала эту часть иска.

Ранее компания уже признавала использование датасета Books3 (включающего множество произведений под авторским правом), но защищала свои действия. В официальном ответе NVIDIA заявляла, что ИИ-модели не «читают» тексты подобно человеку, а лишь «измеряют статистические корреляции в совокупности огромного объема данных». Компания настаивает, что процесс обучения подпадает под доктрину добросовестного использования (fair use), и что запрет на доступ к фактам и идеям через авторское право невозможен.

Источник: gameguru.ru

0 0 голоса

Рейтинг новости