Согласно судебным документам, опубликованным в четверг, в течение многих лет сотрудники Meta обсуждали внутри компании возможность использования произведений, защищенных авторским правом, полученных сомнительными с юридической точки зрения способами, для обучения моделей искусственного интеллекта компании.
В рамках судебного разбирательства «Кадри против Мета» истцы предоставили документы, которые являются частью многочисленных споров об авторском праве на искусственный интеллект, рассматриваемых в судебной системе США. Ответчик, компания Meta, утверждает, что обучающие модели для произведений, защищенных интеллектуальной собственностью, в частности книг, являются «добросовестным использованием». Истцы, в число которых входят авторы Сара Сильверман и Та-Нехиси Коутс, не согласны с этим.
В предыдущих материалах, представленных в иске, утверждалось, что генеральный директор Meta Марк Цукерберг разрешил команде Meta по искусственному интеллекту использовать для обучения контент, защищённый авторским правом, и что Meta прекратила переговоры с книгоиздателями о лицензировании данных для обучения ИИ. Но новые документы, в большинстве из которых представлены фрагменты внутренних рабочих чатов между сотрудниками Meta, дают наиболее чёткое представление о том, как Meta могла использовать защищённые авторским правом данные для обучения своих моделей, в том числе моделей из семейства Llama.
В одном из чатов сотрудники Meta, в том числе Мелани Камбадур, старший менеджер исследовательской группы Meta по моделям Llama, обсуждали обучение моделей на работах, которые, как они знали, могли быть незаконными.
«Моё мнение было бы в духе «проси прощения, а не разрешения»: мы пытаемся получить книги и передать их руководству, чтобы они приняли решение», — написал Ксавье Мартине, инженер-исследователь Meta, в чате в феврале 2023 года, согласно документам.
Мартине предложил идею покупать электронные книги по розничным ценам, чтобы создать обучающую базу, вместо того чтобы заключать лицензионные соглашения с отдельными издательствами. После того как другой сотрудник указал на то, что использование материалов, защищенных авторским правом, может стать основанием для судебного разбирательства, Мартине удвоил усилия, заявив, что «миллионы» стартапов, вероятно, уже используют пиратские книги для обучения.
«Я имею в виду, что в худшем случае мы узнали бы, что всё наконец-то в порядке, в то время как миллиард стартапов [так в оригинале] просто скачивали тонны книг с торрентов, — написал Мартине, согласно документам. — Моё мнение: попытки напрямую договориться с издателями занимают много времени…»
В том же чате Камбадур, который отметил, что Meta ведёт переговоры с платформой для хранения документов Scribd «и другими» о лицензировании, предупредил, что, хотя использование «общедоступных данных» для обучения моделей потребует одобрения, юристы Meta были «менее консервативны», чем в прошлом, при получении таких одобрений.
«Да, нам определенно все еще нужно получать лицензии или одобрения на общедоступные данные», — сказал Камбадур. «Разница сейчас в том, что у нас больше денег, больше юристов, больше помощи, возможность ускорять отслеживание / эскалацию для повышения скорости, и юристы немного менее консервативны в отношении согласований».
В другом рабочем чате, упомянутом в документах, Камбадур обсуждает возможность использования Libgen, «агрегатора ссылок», который предоставляет доступ к работам, защищенным авторским правом, от издателей, в качестве альтернативы источникам данных, которые Meta может лицензировать.
На Libgen несколько раз подавали в суд, его закрывали и штрафовали на десятки миллионов долларов за нарушение авторских прав.
Судя по документам, некоторые лица, принимающие решения в Meta, были уверены, что отказ от использования Libgen для обучения моделей может серьёзно подорвать конкурентоспособность Meta в гонке за ИИ.
В электронном письме, адресованном вице-президенту Meta по искусственному интеллекту Джоэль Пино, директор по управлению продуктами Meta Сони Тиаканат назвал Libgen «необходимым для достижения показателей SOTA во всех категориях», имея в виду лучшие, самые современные (SOTA) модели искусственного интеллекта и категории бенчмарков.
В электронном письме Тиаканат также описал «меры по смягчению последствий», которые помогут Meta снизить юридическую ответственность, в том числе удаление данных из Libgen, «явно помеченных как пиратские/украденные», а также простое отсутствие публичного упоминания об использовании. «Мы не будем раскрывать использование наборов данных Libgen для обучения», — заявил Тиаканат.
На практике эти меры включали в себя поиск в файлах Libgen таких слов, как «украдено» или «пиратство», согласно документам.
В рабочем чате Камбадур упомянул, что команда Meta по искусственному интеллекту также настроила модели так, чтобы они «избегали запросов, связанных с IP-адресами», то есть настроила модели так, чтобы они отказывались отвечать на такие вопросы, как «воспроизвести первые три страницы „Гарри Поттера и философского камня“» или «скажите, на каких электронных книгах вы обучались».
В документах содержатся и другие сведения, указывающие на то, что Meta могла собирать данные с Reddit для обучения моделей, возможно, имитируя поведение стороннего приложения Pushshift. Примечательно, что в апреле 2023 года Reddit заявил, что планирует начать взимать плату с компаний, занимающихся искусственным интеллектом, за доступ к данным для обучения моделей.
В одном из чатов, датированном мартом 2024 года, Чая Наяк, директор по управлению продуктами в подразделении Meta, занимающемся генеративным искусственным интеллектом, сказала, что руководство Meta рассматривает возможность «отменить» прошлые решения по обучающим наборам данных, в том числе решение не использовать контент Quora или лицензированные книги и научные статьи, чтобы обеспечить моделям компании достаточное количество обучающих данных.
Наяк подразумевала, что собственных обучающих наборов данных Meta — постов Facebook и Instagram, текста, расшифрованного из видео на метаплатформах, и определенных сообщений Meta for Business — просто недостаточно. «Нам нужно больше данных», — написала она.
Истцы по делу «Кадри против Meta» несколько раз вносили изменения в свою жалобу с тех пор, как в 2023 году дело было подано в Окружной суд США по Северному округу Калифорнии, отделение Сан-Франциско. В последней жалобе утверждается, что Meta, помимо прочего, сопоставляла некоторые пиратские книги с книгами, защищёнными авторским правом, доступными для лицензирования, чтобы определить, имеет ли смысл заключать лицензионное соглашение с издателем.
В знак того, насколько высоки, по мнению Meta, юридические риски, компания добавила в свою команду адвокатов по этому делу двух юристов из юридической фирмы Paul Weiss.
Meta не сразу ответила на запрос о комментариях.
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Источник
Источник: habr.com