Исследователи предполагают, что OpenAI обучала ИИ-модели на книгах издательства O’Reilly, на которые не имела лицензии

Некоммерческая организация AI Disclosures Project пришла к выводу, что OpenAI без разрешения обучала свою модель искусственного интеллекта GPT-4o на книгах американской издательской компании O’Reilly Media.

AI Disclosures Project в 2024 году основали медиамагнат Тим О’Райли и экономист Илан Штраус. О’Райли создал O’Reilly Media в 1978 году, он занимает должность генерального директора издательства. Некоммерческая организация настаивает, что OpenAI обучала свои ИИ-модели на непубличных книгах, которые компания не лицензировала.

Ряд компаний, включая OpenAI, начали использовать синтетические данные для обучения ИИ, поскольку они исчерпывают реальные источники информации. Обучение исключительно на синтетических данных сопряжено с рисками, такими как ухудшение производительности модели.

Из статьи AI Disclosures Project следует, что у O’Reilly нет лицензионного соглашения с OpenAI. Авторы указывают, что GPT-4o в ChatGPT демонстрирует лучшее распознавание платного книжного контента O’Reilly по сравнению с GPT-3.5 Turbo. Последняя модель показывает более высокую относительную способность распознавать общедоступные образцы книг O’Reilly.

В статье использовали метод DE-COP, впервые представленный в 2024 году. Метод предназначен для обнаружения контента, защищённого авторским правом, в датасетах языковых моделей. DE-COP проверяет, может ли модель надёжно отличать тексты, написанные человеком, от перефразированных версий того же текста, сгенерированных ИИ.

В своём исследовании AI Disclosures Project использовали почти 14 тыс. отрывков из 34 книг O’Reilly, чтобы оценить вероятность того, что определённый фрагмент был включён в датасет для обучения ИИ-модели. Исследователи отметили, что GPT-4o распознавала гораздо больше платного контента из книг O’Reilly, чем предыдущие модели OpenAI.

Авторы исследования отмечают, что их экспериментальный метод нельзя назвать надёжным. Они не исключают, что OpenAI могла собрать платные отрывки из книг от пользователей, копирующих и вставляющих фрагменты в ChatGPT. Исследователи не стали оценивать последние модели компании, такие как GPT-4.5, o3-mini и o1.

OpenAI платит за часть своих обучающих данных. Компания имеет лицензионные соглашения с издателями новостей, социальными сетями, библиотеками стоковых медиа и другими. Более того, OpenAI предлагает механизмы отказа, которые позволяют владельцам авторских прав помечать контент, чтобы компания не использовала их для обучения моделей.

Однако OpenAI уже выступает ответчиком по ряду исков в судах США по поводу своих методов обработки данных для обучения и нарушений авторских прав.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии