Исследователи предполагают, что OpenAI обучала ИИ-модели на книгах издательства O’Reilly, на которые не имела лицензии

Некоммерческая организация AI Disclosures Project пришла к выводу, что OpenAI без разрешения обучала свою модель искусственного интеллекта GPT-4o на книгах американской издательской компании O’Reilly Media.

AI Disclosures Project в 2024 году основали медиамагнат Тим О’Райли и экономист Илан Штраус. О’Райли создал O’Reilly Media в 1978 году, он занимает должность генерального директора издательства. Некоммерческая организация настаивает, что OpenAI обучала свои ИИ-модели на непубличных книгах, которые компания не лицензировала.

Ряд компаний, включая OpenAI, начали использовать синтетические данные для обучения ИИ, поскольку они исчерпывают реальные источники информации. Обучение исключительно на синтетических данных сопряжено с рисками, такими как ухудшение производительности модели.

Из статьи AI Disclosures Project следует, что у O’Reilly нет лицензионного соглашения с OpenAI. Авторы указывают, что GPT-4o в ChatGPT демонстрирует лучшее распознавание платного книжного контента O’Reilly по сравнению с GPT-3.5 Turbo. Последняя модель показывает более высокую относительную способность распознавать общедоступные образцы книг O’Reilly.

В статье использовали метод DE-COP, впервые представленный в 2024 году. Метод предназначен для обнаружения контента, защищённого авторским правом, в датасетах языковых моделей. DE-COP проверяет, может ли модель надёжно отличать тексты, написанные человеком, от перефразированных версий того же текста, сгенерированных ИИ.

В своём исследовании AI Disclosures Project использовали почти 14 тыс. отрывков из 34 книг O’Reilly, чтобы оценить вероятность того, что определённый фрагмент был включён в датасет для обучения ИИ-модели. Исследователи отметили, что GPT-4o распознавала гораздо больше платного контента из книг O’Reilly, чем предыдущие модели OpenAI.

Авторы исследования отмечают, что их экспериментальный метод нельзя назвать надёжным. Они не исключают, что OpenAI могла собрать платные отрывки из книг от пользователей, копирующих и вставляющих фрагменты в ChatGPT. Исследователи не стали оценивать последние модели компании, такие как GPT-4.5, o3-mini и o1.

OpenAI платит за часть своих обучающих данных. Компания имеет лицензионные соглашения с издателями новостей, социальными сетями, библиотеками стоковых медиа и другими. Более того, OpenAI предлагает механизмы отказа, которые позволяют владельцам авторских прав помечать контент, чтобы компания не использовала их для обучения моделей.

Однако OpenAI уже выступает ответчиком по ряду исков в судах США по поводу своих методов обработки данных для обучения и нарушений авторских прав.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”