Исследователи предлагают OpenAI обучить модели AI на книгах издательства O’Reilly

OpenAI обвиняли многие стороны в обучении своего AI на защищенном авторским правом контенте без разрешения. Теперь в новом документе организации по надзору за AI выдвигаются серьезные обвинения в том, что компания все больше полагалась на непубличные книги, которые она не лицензировала, для обучения более сложных моделей AI.

Модели AI по сути являются сложными предиктивными механизмами. Обученные на большом количестве данных — книги, фильмы, телешоу и т. д. — они изучают закономерности и новые способы экстраполяции из простой подсказки. Когда модель создает эссе о греческой трагедии или изображения в стиле Ghibli, она просто черпает из своих обширных знаний приближение. Она не приходит ни к чему новому.

В то время как ряд лабораторий AI, включая OpenAI, начали использовать данные, сгенерированные AI, для обучения AI, поскольку они исчерпывают реальные источники, немногие полностью отказались от реальных данных. Это, вероятно, связано с тем, что обучение на чисто синтетических данных сопряжено с рисками, такими как ухудшение производительности модели.

В новой статье, подготовленной в рамках проекта AI Disclosures Project, некоммерческой организации, основанной в 2024 году медиамагнатом Тимом О’Рейли и экономистом Иланом Штраусом, делается вывод о том, что OpenAI, вероятно, обучил свою модель GPT-4o на платных книгах из O’Reilly Media. (О’Рейли является генеральным директором O’Reilly Media.)

В ChatGPT GPT-4o является моделью по умолчанию. У O’Reilly нет лицензионного соглашения с OpenAI, говорится в статье.

«GPT-4o, более новая и мощная модель OpenAI, демонстрирует сильное распознавание платного книжного контента O’Reilly по сравнению с более ранней моделью OpenAI GPT-3.5 Turbo», — пишут соавторы статьи. «Напротив, GPT-3.5 Turbo демонстрирует более высокое относительное распознавание общедоступных образцов книг O’Reilly».

В статье использовался метод DE-COP, впервые представленный в академическом исследовании в 2024 году, предназначенный для обнаружения контента, защищенного авторским правом, в обучающих данных языковых моделей. Этот метод проверяет, может ли модель надежно отличать тексты, написанные человеком, от перефразированных версий того же текста, созданных AI. Если это так, это говорит о том, что модель могла иметь предварительные знания о тексте из своих обучающих данных.

Соавторы статьи — О’Рейли, Штраус и исследователь AI Срули Розенблат — говорят, что они исследовали знания GPT-4o, GPT-3.5 Turbo и других моделей OpenAI о книгах O’Reilly Media, опубликованных до и после их дат окончания обучения. Они использовали 13 962 отрывка абзацев из 34 книг O’Reilly, чтобы оценить вероятность того, что определенный отрывок был включен в набор данных для обучения модели.

Согласно результатам статьи, GPT-4o распознал гораздо больше платного контента книг O’Reilly, чем старые модели OpenAI, в частности GPT-3.5 Turbo. Это даже после учета потенциальных факторов, мешающих нормальной работе, заявили авторы, таких как улучшение способности новых моделей определять, был ли текст написан человеком.

«GPT-4o распознает и, следовательно, имеет предварительные знания о многих непубличных книгах издательства O’Reilly, опубликованных до даты окончания его обучения», — пишут соавторы.

Соавторы признают, что их экспериментальный метод не является надежным и что OpenAI мог собрать платные отрывки из книг от пользователей, копирующих и вставляющих их в ChatGPT.

Еще больше запутав ситуацию, соавторы не оценили последнюю коллекцию моделей OpenAI, которая включает GPT-4.5 и модели «рассуждения», такие как o3-mini и o1. Возможно, что эти модели не были обучены на платных данных из книг O’Reilly или были обучены на меньшем объеме, чем GPT-4o.

При этом не секрет, что OpenAI, которая выступает за более мягкие ограничения в отношении разработки моделей с использованием данных, защищенных авторским правом, уже некоторое время ищет более качественные данные для обучения. Компания зашла так далеко, что наняла журналистов, чтобы они помогли ей доработать результаты своих моделей . Это тенденция во всей отрасли: компании AI нанимают экспертов в таких областях, как наука и физика, чтобы эффективно заставить этих экспертов вкладывать свои знания в системы AI.

Следует отметить, что OpenAI платит по крайней мере за часть своих обучающих данных. Компания имеет лицензионные соглашения с издателями новостей, социальными сетями, библиотеками стоковых медиа и другими. OpenAI также предлагает механизмы отказа — хотя и несовершенные — которые позволяют владельцам авторских прав помечать контент, который они предпочли бы, чтобы компания не использовала в учебных целях.

Тем не менее, поскольку OpenAI ведет несколько судебных процессов в судах США по поводу своих методов обработки данных для обучения и обращения с законом об авторском праве, статья О’Рейли выглядит не самым лестным образом.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”