OpenAI попалась на удалении датасета с пиратскими книгами

OpenAI оказалась в центре нового скандала, связанного с обучением своих моделей на нелегальных текстах. По данным Bloomberg Law, в распоряжении авторов и издателей оказалась внутренняя переписка сотрудников компании, в которой обсуждалось удаление набора данных, содержащего пиратские копии книг, использованных для тренировки ChatGPT.

Если сообщения подтвердятся, это станет доказательством умышленного нарушения авторских прав, ведь OpenAI, по сути, знала о незаконном происхождении части обучающего материала и попыталась его скрыть. В этом случае компании может грозить штраф до 150 тысяч долларов за каждое произведение, использованное без разрешения автора.

Аналитики отмечают, что последствия могут быть колоссальными. Под обучение языковых моделей могли попасть сотни тысяч книг, включая бестселлеры и научные издания. Таким образом, потенциальные иски могут исчисляться миллиардами долларов.

Ситуация напоминает прецедент с компанией Anthropic, которая в августе уже согласилась выплатить 1,5 миллиарда долларов компенсации издателям после аналогичного обвинения в использовании пиратских текстов для обучения модели Claude.

OpenAI пока официально не комментирует утечку, однако юристы компании утверждают, что часть сообщений может быть вырвана из контекста и не отражает реальных практик в работе с данными. Тем не менее суд уже рассматривает вопрос о снятии с компании статуса адвокатской привилегии, что позволит истцам получить доступ к внутренним документам и переписке.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии