Anthropic выкупала и сканировала, а затем уничтожала миллионы физических книг для обучения своих моделей искусственного интеллекта Claude, пишет Ars Technica. Компания извлекала страницы из переплётов печатных книг для сканирования и создания цифровых копий.
Сведения об этой практике содержит постановление окружного судьи США Уильяма Олсапа, который указал, что компаниям в сфере ИИ не нужно получать разрешение владельцев авторских прав для обучения своих больших языковых моделей, если книги были приобретены законно.
Anthropic стала не первой компанией, которая использует подобные практики. Однако стал примечателен масштаб деятельности Anthropic по сканированию печатных версий книг.
Законность действий Anthropic обеспечена доктриной первой продажи. Эта юридическая концепция позволяет покупателю делать с приобретённым товаром всё, что он захочет. Доктрина первой продажи позволяет существовать вторичному рынку, иначе издатели книг могли бы потребовать свою долю или запретить перепродажу.
Anthropic наняла бывшего руководителя партнёрских программ проекта по оцифровке книг Google Books Тома Тёрви в феврале 2024 года, чтобы заполучить «все книги в мире», не сталкиваясь с «юридической, практической и деловой волокитой», как выразился в иске генеральный директор ИИ-компании Дарио Амодеи. Тёрви придумал обходной путь, закупая печатные версии книг, чтобы Anthropic была защищена доктриной первой продажи.
Вырезание страниц из книг сделало сканирование более дешёвым и простым. Поскольку Anthropic использовала отсканированные книги только внутри компании, а оригиналы в итоге были уничтожены, судья счёл этот процесс похожим на «экономию места».
Однако затем Anthropic пошла дальше и начала использовать миллионы пиратских книг для обучения ИИ. Аналогичным образом поступала и Meta*.
ИИ-модели, обученные на хорошо отредактированных книгах и статьях, как правило, дают более связные и точные ответы, чем те, которые были обучены на текстах низкого качества, например, на случайных комментариях в YouTube.
Anthropic потратила «многие миллионы долларов» на операцию по покупке и сканированию книг, часто приобретая подержанные экземпляры оптом.
*Meta Platforms признана экстремистской организацией, её деятельность в России запрещена
Источник: habr.com