Proof News: Apple, Nvidia и Anthropic использовали 170 тыс. видео YouTube для обучения своих моделей ИИ без разрешения

Компании в сфере искусственного интеллекта вновь оказались в центре скандала, касающегося интеллектуальной собственности. Аналитики Proof News обнаружили, что разработчики ИИ-сервисов, а именно Apple, Nvidia, Anthropic и Salesforce, использовали субтитры к тысячам YouTube-видео для обучения своих моделей искусственного интеллекта без разрешения авторов.

Согласно расследованию Proof News, субтитры к 172,5 тыс. видеороликов с более чем 48 тыс. каналов вошли в датасет под названием The Pile. Аналитики подчёркивают, что речь идёт только о субтитрах, без видеоряда или звука. Среди каналов, перечисленных Proof News, фигурируют довольно крупные и известные: MKBHD (19 млн подписчиков), MrBeast (289 млн), Jacksepticeye (31 млн), PewDiePie (111 млн), каналы ток-шоу Стивена Колберта, Джона Оливера и Джимми Киммела, а также каналы образовательных учреждений, таких как Массачусетский технологический институт и Гарвардский университет.

Proof News заявляет, что The Pile использовался Apple, Anthropic, Nvidia и Salesforce в исследовательских работах на тему искусственного интеллекта и для обучения ИИ-моделей. Apple использовала The Pile для обучения Apple Intelligence и модели OpenELM, которую представила в апреле этого года.

Права на The Pile принадлежат некоммерческой организации EleutherAI. Proof News утверждает, что организация не получала разрешения на использование видео с YouTube для сбора данных, при этом сам датасет «доступен любому, у кого есть интернет». Отмечается, что в The Pile вошли материалы не только с YouTube, но и из публикаций Европарламента и англоязычной Википедии.

Anthropic и Salesforce подтвердили Wired, что использовали The Pile для «академических и исследовательских целей» при разработке моделей искусственного интеллекта. Цаймин Сюн, вице-президент Salesforce по исследованиям в области искусственного интеллекта, подчеркнул, что датасет расценивался компанией как «общедоступный».

Сторонние расследования СМИ указывают на то, что другие компании также рассматривают YouTube как источник данных для обучения своих моделей. Согласно материалу The New York Times, Google «просматривала» видео на платформе и использовала субтитры для обучения моделей. Представитель компании сообщил газете, что это допустимо в рамках соглашения YouTube с авторами контента.

NYT также сообщала, что OpenAI обучала модели на роликах с YouTube. В компании не опровергли и не подтвердили это заявление; когда корреспондент The Wall Street Journal задал этот вопрос Мире Мурати, техническому директору OpenAI, она ответила, что «не уверена».

Источник: habr.com

0 0 голоса

Рейтинг новости

23635

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”