OpenAI транскрибировала более миллиона часов видео с YouTube для обучения GPT-4

OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4, пишет New York Times. Для этого компания использовала инструмент распознавания речи Whisper.

Ранее на этой неделе Wall Street Journal писала, что OpenAI намерена использовать транскрипции роликов с YouTube для обучения грядущей GPT-5. Источники газеты отмечали, что разработчик применял расшифровки контента с видеохостинга Google при работе над GPT-4, которая вышла в марте прошлого года.

В 2021 году OpenAI столкнулась с нехваткой данных из авторитетных англоязычных источников в интернете. Тогда же компания создала Whisper, работающий на архитектуре нейросети Transformer.

Некоторые сотрудники OpenAI полагали, что это будет противоречить правилам YouTube, поскольку Google запрещает использование роликов вне работы над видеохостингом. Команда расшифровала более миллиона часов видео с YouTube. В этом исследовании участвовал соучредитель и технический директор OpenAI Грег Брокман, который лично отбирал видео, указывают источники NYT. Также он указан как один из создателей Whisper.

Исследование издания демонстрирует, что технологические компании, включая OpenAI, Google и Meta*, в ряде случаев игнорировали корпоративную политику и пытались обойти закон, чтобы получить больше данных.

Google также делала транскрипции видео с YouTube для собственных моделей искусственного интеллекта, поделились собеседники NYT. Действия компании потенциально нарушают авторские права создателей используемого контента. Однако в прошлом году Google расширила правила обслуживания, позволив себе использовать общедоступные данные из «Документов», «Карт» и других собственных сервисов.

В конце прошлого года сама NYT подала в суд на OpenAI и Microsoft, обвинив компании в незаконном использовании информации из публикаций. В ответ OpenAI сообщила, что газета взломала ChatGPT для того, чтобы подать иск.

Исследовательский институт Epoch указывает, что высококачественные данные, которые наиболее ценны для обучения ИИ-моделей, могут закончиться в 2026 году. Компании используют данные быстрее, чем они производятся.

В OpenAI также рассматривали возможность покупки стартапов, которые собирают большие объёмы данных, пишет NYT.

Некоторые сотрудники Google знали, что OpenAI использовала расшифровки видео с YouTube. Однако Google не предъявила обвинения OpenAI, поскольку сама незаконно использовала контент, защищённый авторским правом. Представитель Google Мэтт Брайант заверил, что компании было ничего не известно о методах OpenAI.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”