WSJ: OpenAI рассматривает возможность использования транскрипций с YouTube для обучения GPT-5

OpenAI рассматривает возможность обучения своей следующей модели искусственного интеллекта GPT-5 на транскрипциях роликов с YouTube, сообщила Wall Street Journal со ссылкой на источники. Таким образом компании в сфере ИИ ищут неиспользованные источники информации и переосмысливают способы обучения своих нейросетевых систем.

Кроме того, компании экспериментируют с использованием сгенерированных ИИ или синтетических данных в качестве материала для обучения. Однако по мнению многих исследователей, этот подход может привести к серьёзным сбоям.

Руководители компаний часто скрывают подобные планы, поскольку такие решения могут стать конкурентным преимуществом.

Нехватка данных — это передовая проблема исследований, объясняет исследователь ИИ Ари Моркос, который ранее работал в подразделении Meta* Platforms и DeepMind до основания DatologyAI в прошлом году. Его компания разрабатывает инструменты для улучшения отбора данных, которые могут помочь в обучении ИИ-моделей с меньшими затратами.

Также индустрия ИИ испытывает нехватку чипов, лежащих в основе ChatGPT, Gemini и других чат-ботов. Лидеры отрасли обеспокоены дефицитом центров обработки данных и электроэнергии, необходимой для питания дата-центров.

Языковые модели ИИ создают с использованием текста, полученного из интернета, включая научные исследования, новостные материалы и статьи из «Википедии». Эти работы разбивают на токены — слова и части слов, которые модели используют, чтобы формулировать выражения на естественных языках.

OpenAI не раскрывает подробности об учебном материале для GPT-4, которая установила стандарт для передовых генеративных систем ИИ. Исследователь ИИ в институте Epoch Пабло Виллалобос подсчитал, что GPT-4 обучили на 12 трлн токенов. По оценкам Виллалобоса и других экспертов, обучение GPT-5 потребует от 60 до 100 трлн токенов данных, если учёные продолжат следовать текущей траектории роста.

Виллалобос отметил, что использование всех доступных высококачественных языковых и графических данных способно привести к дефициту в 10-20 трлн или более токенов. Сейчас специалисты не знают, как преодолеть этот разрыв.

В 2022 году Виллалобос и его коллеги писали о вероятности в 50%, что спрос на высококачественные данные превысит предложение к середине 2024 года.

Большая часть данных в интернете бесполезна для обучения ИИ. Виллалобос заявил, что для этого пригодна лишь часть интернета, вероятно, 10% информации, собранной некоммерческой организацией Common Crawl, чей архив широко используют разработчики ИИ.

Новостные издания, социальные сети и другие организации ограничивают доступ к своим данным для обучения ИИ. Ранее глава Meta Марк Цукерберг назвал доступ корпорации к данным на своих платформах значительным преимуществом относительно разработки ИИ-моделей. Речь идёт о сотнях миллиардов общедоступных изображений и видео в соцсетях Facebook** и Instagram**, которые в совокупности превышают наиболее часто используемые наборы данных. Однако неизвестно, какой процент этих данных можно считать высококачественным.

Одна из стратегий DatalogyAI предусматривает передачу данных языковым моделям в определённом порядке, что позволит ИИ сформировать наиболее разумные связи между концепциями. Подход потенциально может снизить огромные затраты на обучение и эксплуатацию больших генеративных систем ИИ.

Некоторые компании, в том числе Microsoft, создают меньшие по размеру языковые модели, которые составляют лишь незначительную долю от GPT-4, но не могут решать конкретные задачи. Глава OpenAI Сэм Альтман поделился, что компания работает над новыми методами обучения будущих моделей. Он предположил, что сейчас индустрия находится в конце эпохи существования гигантских моделей.

OpenAI обсудила создание рынка данных, на котором можно определить, какую ценность каждая часть данных вносит в окончательный вариант модели. Это предусматривает выплаты поставщикам контента. Идея проходит обсуждение и в Google.

В OpenAI на уровне руководства говорят о расшифровке высококачественных примеров видео и аудио в интернете при помощи инструмента распознавания речи Whisper, говорят источники WSJ. Часть подобных мероприятий будут проводить с роликами на YouTube, некоторые из которых уже применялись для обучения GPT-4.

В прошлом месяце источники Business Insider рассказали, что OpenAI уже некоторое время тестирует в закрытом формате GPT-5. Возможно, что переход проекта в доступный режим состоится в середине текущего года. Тестировщики сообщили, что модель существенно лучше GPT-4. В ней представлены новые опции типа интеллектуального агента, который способен самостоятельно выполнять задания человека в течение длительных промежутков времени, а также различные системы для автономного выполнения задач.

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:* — признана экстремистской организацией, её деятельность в России запрещена;** — запрещены в России.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”