OpenAI рассматривает возможность обучения своей следующей модели искусственного интеллекта GPT-5 на транскрипциях роликов с YouTube, сообщила Wall Street Journal со ссылкой на источники. Таким образом компании в сфере ИИ ищут неиспользованные источники информации и переосмысливают способы обучения своих нейросетевых систем.
Кроме того, компании экспериментируют с использованием сгенерированных ИИ или синтетических данных в качестве материала для обучения. Однако по мнению многих исследователей, этот подход может привести к серьёзным сбоям.
Руководители компаний часто скрывают подобные планы, поскольку такие решения могут стать конкурентным преимуществом.
Нехватка данных — это передовая проблема исследований, объясняет исследователь ИИ Ари Моркос, который ранее работал в подразделении Meta* Platforms и DeepMind до основания DatologyAI в прошлом году. Его компания разрабатывает инструменты для улучшения отбора данных, которые могут помочь в обучении ИИ-моделей с меньшими затратами.
Также индустрия ИИ испытывает нехватку чипов, лежащих в основе ChatGPT, Gemini и других чат-ботов. Лидеры отрасли обеспокоены дефицитом центров обработки данных и электроэнергии, необходимой для питания дата-центров.
Языковые модели ИИ создают с использованием текста, полученного из интернета, включая научные исследования, новостные материалы и статьи из «Википедии». Эти работы разбивают на токены — слова и части слов, которые модели используют, чтобы формулировать выражения на естественных языках.
OpenAI не раскрывает подробности об учебном материале для GPT-4, которая установила стандарт для передовых генеративных систем ИИ. Исследователь ИИ в институте Epoch Пабло Виллалобос подсчитал, что GPT-4 обучили на 12 трлн токенов. По оценкам Виллалобоса и других экспертов, обучение GPT-5 потребует от 60 до 100 трлн токенов данных, если учёные продолжат следовать текущей траектории роста.
Виллалобос отметил, что использование всех доступных высококачественных языковых и графических данных способно привести к дефициту в 10-20 трлн или более токенов. Сейчас специалисты не знают, как преодолеть этот разрыв.
В 2022 году Виллалобос и его коллеги писали о вероятности в 50%, что спрос на высококачественные данные превысит предложение к середине 2024 года.
Большая часть данных в интернете бесполезна для обучения ИИ. Виллалобос заявил, что для этого пригодна лишь часть интернета, вероятно, 10% информации, собранной некоммерческой организацией Common Crawl, чей архив широко используют разработчики ИИ.
Новостные издания, социальные сети и другие организации ограничивают доступ к своим данным для обучения ИИ. Ранее глава Meta Марк Цукерберг назвал доступ корпорации к данным на своих платформах значительным преимуществом относительно разработки ИИ-моделей. Речь идёт о сотнях миллиардов общедоступных изображений и видео в соцсетях Facebook** и Instagram**, которые в совокупности превышают наиболее часто используемые наборы данных. Однако неизвестно, какой процент этих данных можно считать высококачественным.
Одна из стратегий DatalogyAI предусматривает передачу данных языковым моделям в определённом порядке, что позволит ИИ сформировать наиболее разумные связи между концепциями. Подход потенциально может снизить огромные затраты на обучение и эксплуатацию больших генеративных систем ИИ.
Некоторые компании, в том числе Microsoft, создают меньшие по размеру языковые модели, которые составляют лишь незначительную долю от GPT-4, но не могут решать конкретные задачи. Глава OpenAI Сэм Альтман поделился, что компания работает над новыми методами обучения будущих моделей. Он предположил, что сейчас индустрия находится в конце эпохи существования гигантских моделей.
OpenAI обсудила создание рынка данных, на котором можно определить, какую ценность каждая часть данных вносит в окончательный вариант модели. Это предусматривает выплаты поставщикам контента. Идея проходит обсуждение и в Google.
В OpenAI на уровне руководства говорят о расшифровке высококачественных примеров видео и аудио в интернете при помощи инструмента распознавания речи Whisper, говорят источники WSJ. Часть подобных мероприятий будут проводить с роликами на YouTube, некоторые из которых уже применялись для обучения GPT-4.
В прошлом месяце источники Business Insider рассказали, что OpenAI уже некоторое время тестирует в закрытом формате GPT-5. Возможно, что переход проекта в доступный режим состоится в середине текущего года. Тестировщики сообщили, что модель существенно лучше GPT-4. В ней представлены новые опции типа интеллектуального агента, который способен самостоятельно выполнять задания человека в течение длительных промежутков времени, а также различные системы для автономного выполнения задач.
Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**:* — признана экстремистской организацией, её деятельность в России запрещена;** — запрещены в России.
Источник: habr.com