Будущее ИИ под угрозой? Для обучения GPT-5 не хватит качественного контента во всём интернете

Разработчики всевозможных моделей искусственного интеллекта начали бить тревогу. По их мнению, для обучения нейронных сетей в интернете просто не хватит качественного материала. Многие ресурсы начали закрывать доступ ИИ-моделям, а попытка обучить искусственный интеллект на контенте, сгенерированном другими нейронными сетями, может, как утверждается, привести к «большим проблемам».

Руководители компаний-разработчиков утверждают, в ближайшие два года в глобальной сети закончатся качественные тексты для обучения ИИ-моделей. Это заставляет создателей чат-ботов идти на разные ухищрения. Так, например, в OpenAI рассматривают возможность обучения GPT-5 на транскрипциях роликов YouTube, которые находятся в публичном доступе.

Любая ИИ-модель во время обучения собирает из интернета тексты, включая статьи, новости или научные исследования, разбивает их на отдельные слова и использует их, чтобы научиться говорить как человек. Логично понимать, что, чем больше материала, тем лучше результат. Именно такой принцип был положен в первый чат-бот от OpenAI, компании, которая стала катализатором бурного развития отрасли искусственного интеллекта. Модель GPT-4 обучалась на 12 триллионах токенов данных. Пятой версии ChatGPT потребуется в разы больше — 60–100 триллионов. Как утверждают разработчики, даже если взять весь высококачественный контент в интернете (тексты и изображения), для обучения не хватит 10–20 триллионов. И в OpenAI не знают, чем где взять недостающий материал.

Проведенные исследования показали, что большая часть контента не годится для обучения искусственного интеллекта. Он, или содержит несвязные друг с другом части текста, или его содержимое не несет ничего нового для обучаемой ИИ-модели. Ситуацию усугубляет тот факт, что крупные социальные сети и другие интернет-ресурсы ограничивают доступ нейронных сетей к своим платформам, чтобы избежать утечки персональных данных.

Сэм Альтман (Sam Altman), основатель OpenAI, рассказал, что сейчас обсуждается вопрос создания рынка данных. Здесь будет определяться ценность контента для обучения той или иной ИИ-модели и цена, которую придётся заплатить за его использования. Правда, как утверждает сам Альтман, продвижек в этом направлении практически нет. Также разработчики нейронных сетей пытаются задействовать «высококачественные синтетические данные». Это материал, который сгенерирован внутри компании, и используется исключительно для обучения ИИ.

Несмотря на сложность ситуации, многие разработчики полны оптимизма и уверены, что с этой проблемой удастся справиться.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”