Goldman Sachs: у ИИ уже закончились данные для обучения

Искусственный интеллект исчерпал доступные для обучения данные, рассказал директор по данным и руководитель отдела разработки данных Goldman Sachs Нима Рафаэль. По его словам, этот дефицит уже может оказывать влияние на то, как создаются новые системы ИИ.

В качестве примера Рафаэль привёл китайскую DeepSeek, упомянув гипотезу, что компания обучала свои решения на результатах уже существующих моделей, а не на совершенно новых данных.

«Думаю, самое интересное будет в том, как предыдущие модели будут формировать то, каким окажется следующее воплощение мира в этом отношении», — заявил Рафаэль.

С исчерпанием возможностей интернета разработчики обращаются к синтетическим данным — машинно-cгенерированному тексту, изображениям и коду. Подобный подход предлагает неограниченный ресурс, но это также чревато перегрузкой моделей низкокачественными результатами или созданием неэффективного ИИ.

Нехватка свежих данных не станет серьёзным ограничением отчасти из-за того, что компании располагают неиспользованными резервами информации, указывает Рафаэль. С точки зрения потребительского рынка наблюдается взрывной рост объёма синтетических данных. Однако с точки зрения корпоративного сектора из этого ещё много чего можно выжать, пояснил руководитель Goldman Sachs.

Это означает, что реальным рубежом может быть не открытый интернет, а закрытые наборы данных, хранящиеся в корпорациях. Goldman и другие компании располагают информацией, которая при правильном использовании поможет сделать ИИ-инструменты гораздо более ценными.

В начале этого года соучредитель OpenAI Илья Суцкевер отметил, что все полезные данные из интернета уже использованы для обучения моделей. Он предупредил, что эпоха быстрого развития ИИ «безусловно закончится».

Рафаэль говорит, что препятствия для корпоративного сектора заключаются не только в поиске дополнительных данных, но и в обеспечении возможности использования этой информации. Задача состоит в понимании бизнес-контекста этих данных с дальнейшей возможностью нормализовать их таким образом, чтобы они были удобны для использования в коммерции.

Руководитель Goldman предположил, что сильная зависимость от синтетических данных поднимает более глубокий вопрос о траектории развития ИИ.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии