Конец прогресса: у разработчиков ИИ заканчиваются данные для обучения нейросетей

Как сообщают эксперты, у компаний, осуществляющих разработку искусственного интеллекта, заканчиваются обучающие текстовые данные для последующего развития языковых моделей.

Качественный скачок последних версий искусственного интеллекта от таких компаний, как OpenAI, Google, Meta* и других, связан с тем, что языковые модели обучали огромными массивами текстовых данных. Однако базы знаний, созданные за многие десятки лет человеком, заканчиваются. Миллиарды слов, миллиарды web-страниц практически исчерпаны, что делает последующее развитие ИИ практически невозможным мероприятием.

Исследователь ИИ Тамай Бесироглу в интервью Associated Press отметил:

Все дело в том, что использовать абсолютно всю информацию, в том числе из веб-архивов, у компаний, разрабатывающих ИИ, нет возможности. Ведь авторы могут подать на них в суд, как это было с издателями газеты New York Times — они судились с OpenAI из-за нарушений авторских прав. По этой причине исследователи из аналитического центра Epoch AI считают, что уже в 2026 году ChatGPT и Llama 3 попросту нечем будет «кормить».

Однако некоторое решение у проблемы есть. Специалисты считают, что дальнейшее обучение языковых моделей возможно уже за счет сгенерированного ими же материала. При этом OpenAI и Google уже практикуют данную стратегию. Минусом такого подхода является то, что качество обучения за счет контента, созданного ИИ, снизится. По итогу может закрутиться «воронка самообмана» и языковые модели будут выдавать ответы на основе ранее ложных данных, созданных ИИ.

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
18539
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии