Не только ускорители NVIDIA: разметка данных становится одной из основных причин роста стоимости ИИ-моделей

Создание и обучение мощных ИИ-моделей может обходиться компаниям в сотни миллионов и миллиарды долларов в год. Например, OpenAI в 2024-м намерена потратить на эти цели до $7 млрд. Основная часть затрат приходится на аппаратные ресурсы, включая дорогостоящие ускорители NVIDIA. Но, как сообщает Fortune, существует ещё одна важная статья расходов, которая зачастую упускается из виду — необходимость качественной маркировки данных. Между тем именно эта работа требует всё больших финансовых вложений.

Разметка (или маркировка) — процесс идентификации необработанных данных (изображений, текстовых файлов, видео и пр.) и добавления одной или нескольких значимых и информативных меток для обеспечения контекста. Это необходимо для того, чтобы ИИ-модель могла обучаться на таких массивах информации. Разметка данных требуется для различных сценариев использования, включая машинное зрение, обработку естественного языка и распознавание речи.

Разметка уже давно используется, например, при разработке ИИ-моделей для беспилотных автомобилей. Камера фиксирует изображения людей, уличных знаков, транспортных средств и светофоров, а комментаторы-люди помечают снимки такими тегами, как «пешеход», «грузовик» или «знак остановки». Это трудоёмкий и кропотливый процесс, который отнимает много времени и требует значительных финансовых вложений. После выпуска ChatGPT в 2022 году OpenAI подверглась широкой критике за аутсорсинг такой работы: компания наняла кенийских работников менее чем за $2/час.

Нынешние универсальные большие языковые модели (LLM) проходят обучение с подкреплением на основе отзывов (RLHF). В ходе процедуры люди предоставляют качественную обратную связь или ранжируют то, что генерирует ИИ-модель. Такой подход приводит к значительному увеличению затрат. Ещё одна причина роста расходов при маркировке данных — желание компаний включить в процесс обучения корпоративную информацию, такую как сведения о клиентах или внутренние корпоративные документы.

Кроме того, маркировка данных экспертного уровня в таких областях, как юриспруденция, финансы и здравоохранение требует привлечения высококвалифицированных специалистов, оплата труда которых стоит весьма дорого. Поэтому некоторые разработчики перекладывают задачи по разметке данных на сторонние компании, например, Scale AI, которая недавно получила финансирование в размере $1 млрд.

Алекс Ратнер (Alex Ratner), генеральный директор стартапа по маркировке данных Snorkel AI, говорит, что корпоративные клиенты могут тратить миллионы долларов маркировку и обработку информации. Такие операции в некоторых случаях отнимают до 80% времени и бюджета на ИИ. Причём для сохранения актуальности со временем данные должны периодически дополняться и обрабатываться заново.

Таким образом, разметка, наряду с необходимостью применения дорогостоящего оборудования, становится одной из основных статей расходов при обучении ИИ-моделей. Некоторые компании снижают затраты, используя синтетические данные — то есть, данные, сгенерированные самим ИИ. Последние инновации в области ИИ сделали генерацию синтетических данных эффективной и быстрой, что в ряде случаев позволяет отказаться от применения массивов реальной информации. Однако в некоторых случаях это грозит «самоповторами».

Источник: servernews.ru

0 0 голоса

Рейтинг новости

23487

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”