Компания Huawei на форуме Innovative Data Infrastructure (IDI) в Мюнхене (Германия) анонсировала решение AI Data Lake для хранения и обработки данных, призванное ускорить внедрение ИИ в различных отраслях. Платформа ориентирована на обучение больших языковых моделей (LLM), инференс и другие нагрузки.
Аппаратная составляющая AI Data Lake предполагает использование СХД трёх типов: Huawei OceanStor A Series для быстрого доступа к информации, Huawei OceanStor Pacific для Nearline-хранения с динамическим распределением по уровням и Huawei OceanProtect для резервного копирования из системы Pacific. В частности, OceanProtect E8000 вмещает до 16 Пбайт данных с пропускной способностью до 255 Тбайт/ч.
Источник изображений: blocksandfiles.com / Huawei
Поверх аппаратного массива работают два программных уровня — слой управления данными и слой инструментов ИИ. Уровень управления базируется на движке Data Management Engine (DME) и включает три продукта: DME Omni-Dataverse, DME IQ и eDataInsight. Они отвечают за такие векторные БД, каталог данных, управление версиями, контроль доступа и пр.
Omni-Dataverse — глобальная файловая система и фреймворк управления данными для устранения разрозненности информации в географически распределённых ЦОД: достигается это путём предоставления единого пространства имён. Иными словами, формируется единый виртуальный репозиторий (озеро данных), который охватывает несколько отдельных хранилищ в публичном облаке, на площадке клиента или в гибридной среде.
Omni-Dataverse предоставляет средства для получения, индексации, обработки данных и их предоставления для обучения LLM, инференса и других задач. По заявлениям Huawei, система способна индексировать и/или извлекать наборы данных в масштабе экзабайт. Возможна обработка более 100 млрд файлов за считаные секунды с использованием более 15 критериев поиска. Omni-Dataverse поддерживает динамическое распределение данных между СХД OceanStor A Series и OceanStor Pacific. Устаревшие и неиспользуемые файлы удаляются.
DME IQ — это облачная система на базе аналитики больших данных и AIOps для автоматизированного оповещения о неполадках и отслеживания проблем в режиме реального времени. В свою очередь, программный уровень ИИ-инструментов предназначен для предоставления наборов данных из хранилища для обработки различными аппаратными движками: Huawei iData, ModelEngine и др.
Концепция виртуализации дата-центра DCS (Data Center Solution) объединяет вычисления, хранение, сетевые технологии и управление. Задействованы средства eSphere с использованием Omni-Dataverse для доступа к единому глобальному пространству имен.
Источник: servernews.ru