Oracle сообщила о скором запуске одного из крупнейших облачных ИИ-кластеров. В него войдёт до 131 072 GPU Blackwell от Nvidia, что обеспечит вычислительную мощность до 2,4 ZFLOPS. Как заявляет Oracle, её решение будет втрое мощнее суперкомпьютера Frontier и в шесть раз мощнее облачных сервисов, которые предоставляют компании-конкуренты.
Кластер начнёт работу в первой половине 2025 года, однако Oracle уже начала принимать заказы на его использование через свою платформу Oracle Cloud Infrastructure (OCI). Компания планирует использовать сетевые карты ConnectX-7, ConnectX-8 SuperNIC или сеть Quantum-2 InfiniBand от Nvidia.
Кроме того, в следующем году планируется запуск кластеров на основе GB200 NVL72 с более чем 100 тысячами ускорителей GB200, а также компактных решений GPU.A100.1 и GPU.H100.1 с одним ускорителем A100/H100.
«Графические процессоры B200 на базе архитектуры Blackwell и суперчипы GB200 Grace Blackwell, которые поступят в продажу в 2025 году, обеспечивают в четыре раза более высокую производительность обучения и в 30 раз более высокую производительность вывода, чем H100, поддерживая модели ИИ с несколькими триллионами параметров и обучение и вывод многомодульной большой языковой модели (LLM)», — описывает Oracle.
Сейчас Oracle предоставляет доступ к различным вариантам кластеров OCI на базе графических процессоров Nvidia. Так, например, система с 16 384 ускорителями H100 достигает 65 EFLOPS вычислительной мощности с общей пропускной способностью сети 13 ПБ/с. Также доступна конфигурация с 65 536 ускорителями H200, которые обеспечивают 260 EFLOPS и 52 ПБ/с сетевой пропускной способности.
Источник: habr.com