Хотя ускорители NVIDIA считаются одними из самых энергоёмких в своём классе, суперкомпьютеры на основе чипов компании по-прежнему доминируют в мировом рейтинге энергоэффективности соответствующих машин — Green500. Тем не менее компания столкнулась с сильной конкуренцией со стороны AMD и не всегда готова состязаться даже с собственной продукцией, сообщает The Register.
На первый взгляд, лидерство проектов на базе NVIDIA неоспоримо. Восемь из десяти суперкомпьютеров, входящих в «Топ-10» энергоэффективных машин, построены на чипах NVIDIA, из них пять — на 1000-ваттных гибридных суперускорителях GH200, весьма популярных среди пользователей HPC-решений.
В новейшем рейтинге Green500 на их основе построены первая и вторая из наиболее энергоэффективных систем — JEDI (EuroHPC) и Romeo-2025 (Romeo HPC Center). В бенчмарке High-Performance Linpack они продемонстрировали производительность 72,7 Гфлопс/Вт и 70,9 Гфлопс/Вт соответственно (FP64).
Источник изображения: Jakub Żerdzicki/unsplash.com
Системы почти идентичны и построены на платформе BullSequana XH3000 компании Eviden. На решение GH200 также приходятся четвёртая, шестая и седьмая позиции рейтинга: Isambard-AI Phase 1 (68,8 Гфлопс/Вт), Jupiter Exascale Transition Instrument (67,9 Гфлопс/Вт) и Helios (66,9 Гфлопс/Вт). Системы с проверенными NVIDIA H100 занимают пятое, восьмое и девятое места — это Capella, Henri и HoreKa-Teal.
Тем не менее есть сомнения в том, что решения на NVIDIA и дальше будут безраздельно господствовать в рейтинге. Уже на подходе решения Grace-Blackwell в виде GB200 (2,7 кВт) и GB200 NVL4 (5,4 кВт). Новые продукты далеко не всегда обеспечивают максимальную производительность на ватт энергии.
С A100 в 2020 году по H100 в 2022 году производительность (FP64) взлетела приблизительно в 3,5 раза, но, в сравнении с 1,2-кВт платформой Blackwell, 700-ваттные H100 фактически быстрее в режиме FP64. Фактически, для FP64 улучшилась только «векторная математика» (vector math), где новинки оказались на 32 % производительнее.
Другими словами, хотя сегодня NVIDIA может похвастаться высоким положением в рейтинге Green500, решение на ускорителях MI300A компании AMD уже заняло третье место (Adastra 2). MI300A анонсировали чуть менее года назад, решение получило 24-ядерный CPU и шесть чиплетов CDNA-3 в едином APU-модуле, оснащённым до 128 Гбайт памяти HBM3, а также настраиваемый уровень TDP 550-760 Вт. Более того, система в 1,8 раза производительнее NVIDIA H100 (по крайней мере, на бумаге).
Построенный подразделением HPE Cray с помощью блейд-серверов EX255a суперкомпьютер Adastra 2 обеспечивает производительность 69 Гфлопс/Вт. Десятое место также занимает машина на MI300A — RZAdams Ливерморской национальной лаборатории (62,8 Гфлопс/Вт).
Все системы, входящие в десятку рейтинга Green500, уже значительно превышают целевой показатель энергоэффективности в 50 Гфлопс/Вт. Этот показатель необходим для достижения эксафлопсных вычислений при ограничении энергопотребления до 20 мегаватт.
Проблема в том, что менее производительные системы значительно эффективнее: JEDI потребляет всего 67 кВт, а самая производительная машина на GH200 в рейтинге Top500 — Alps Швейцарского национального суперкомпьютерного центра — обеспечивает 434 Пфлопс в бенчмарке HPL, потребляя 7,1 МВт — это лишь 14-я из наиболее энергоэффективных машин с показателем 61 Гфлопс/Вт.
Та же проблема и с Adastra 2: компьютер потребляет даже меньше JEDI — 37 кВт. Если бы удалось сохранять уровень 69 Гфлопс/Вт в больших масштабах, потребовалось бы всего 25,2 МВт для обеспечения 1742 Эфлопс производительности, характерной для El Capitan. Между тем последнему требуется около 29,6 МВт для достижения своих рекордных показателей.
Источник: servernews.ru