На портале Phoronix, 5 января 2024 года, Майклом Ларабелем были опубликованы результаты тестов производительности набора инструкций AVX-512 на процессорах Intel Xeon 5-го поколения «Emerald Rapids»
На процессорах Intel Xeon 5-го поколения «Emerald Rapids», которые были выпущены в прошлом месяце, в дополнение к повышению энергоэффективности, поддержке более быстрой памяти DDR5 и многим другим усовершенствованиям, одним из более заметных улучшений в архитектуре, о которых говорила Intel, была улучшенная поддержка исполнения инструкций AVX-512. Далее были проведены несколько тестов с использованием флагманского Intel Xeon Platinum 8592 +, в которых рассматривались показатели производительности и тепловыделения / тактовой частоты / мощности при переключении поддержки AVX-512.
Intel Xeon Platinum 8592+
Поскольку Emerald Rapids демонстрирует улучшения, связанные с поддержкой AVX-512, например, позволяющие процессорам достигать более высоких частот при рабочих нагрузках AVX-512, было проведено несколько тестов, которые помогут количественно оценить преимущества AVX-512 с этими новыми серверными процессорами Intel Xeon Scalable. Был выполнен набор тестов для различных рабочих нагрузок AVX-512 в режиме по умолчанию (включено), а затем тесты были выполнены с отключенной поддержкой AVX-512, чтобы увидеть влияние на исходную производительность, а также энергопотребление и энергоэффективность процессора, пиковые частоты процессора и тепловую нагрузку.
Конфигурация тестового стенда
Processor
2 x INTEL XEON PLATINUM 8592+ @ 3.90GHz (128 Cores / 256 Threads)
Motherboard
Quanta Cloud S6Q-MB-MPS (3B05.TEL4P1 BIOS)
Chipset
Intel Device 1bce
Memory
1008GB
Disk
3201GB Micron_7450_MTFDKCB3T2TFS
Graphics
ASPEED
Network
2 x Intel X710 for 10GBASE-T
OS
Ubuntu 23.10
Kernel
6.5.0-13-generic (x86_64)
Compiler
13.2.0
File-System
ext4
Screen Resolution
1920×1080
System Logs
Transparent Huge Pages: madvise
—build=x86_64-linux-gnu —disable-vtable-verify —disable-werror —enable-bootstrap —enable-cet —enable-checking=release —enable-clocale=gnu —enable-default-pie —enable-gnu-unique-object —enable-languages=c,ada,c++,go,d,fortran,objc,obj-c++,m2 —enable-libphobos-checking=release —enable-libstdcxx-debug —enable-libstdcxx-time=yes —enable-link-serialization=2 —enable-multiarch —enable-multilib —enable-nls —enable-objc-gc=auto —enable-offload-defaulted —enable-offload-targets=nvptx-none=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-nvptx/usr,amdgcn-amdhsa=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-gcn/usr —enable-plugin —enable-shared —enable-threads=posix —host=x86_64-linux-gnu —program-prefix=x86_64-linux-gnu- —target=x86_64-linux-gnu —with-abi=m64 —with-arch-32=i686 —with-build-config=bootstrap-lto-lean —with-default-libstdcxx-abi=new —with-gcc-major-version-only —with-multilib-list=m32,m64,mx32 —with-target-system-zlib=auto —with-tune=generic —without-cuda-driver -v
Scaling Governor: intel_pstate performance (EPP: performance) — CPU Microcode: 0x21000161
Python 3.11.6
gather_data_sampling: Not affected + itlb_multihit: Not affected + l1tf: Not affected + mds: Not affected + meltdown: Not affected + mmio_stale_data: Not affected + retbleed: Not affected + spec_rstack_overflow: Not affected + spec_store_bypass: Mitigation of SSB disabled via prctl + spectre_v1: Mitigation of usercopy/swapgs barriers and __user pointer sanitization + spectre_v2: Mitigation of Enhanced / Automatic IBRS IBPB: conditional RSB filling PBRSB-eIBRS: SW sequence + srbds: Not affected + tsx_async_abort: Not affected
Два процессора Intel Xeon Platinum 8592 + работали на эталонном сервере Intel Eagle Stream reference server при использовании ОС Ubuntu 23.10 с ядром Linux 6.5. Единственное изменение, внесенное в состояние системы во время тестирования, касалось работы с активной поддержкой AVX-512 или без нее.4
miniBUDE 20210901Implementation: OpenMP — Input Deck: BM2
Performance GFInst/s, More Is Better
AVX-512 On SE +/- 49.58, N = 15
4975.70
AVX-512 Off SE +/- 24.22, N = 15
3112.01
1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm
miniBUDE 20210901Implementation: OpenMP — Input Deck: BM2
Billion Interactions/s, More Is Better
AVX-512 On SE +/- 1.98, N = 15
199.03
AVX-512 Off SE +/- 0.97, N = 15
124.48
1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm
Хотя выпуск AVX-512 начался много лет назад с большой критики по поводу мощностии теплового воздействия, разница в производительности при использовании AVX-512может оказаться весьма полезной, особенно на процессорах нового поколения.Процессоры AMD Zen 4 также доказали свою полезность для AVX-512 благодарясвоему подходу.
miniBUDE 20210901CPU Temperature Monitor
Celsius, Fewer Is Better
AVX-512 On
Min: 36 / Avg: 54.58 / Max: 63
AVX-512 Off
Min: 35 / Avg: 55.67 / Max: 63
miniBUDE 20210901CPU Peak Freq (Highest CPU Core Frequency) Monitor
Megahertz, More Is Better
AVX-512 On
Min: 800 / Avg: 2947.32 / Max: 3907
AVX-512 Off
Min: 800 / Avg: 2958.53 / Max: 3904
Когда AVX-512 использовался для бенчмарка miniBUDE HPC, Xeon Platinum 8592 + непоказал большой разницы в пиковой частоте процессора и температуре процессора…Это намного лучше чем у Skylake, и с очень существенными отличиями показателей температуры.
miniBUDE 20210901CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 196.6 / Avg: 621.22 / Max: 756.81
AVX-512 Off
Min: 196.96 / Avg: 634.15 / Max: 758.15
miniBUDE 20210901Implementation: OpenMP — Input Deck: BM2
Billion Interactions/s Per Watt, More Is Better
AVX-512 On
0.320
AVX-512 Off
0.196
Энергопотребление процессора в конфигурации 2P также не сильно отличалось прииспользовании AVX512, что, в свою очередь, означало значительное повышение общейэнергоэффективности.
Embree 4.3Binary: Pathtracer ISPC — Model: Crown
Frames Per Second, More Is Better
AVX-512 OnSE +/- 0.55, N = 7
151.47MIN: 141.84 / MAX: 164.53
AVX-512 OffSE +/- 0.23, N = 7
137.62MIN: 125.91 / MAX: 154.51
Embree 4.3Binary: Pathtracer ISPC — Model: Asian Dragon
Frames Per Second, More Is Better
AVX-512 OnSE +/- 0.38, N = 8
200.90MIN: 189.72 / MAX: 217.48
AVX-512 OffSE +/- 0.30, N = 7
181.83MIN: 169.55 / MAX: 200.28
Embree 4.3Binary: Pathtracer ISPC — Model: Asian Dragon Obj
Frames Per Second, More Is Better
AVX-512 OnSE +/- 0.52, N = 4
174.38MIN: 165.02 / MAX: 188.21
AVX-512 OffSE +/- 0.19, N = 4
159.48MIN: 149.9 / MAX: 174.65
Embree 4.3CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 183.04 / Avg: 330.48 / Max: 754.13
AVX-512 Off
Min: 183.81 / Avg: 349.88 / Max: 758.31
Embree 4.3Binary: Pathtracer ISPC — Model: Asian Dragon Obj
Frames Per Second Per Watt, More Is Better
AVX-512 On
0.528
AVX-512 Off
0.456
OpenVKL 2.0.0Benchmark: vklBenchmarkCPU ISPC
Items / Sec, More Is Better
AVX-512 OnSE +/- 30.78, N = 3
3245MIN: 250 / MAX: 36039
AVX-512 OffSE +/- 6.36, N = 3
2365MIN: 125 / MAX: 27301
Собственные программные пакеты Intel creator с программным пакетом oneAPI по прежнему пользуются спросом у AVX-512 и очень хорошо работают при использовании этого стиля программирования.
OpenVKL 2.0.0CPU Temperature Monitor
Celsius, Fewer Is Better
AVX-512 On
Min: 35 / Avg: 56.19 / Max: 61
AVX-512 Off
Min: 36 / Avg: 54.42 / Max: 60
OpenVKL 2.0.0CPU Peak Freq (Highest CPU Core Frequency) Monitor
Megahertz, More Is Better
AVX-512 On
Min: 800 / Avg: 2934.37 / Max: 3913
AVX-512 Off
Min: 500 / Avg: 2909.25 / Max: 3917
OpenVKL 2.0.0CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 199.73 / Avg: 636.08 / Max: 754.77
AVX-512 Off
Min: 105.27 / Avg: 607.73 / Max: 758.79
OpenVKL 2.0.0Benchmark: vklBenchmarkCPU ISPC
Items / Sec Per Watt, More Is Better
AVX-512 On
5.102
AVX-512 Off
3.892
При использовании AVX-512 по-прежнему не наблюдалось таких негативныхпобочных эффектов, как у предыдущих поколений Intel Xeon.
OSPRay 2.12Benchmark: gravity_spheres_volume/dim_512/ao/real_time
Items Per Second, More Is Better
AVX-512 OnSE +/- 0.19, N = 3
42.65
AVX-512 OffSE +/- 0.07, N = 3
23.41
OSPRay 2.12Benchmark: gravity_spheres_volume/dim_512/scivis/real_time
Items Per Second, More Is Better
AVX-512 OnSE +/- 0.07, N = 3
41.61
AVX-512 OffSE +/- 0.16, N = 3
20.94
OSPRay 2.12Benchmark: gravity_spheres_volume/dim_512/pathtracer/real_time
Items Per Second, More Is Better
AVX-512 OnSE +/- 0.21, N = 4
17.04
AVX-512 OffSE +/- 0.08, N = 15
10.57
AVX-512 с Emerald Rapids очень хорошо справлялся с множеством различных рабочихнагрузок. Тепловое воздействие было небольшим, а увеличение энергопотребления процессора, как правило, было минимальным и имело смысл для повышения общей энергоэффективности.
Y-Cruncher 0.8.2Pi Digits To Calculate: 5B
Seconds, Fewer Is Better
AVX-512 OnSE +/- 0.02, N = 3
27.06
AVX-512 OffSE +/- 0.04, N = 3
33.68
Y-Cruncher 0.8.2CPU Temperature Monitor
Celsius, Fewer Is Better
AVX-512 On
Min: 37 / Avg: 48.55 / Max: 55
AVX-512 Off
Min: 37 / Avg: 49.71 / Max: 57
Y-Cruncher 0.8.2CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 144.38 / Avg: 545.54 / Max: 739.45
AVX-512 Off
Min: 206.72 / Avg: 566.95 / Max: 745.43
Y-Cruncher 0.8.2CPU Peak Freq (Highest CPU Core Frequency) Monitor
Megahertz, More Is Better
AVX-512 On
Min: 800 / Avg: 2830.68 / Max: 3904
AVX-512 Off
Min: 800 / Avg: 2895.61 / Max: 3907
AVX-512 на Emerald Rapids оказался очень полезеным для программы Y-Cruncher Pi.
oneDNN 3.3Harness: Recurrent Neural Network Inference — Data Type: bf16bf16bf16 — Engine: CPU
ms, Fewer Is Better
AVX-512 OnSE +/- 31.97, N = 15
1331.74MIN: 775.81
AVX-512 OffSE +/- 54.32, N = 15
2341.14MIN: 1256.55
1. (CXX) g++ options: -O3 -march=native -fopenmp -msse4.1 -fPIC -pie -ldl -lpthread
OSPRay Studio 0.13Camera: 1 — Resolution: 4K — Samples Per Pixel: 1 — Renderer: Path Tracer — Acceleration: CPU
ms, Fewer Is Better
AVX-512 OnSE +/- 1.20, N = 3
749
AVX-512 OffSE +/- 2.03, N = 3
893
OSPRay Studio 0.13Camera: 3 — Resolution: 4K — Samples Per Pixel: 1 — Renderer: Path Tracer — Acceleration: CPU
ms, Fewer Is Better
AVX-512 OnSE +/- 0.88, N = 3
886
AVX-512 OffSE +/- 6.17, N = 3
1055
OSPRay Studio 0.13Camera: 1 — Resolution: 4K — Samples Per Pixel: 32 — Renderer: Path Tracer — Acceleration: CPU
ms, Fewer Is Better
AVX-512 OnSE +/- 74.75, N = 3
23825
AVX-512 OffSE +/- 274.25, N = 3
33603
OSPRay Studio 0.13Camera: 3 — Resolution: 4K — Samples Per Pixel: 32 — Renderer: Path Tracer — Acceleration: CPU
ms, Fewer Is Better
AVX-512 OnSE +/- 167.00, N = 3
32723
AVX-512 OffSE +/- 82.99, N = 3
38787
OSPRay Studio 0.13Camera: 3 — Resolution: 1080p — Samples Per Pixel: 1 — Renderer: Path Tracer — Acceleration: CPU
ms, Fewer Is Better
AVX-512 OnSE +/- 0.00, N = 3
223
AVX-512 OffSE +/- 2.41, N = 15
279
OSPRay Studio 0.13Camera: 3 — Resolution: 1080p — Samples Per Pixel: 32 — Renderer: Path Tracer — Acceleration: CPU
ms, Fewer Is Better
AVX-512 OnSE +/- 43.03, N = 3
7146
AVX-512 OffSE +/- 101.69, N = 3
8596
Таким образом, AVX-512 показал очень хорошие результаты работы с процессорами Intel 5th Gen Xeon Scalable «Emerald Rapids».
TensorFlow 2.12Device: CPU — Batch Size: 16 — Model: ResNet-50
images/sec, More Is Better
AVX-512 OnSE +/- 0.41, N = 3
49.26
AVX-512 OnSE +/- 0.41, N = 3
39.06
TensorFlow 2.12CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 170.32 / Avg: 398.6 / Max: 450.75
AVX-512 Off
Min: 206.9 / Avg: 413.92 / Max: 462.77
TensorFlow 2.12Device: CPU — Batch Size: 16 — Model: ResNet-50
images/sec Per Watt, More Is Better
AVX-512 On
0.124
AVX-512 Off
0.094
TensorFlow 2.12Device: CPU — Batch Size: 64 — Model: ResNet-50
images/sec, More Is Better
AVX-512 OnSE +/- 0.16, N = 3
97.85
AVX-512 OffSE +/- 0.58, N = 3
66.08
TensorFlow 2.12CPU Power Consumption Monitor
Watts, Fewer Is Better
AVX-512 On
Min: 207.18 / Avg: 476.86 / Max: 531.76
AVX-512 Off
Min: 206.82 / Avg: 480.23 / Max: 511.44
TensorFlow 2.12Device: CPU — Batch Size: 64 — Model: ResNet-50
images/sec Per Watt, More Is Better
AVX-512 On
0.205
AVX-512 Off
0.138
В то время как AVX-512 изначально вызывал много критики по поводу энергопотребления и тепловых характеристик, новейшие серверные процессоры Intel (и AMD) с AVX-512 продолжают демонстрировать очень значительные достижения и без этих ранних болевых точек.
OpenVINO 2023.2.devModel: Face Detection FP16 — Device: CPU
FPS, More Is Better
AVX-512 OnSE +/- 0.04, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF 236.14
AVX-512 OffSE +/- 0.05, N = 3
-pie24.67
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Person Detection FP16 — Device: CPU
FPS, More Is Better
AVX-512 OnSE +/- 0.82, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF747.49
AVX-512 OffSE +/- 0.31, N = 3
-pie238.22
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Person Detection FP32 — Device: CPU
FPS, More Is Better
AVX-512 OnSE +/- 1.03, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF747.77
AVX-512 OffSE +/- 0.09, N = 3
-pie237.77
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Vehicle Detection FP16 — Device: CPU
FPS, More Is Better
AVX-512 OnSE +/- 1.59, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF4765.95
AVX-512 OffSE +/- 1.56, N = 3
-pie2116.64
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Weld Porosity Detection FP16 — Device: CPU
FPS, More Is Better
AVX-512 OnSE +/- 24.15, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF32234.04
AVX-512 OffSE +/- 0.50, N = 3
2822.71
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Road Segmentation ADAS FP16-INT8 — Device: CPU
FPS, More Is Better
AVX-512 OnSE +/- 2.91, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF2389.55
AVX-512 OffSE +/- 0.40, N = 3
-pie1882.97
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Weld Porosity Detection FP16-INT8 — Device: CPU
FPS, More Is Better
AVX-512 OnSE +/- 80.54, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF49132.99
AVX-512 OffSE +/- 3.35, N = 3
-pie9439.92
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
OpenVINO 2023.2.devModel: Age Gender Recognition Retail 0013 FP16-INT8 — Device: CPU
FPS, More Is Better
AVX-512 OnSE +/- 940.07, N = 3
-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF123447.74
AVX-512 OffSE +/- 496.38, N = 3
-pie101244.00
1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv
AVX-512 и AMX продолжают оказывать большое влияние на инструментарийискусственного интеллекта OpenVINO от Intel.
CPU Peak Freq (Highest CPU Core Frequency) MonitorPhoronix Test Suite System Monitoring
Megahertz
AVX-512 On
Min: 800 / Avg: 2954.57 / Max: 3913
AVX-512 Off
Min: 500 / Avg: 3017.93 / Max: 3917
Если посмотреть на максимальную частоту процессора, достигаемую при постоянной загрузке в ходе 68 сравнительных тестов включения / выключения AVX-512, результаты в целом были довольно схожими. При использовании AVX-512 максимальная частота всех ядер Xeon Platinum 8592 +, как правило, составляла 2,95 ГГц по сравнению с 3,01 ГГц, когдаAVX-512 был отключен. Даже при использовании AVX-512 во всех этих тестах у процессора Xeon Platinum 5-го поколения не возникло проблем с достижением частоты turbo 3,9 ГГц.
CPU Temperature MonitorPhoronix Test Suite System Monitoring
Celsius
AVX-512 On
Min: 30 / Avg: 54 / Max: 64
AVX-512 Off
Min: 29 / Avg: 53.19 / Max: 66
Разница в температуре ядра процессора между запуском AVX-512 и при его отключении была минимальной… Разница всего в градусе или около того, что намного лучше, чем у Intel AVX-512 предыдущих поколений.
CPU Power Consumption MonitorPhoronix Test Suite System Monitoring
Watts
AVX-512 On
Min: 99.6 / Avg: 589.71 / Max: 894.8
AVX-512 Off
Min: 103.63 / Avg: 583.08 / Max: 772.16
Энергопотребление Xeon Platinum 8592 + с двумя процессорами в среднем было лишь немного выше при использовании AVX-512. Опять же, приятно видеть, что, в свою очередь, обеспечивает значительное повышение энергоэффективности при использовании AVX-512.
Geometric Mean Of All Test ResultsResult Composite — Intel 5th Gen Xeon AVX-512 Comparison
Geometric Mean, More Is Better
AVX-512 On
31.37
AVX-512 Off
15.66
Выводы
Полученные при тестировании результаты не сильно отличаются от предыдущих процессоров Intel Xeon Sapphire Rapids, но в любом случае приятно видеть, что они помогают количественно оценить преимущества AVX-512 в наши дни. AVX-512 с Emerald Rapids обеспечивает значительное повышение производительности и не требует значительных затрат на электроэнергию / тепло по сравнению с гораздо более старыми серверами Intel.
Источник: habr.com