На портале Phoronix опубликованы результаты производительности AVX-512 на Intel Xeon 5-го поколения «Emerald Rapids»

На портале Phoronix, 5 января 2024 года, Майклом Ларабелем были опубликованы результаты тестов производительности набора инструкций AVX-512 на процессорах Intel Xeon 5-го поколения «Emerald Rapids»

На процессорах Intel Xeon 5-го поколения «Emerald Rapids», которые были выпущены в прошлом месяце, в дополнение к повышению энергоэффективности, поддержке более быстрой памяти DDR5 и многим другим усовершенствованиям, одним из более заметных улучшений в архитектуре, о которых говорила Intel, была улучшенная поддержка исполнения инструкций AVX-512. Далее были проведены несколько тестов с использованием флагманского Intel Xeon Platinum 8592 +, в которых рассматривались показатели производительности и тепловыделения / тактовой частоты / мощности при переключении поддержки AVX-512.

Intel Xeon Platinum 8592+

Поскольку Emerald Rapids демонстрирует улучшения, связанные с поддержкой AVX-512, например, позволяющие процессорам достигать более высоких частот при рабочих нагрузках AVX-512, было проведено несколько тестов, которые помогут количественно оценить преимущества AVX-512 с этими новыми серверными процессорами Intel Xeon Scalable. Был выполнен набор тестов для различных рабочих нагрузок AVX-512 в режиме по умолчанию (включено), а затем тесты были выполнены с отключенной поддержкой AVX-512, чтобы увидеть влияние на исходную производительность, а также энергопотребление и энергоэффективность процессора, пиковые частоты процессора и тепловую нагрузку.

Конфигурация тестового стенда

Processor

2 x INTEL XEON PLATINUM 8592+ @ 3.90GHz (128 Cores / 256 Threads)

Motherboard

Quanta Cloud S6Q-MB-MPS (3B05.TEL4P1 BIOS)

Chipset

Intel Device 1bce

Memory

1008GB

Disk

3201GB Micron_7450_MTFDKCB3T2TFS

Graphics

ASPEED

Network

2 x Intel X710 for 10GBASE-T

Ubuntu 23.10

Kernel

6.5.0-13-generic (x86_64)

Compiler

13.2.0

File-System

ext4

Screen Resolution

1920×1080

System Logs

Transparent Huge Pages: madvise

—build=x86_64-linux-gnu —disable-vtable-verify —disable-werror —enable-bootstrap —enable-cet —enable-checking=release —enable-clocale=gnu —enable-default-pie —enable-gnu-unique-object —enable-languages=c,ada,c++,go,d,fortran,objc,obj-c++,m2 —enable-libphobos-checking=release —enable-libstdcxx-debug —enable-libstdcxx-time=yes —enable-link-serialization=2 —enable-multiarch —enable-multilib —enable-nls —enable-objc-gc=auto —enable-offload-defaulted —enable-offload-targets=nvptx-none=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-nvptx/usr,amdgcn-amdhsa=/build/gcc-13-XYspKM/gcc-13-13.2.0/debian/tmp-gcn/usr —enable-plugin —enable-shared —enable-threads=posix —host=x86_64-linux-gnu —program-prefix=x86_64-linux-gnu- —target=x86_64-linux-gnu —with-abi=m64 —with-arch-32=i686 —with-build-config=bootstrap-lto-lean —with-default-libstdcxx-abi=new —with-gcc-major-version-only —with-multilib-list=m32,m64,mx32 —with-target-system-zlib=auto —with-tune=generic —without-cuda-driver -v

Scaling Governor: intel_pstate performance (EPP: performance) — CPU Microcode: 0x21000161

Python 3.11.6

gather_data_sampling: Not affected + itlb_multihit: Not affected + l1tf: Not affected + mds: Not affected + meltdown: Not affected + mmio_stale_data: Not affected + retbleed: Not affected + spec_rstack_overflow: Not affected + spec_store_bypass: Mitigation of SSB disabled via prctl + spectre_v1: Mitigation of usercopy/swapgs barriers and __user pointer sanitization + spectre_v2: Mitigation of Enhanced / Automatic IBRS IBPB: conditional RSB filling PBRSB-eIBRS: SW sequence + srbds: Not affected + tsx_async_abort: Not affected

Два процессора Intel Xeon Platinum 8592 + работали на эталонном сервере Intel Eagle Stream reference server при использовании ОС Ubuntu 23.10 с ядром Linux 6.5. Единственное изменение, внесенное в состояние системы во время тестирования, касалось работы с активной поддержкой AVX-512 или без нее.4

miniBUDE 20210901Implementation: OpenMP — Input Deck: BM2

Performance GFInst/s, More Is Better

AVX-512 On SE +/- 49.58, N = 15

4975.70

AVX-512 Off SE +/- 24.22, N = 15

3112.01

1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm

miniBUDE 20210901Implementation: OpenMP — Input Deck: BM2

Billion Interactions/s, More Is Better

AVX-512 On SE +/- 1.98, N = 15

199.03

AVX-512 Off SE +/- 0.97, N = 15

124.48

1. (CC) gcc options: -std=c99 -Ofast -ffast-math -fopenmp -march=native -lm

Хотя выпуск AVX-512 начался много лет назад с большой критики по поводу мощностии теплового воздействия, разница в производительности при использовании AVX-512может оказаться весьма полезной, особенно на процессорах нового поколения.Процессоры AMD Zen 4 также доказали свою полезность для AVX-512 благодарясвоему подходу.

miniBUDE 20210901CPU Temperature Monitor

Celsius, Fewer Is Better

AVX-512 On

Min: 36 / Avg: 54.58 / Max: 63

AVX-512 Off

Min: 35 / Avg: 55.67 / Max: 63

miniBUDE 20210901CPU Peak Freq (Highest CPU Core Frequency) Monitor

Megahertz, More Is Better

AVX-512 On

Min: 800 / Avg: 2947.32 / Max: 3907

AVX-512 Off

Min: 800 / Avg: 2958.53 / Max: 3904

Когда AVX-512 использовался для бенчмарка miniBUDE HPC, Xeon Platinum 8592 + непоказал большой разницы в пиковой частоте процессора и температуре процессора…Это намного лучше чем у Skylake, и с очень существенными отличиями показателей температуры.

miniBUDE 20210901CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 196.6 / Avg: 621.22 / Max: 756.81

AVX-512 Off

Min: 196.96 / Avg: 634.15 / Max: 758.15

miniBUDE 20210901Implementation: OpenMP — Input Deck: BM2

Billion Interactions/s Per Watt, More Is Better

AVX-512 On

0.320

AVX-512 Off

0.196

Энергопотребление процессора в конфигурации 2P также не сильно отличалось прииспользовании AVX512, что, в свою очередь, означало значительное повышение общейэнергоэффективности.

Embree 4.3Binary: Pathtracer ISPC — Model: Crown

Frames Per Second, More Is Better

AVX-512 OnSE +/- 0.55, N = 7

151.47MIN: 141.84 / MAX: 164.53

AVX-512 OffSE +/- 0.23, N = 7

137.62MIN: 125.91 / MAX: 154.51

Embree 4.3Binary: Pathtracer ISPC — Model: Asian Dragon

Frames Per Second, More Is Better

AVX-512 OnSE +/- 0.38, N = 8

200.90MIN: 189.72 / MAX: 217.48

AVX-512 OffSE +/- 0.30, N = 7

181.83MIN: 169.55 / MAX: 200.28

Embree 4.3Binary: Pathtracer ISPC — Model: Asian Dragon Obj

Frames Per Second, More Is Better

AVX-512 OnSE +/- 0.52, N = 4

174.38MIN: 165.02 / MAX: 188.21

AVX-512 OffSE +/- 0.19, N = 4

159.48MIN: 149.9 / MAX: 174.65

Embree 4.3CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 183.04 / Avg: 330.48 / Max: 754.13

AVX-512 Off

Min: 183.81 / Avg: 349.88 / Max: 758.31

Embree 4.3Binary: Pathtracer ISPC — Model: Asian Dragon Obj

Frames Per Second Per Watt, More Is Better

AVX-512 On

0.528

AVX-512 Off

0.456

OpenVKL 2.0.0Benchmark: vklBenchmarkCPU ISPC

Items / Sec, More Is Better

AVX-512 OnSE +/- 30.78, N = 3

3245MIN: 250 / MAX: 36039

AVX-512 OffSE +/- 6.36, N = 3

2365MIN: 125 / MAX: 27301

Собственные программные пакеты Intel creator с программным пакетом oneAPI по прежнему пользуются спросом у AVX-512 и очень хорошо работают при использовании этого стиля программирования.

OpenVKL 2.0.0CPU Temperature Monitor

Celsius, Fewer Is Better

AVX-512 On

Min: 35 / Avg: 56.19 / Max: 61

AVX-512 Off

Min: 36 / Avg: 54.42 / Max: 60

OpenVKL 2.0.0CPU Peak Freq (Highest CPU Core Frequency) Monitor

Megahertz, More Is Better

AVX-512 On

Min: 800 / Avg: 2934.37 / Max: 3913

AVX-512 Off

Min: 500 / Avg: 2909.25 / Max: 3917

OpenVKL 2.0.0CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 199.73 / Avg: 636.08 / Max: 754.77

AVX-512 Off

Min: 105.27 / Avg: 607.73 / Max: 758.79

OpenVKL 2.0.0Benchmark: vklBenchmarkCPU ISPC

Items / Sec Per Watt, More Is Better

AVX-512 On

5.102

AVX-512 Off

3.892

При использовании AVX-512 по-прежнему не наблюдалось таких негативныхпобочных эффектов, как у предыдущих поколений Intel Xeon.

OSPRay 2.12Benchmark: gravity_spheres_volume/dim_512/ao/real_time

Items Per Second, More Is Better

AVX-512 OnSE +/- 0.19, N = 3

42.65

AVX-512 OffSE +/- 0.07, N = 3

23.41

OSPRay 2.12Benchmark: gravity_spheres_volume/dim_512/scivis/real_time

Items Per Second, More Is Better

AVX-512 OnSE +/- 0.07, N = 3

41.61

AVX-512 OffSE +/- 0.16, N = 3

20.94

OSPRay 2.12Benchmark: gravity_spheres_volume/dim_512/pathtracer/real_time

Items Per Second, More Is Better

AVX-512 OnSE +/- 0.21, N = 4

17.04

AVX-512 OffSE +/- 0.08, N = 15

10.57

AVX-512 с Emerald Rapids очень хорошо справлялся с множеством различных рабочихнагрузок. Тепловое воздействие было небольшим, а увеличение энергопотребления процессора, как правило, было минимальным и имело смысл для повышения общей энергоэффективности.

Y-Cruncher 0.8.2Pi Digits To Calculate: 5B

Seconds, Fewer Is Better

AVX-512 OnSE +/- 0.02, N = 3

27.06

AVX-512 OffSE +/- 0.04, N = 3

33.68

Y-Cruncher 0.8.2CPU Temperature Monitor

Celsius, Fewer Is Better

AVX-512 On

Min: 37 / Avg: 48.55 / Max: 55

AVX-512 Off

Min: 37 / Avg: 49.71 / Max: 57

Y-Cruncher 0.8.2CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 144.38 / Avg: 545.54 / Max: 739.45

AVX-512 Off

Min: 206.72 / Avg: 566.95 / Max: 745.43

Y-Cruncher 0.8.2CPU Peak Freq (Highest CPU Core Frequency) Monitor

Megahertz, More Is Better

AVX-512 On

Min: 800 / Avg: 2830.68 / Max: 3904

AVX-512 Off

Min: 800 / Avg: 2895.61 / Max: 3907

AVX-512 на Emerald Rapids оказался очень полезеным для программы Y-Cruncher Pi.

oneDNN 3.3Harness: Recurrent Neural Network Inference — Data Type: bf16bf16bf16 — Engine: CPU

ms, Fewer Is Better

AVX-512 OnSE +/- 31.97, N = 15

1331.74MIN: 775.81

AVX-512 OffSE +/- 54.32, N = 15

2341.14MIN: 1256.55

1. (CXX) g++ options: -O3 -march=native -fopenmp -msse4.1 -fPIC -pie -ldl -lpthread

OSPRay Studio 0.13Camera: 1 — Resolution: 4K — Samples Per Pixel: 1 — Renderer: Path Tracer — Acceleration: CPU

ms, Fewer Is Better

AVX-512 OnSE +/- 1.20, N = 3

749

AVX-512 OffSE +/- 2.03, N = 3

893

OSPRay Studio 0.13Camera: 3 — Resolution: 4K — Samples Per Pixel: 1 — Renderer: Path Tracer — Acceleration: CPU

ms, Fewer Is Better

AVX-512 OnSE +/- 0.88, N = 3

886

AVX-512 OffSE +/- 6.17, N = 3

1055

OSPRay Studio 0.13Camera: 1 — Resolution: 4K — Samples Per Pixel: 32 — Renderer: Path Tracer — Acceleration: CPU

ms, Fewer Is Better

AVX-512 OnSE +/- 74.75, N = 3

23825

AVX-512 OffSE +/- 274.25, N = 3

33603

OSPRay Studio 0.13Camera: 3 — Resolution: 4K — Samples Per Pixel: 32 — Renderer: Path Tracer — Acceleration: CPU

ms, Fewer Is Better

AVX-512 OnSE +/- 167.00, N = 3

32723

AVX-512 OffSE +/- 82.99, N = 3

38787

OSPRay Studio 0.13Camera: 3 — Resolution: 1080p — Samples Per Pixel: 1 — Renderer: Path Tracer — Acceleration: CPU

ms, Fewer Is Better

AVX-512 OnSE +/- 0.00, N = 3

223

AVX-512 OffSE +/- 2.41, N = 15

279

OSPRay Studio 0.13Camera: 3 — Resolution: 1080p — Samples Per Pixel: 32 — Renderer: Path Tracer — Acceleration: CPU

ms, Fewer Is Better

AVX-512 OnSE +/- 43.03, N = 3

7146

AVX-512 OffSE +/- 101.69, N = 3

8596

Таким образом, AVX-512 показал очень хорошие результаты работы с процессорами Intel 5th Gen Xeon Scalable «Emerald Rapids».

TensorFlow 2.12Device: CPU — Batch Size: 16 — Model: ResNet-50

images/sec, More Is Better

AVX-512 OnSE +/- 0.41, N = 3

49.26

AVX-512 OnSE +/- 0.41, N = 3

39.06

TensorFlow 2.12CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 170.32 / Avg: 398.6 / Max: 450.75

AVX-512 Off

Min: 206.9 / Avg: 413.92 / Max: 462.77

TensorFlow 2.12Device: CPU — Batch Size: 16 — Model: ResNet-50

images/sec Per Watt, More Is Better

AVX-512 On

0.124

AVX-512 Off

0.094

TensorFlow 2.12Device: CPU — Batch Size: 64 — Model: ResNet-50

images/sec, More Is Better

AVX-512 OnSE +/- 0.16, N = 3

97.85

AVX-512 OffSE +/- 0.58, N = 3

66.08

TensorFlow 2.12CPU Power Consumption Monitor

Watts, Fewer Is Better

AVX-512 On

Min: 207.18 / Avg: 476.86 / Max: 531.76

AVX-512 Off

Min: 206.82 / Avg: 480.23 / Max: 511.44

TensorFlow 2.12Device: CPU — Batch Size: 64 — Model: ResNet-50

images/sec Per Watt, More Is Better

AVX-512 On

0.205

AVX-512 Off

0.138

В то время как AVX-512 изначально вызывал много критики по поводу энергопотребления и тепловых характеристик, новейшие серверные процессоры Intel (и AMD) с AVX-512 продолжают демонстрировать очень значительные достижения и без этих ранних болевых точек.

OpenVINO 2023.2.devModel: Face Detection FP16 — Device: CPU

FPS, More Is Better

AVX-512 OnSE +/- 0.04, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF 236.14

AVX-512 OffSE +/- 0.05, N = 3

-pie24.67

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Person Detection FP16 — Device: CPU

FPS, More Is Better

AVX-512 OnSE +/- 0.82, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF747.49

AVX-512 OffSE +/- 0.31, N = 3

-pie238.22

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Person Detection FP32 — Device: CPU

FPS, More Is Better

AVX-512 OnSE +/- 1.03, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF747.77

AVX-512 OffSE +/- 0.09, N = 3

-pie237.77

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Vehicle Detection FP16 — Device: CPU

FPS, More Is Better

AVX-512 OnSE +/- 1.59, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF4765.95

AVX-512 OffSE +/- 1.56, N = 3

-pie2116.64

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Weld Porosity Detection FP16 — Device: CPU

FPS, More Is Better

AVX-512 OnSE +/- 24.15, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF32234.04

AVX-512 OffSE +/- 0.50, N = 3

2822.71

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Road Segmentation ADAS FP16-INT8 — Device: CPU

FPS, More Is Better

AVX-512 OnSE +/- 2.91, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF2389.55

AVX-512 OffSE +/- 0.40, N = 3

-pie1882.97

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Weld Porosity Detection FP16-INT8 — Device: CPU

FPS, More Is Better

AVX-512 OnSE +/- 80.54, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF49132.99

AVX-512 OffSE +/- 3.35, N = 3

-pie9439.92

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

OpenVINO 2023.2.devModel: Age Gender Recognition Retail 0013 FP16-INT8 — Device: CPU

FPS, More Is Better

AVX-512 OnSE +/- 940.07, N = 3

-isystem -std=c++11 -fPIC -fvisibility=hidden -mavx2 -mfma -MD -MT -MF123447.74

AVX-512 OffSE +/- 496.38, N = 3

-pie101244.00

1. (CXX) g++ options: -fsigned-char -ffunction-sections -fdata-sections -O3 -fno-strict-overflow -fwrapv

AVX-512 и AMX продолжают оказывать большое влияние на инструментарийискусственного интеллекта OpenVINO от Intel.

CPU Peak Freq (Highest CPU Core Frequency) MonitorPhoronix Test Suite System Monitoring

Megahertz

AVX-512 On

Min: 800 / Avg: 2954.57 / Max: 3913

AVX-512 Off

Min: 500 / Avg: 3017.93 / Max: 3917

Если посмотреть на максимальную частоту процессора, достигаемую при постоянной загрузке в ходе 68 сравнительных тестов включения / выключения AVX-512, результаты в целом были довольно схожими. При использовании AVX-512 максимальная частота всех ядер Xeon Platinum 8592 +, как правило, составляла 2,95 ГГц по сравнению с 3,01 ГГц, когдаAVX-512 был отключен. Даже при использовании AVX-512 во всех этих тестах у процессора Xeon Platinum 5-го поколения не возникло проблем с достижением частоты turbo 3,9 ГГц.

CPU Temperature MonitorPhoronix Test Suite System Monitoring

Celsius

AVX-512 On

Min: 30 / Avg: 54 / Max: 64

AVX-512 Off

Min: 29 / Avg: 53.19 / Max: 66

Разница в температуре ядра процессора между запуском AVX-512 и при его отключении была минимальной… Разница всего в градусе или около того, что намного лучше, чем у Intel AVX-512 предыдущих поколений.

CPU Power Consumption MonitorPhoronix Test Suite System Monitoring

Watts

AVX-512 On

Min: 99.6 / Avg: 589.71 / Max: 894.8

AVX-512 Off

Min: 103.63 / Avg: 583.08 / Max: 772.16

Энергопотребление Xeon Platinum 8592 + с двумя процессорами в среднем было лишь немного выше при использовании AVX-512. Опять же, приятно видеть, что, в свою очередь, обеспечивает значительное повышение энергоэффективности при использовании AVX-512.

Geometric Mean Of All Test ResultsResult Composite — Intel 5th Gen Xeon AVX-512 Comparison

Geometric Mean, More Is Better

AVX-512 On

31.37

AVX-512 Off

15.66

Выводы

Полученные при тестировании результаты не сильно отличаются от предыдущих процессоров Intel Xeon Sapphire Rapids, но в любом случае приятно видеть, что они помогают количественно оценить преимущества AVX-512 в наши дни. AVX-512 с Emerald Rapids обеспечивает значительное повышение производительности и не требует значительных затрат на электроэнергию / тепло по сравнению с гораздо более старыми серверами Intel.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”