Южнокорейский стартап Panmnesia представил интересное решение для устранения ограничений памяти современных GPU.
Компания разработала IP-адрес Compute Express Link (CXL) с низкой задержкой, который может помочь расширить память графического процессора с помощью внешней дополнительной карты. Текущие приложения с графическим ускорением в AI и HPC ограничены установленным объемом памяти, встроенной в графические процессоры. С ростом объемов данных, 3 раза в год сети графических процессоров должны постоянно увеличиваться, чтобы приложение могло поместиться в локальной памяти, что способствует увеличению времени ожидания и генерации токенов.
Предлагаемый Panmnesia подход к устранению этой проблемы использует протокол CXL для расширения объема памяти графического процессора с помощью подключенных к PCIe DRAM или даже SSD-накопителей. Компания преодолела значительные технические препятствия, включая отсутствие CXL logic fabric в графических процессорах и ограничения существующих систем унифицированной виртуальной памяти (UVM).
Тесты Panmnesia, а также архитектура CXL-Opt:
В основе решения Panmnesia лежит корневой комплекс, совместимый с CXL 3.1, с несколькими корневыми портами и хост-мостом, оснащенным декодером памяти устройств, управляемых хостом (HDM). Эта сложная система эффективно обманывает подсистему памяти графического процессора, заставляя ее использовать память, подключенную к PCIe, как собственную системную память. Обширное тестирование продемонстрировало впечатляющие результаты. Решение Panmnesia CXL, CXL-Opt, достигло двухзначной наносекундной задержки в обратном направлении, значительно превосходя как UVM, так и более ранние прототипы CXL.
В тестах выполнения ядра графического процессора CXL-Opt показал, что время выполнения в 3,22 раза быстрее, чем UVM. У более старых расширителей памяти CXL задержка в обратном направлении составляла около 250 наносекунд, а у CXL-Opt потенциально достигала менее 80 наносекунд. Как и в случае с CXL, проблема обычно заключается в том, что пулы памяти увеличивают задержку и снижают производительность, в то время как расширители CXL, как правило, также увеличивают стоимость модели.
Проект Panmnesia CXL-Opt может найти применение, при условии, что AMD, Intel и Nvidia хотели бы поддерживать CXL в своей инфраструктуре.
Источник: www.playground.ru