Ускорение NVIDIA TensorRT-LLM для Windows привело к впечатляющему повышению производительности на платформе ПК с Windows. Появились впечатляющие достижения и новые функции, которые были добавлены к набору функций NVIDIA RTX «AI PC», и ситуация становится еще лучше, когда компания демонстрирует огромные показатели производительности со своим флагманским графическим процессором GeForce RTX 4090.
В новом блоге AI-Decoded NVIDIA поделилась тем, как существующая линейка графических процессоров превосходит всю экосистему NPU, которой удалось достичь производительности лишь в 50 TOPS в 2024 году. 1321 TOPS с использованием GeForce RTX 4090, что делает его самым быстрым настольным решением искусственного интеллекта для запуска LLM и многого другого. Это также самая быстрая игровая видеокарта на планете.
Графические процессоры NVIDIA GeForce RTX предлагают до 24 ГБ видеопамяти, а графические процессоры NVIDIA RTX — до 48 ГБ видеопамяти, что делает их настоящими зверями, когда дело доходит до обработки LLM (больших языковых моделей), поскольку эти рабочие нагрузки требуют больших объемов видеопамяти. Аппаратное обеспечение NVIDIA RTX поставляется не только с выделенной видеопамятью, но и с ускорением AI с помощью тензорных ядер (аппаратное обеспечение) и вышеупомянутого TensorRT-LLM (программное обеспечение).
Количество сгенерированных токенов во всех размерах пакетов на графических процессорах NVIDIA GeForce RTX 4090 очень быстрое, но оно значительно увеличивается, более чем в 4 раза, при включении ускорения TensorRT-LLM.
NVIDIA теперь делится некоторыми новыми тестами, используя платформу Jan.ai с открытым исходным кодом, которая также недавно интегрировала TensorRT-LLM в свое локальное приложение чат-бота. Этот чат-бот использует модели искусственного интеллекта, такие как Llama или Mistral, в простом в использовании решении. Поставщик программного обеспечения теперь предложил взглянуть на некоторые тесты, выполняемые на графических процессорах NVIDIA GeForce RTX 40 в сравнении с процессорами ноутбуков с выделенными процессорами AI NPU.
NVIDIA GeForce RTX 4090 обеспечивает улучшение в 8,7 раз по сравнению с процессором AMD Ryzen 9 8945HS без TensorRT-LLM, и это преимущество увеличивается до 15 раз при использовании ускорения (прирост на 70% по сравнению с конфигурацией без TensorRT-LLM).
Вы можете обрабатывать до 170,63 токенов в секунду против 11,57 токенов в секунду на процессоре AMD. Даже с графическим процессором NVIDIA GeForce RTX 4070 для ноутбуков вы получаете ускорение до 4,45 раз. Еще более интересно то, что компания также поделилась цифрами, используя RTX 4090 в конфигурации eGPU, чтобы продемонстрировать, как можно еще больше повысить производительность ноутбуков с помощью внешнего графического процессора для рабочих нагрузок искусственного интеллекта. Эта конфигурация обеспечивает прирост производительности в 9,07 раза по сравнению с тем же процессором ноутбука AMD.
NVIDIA недавно изложила текущую картину вычислительной мощности искусственного интеллекта и показывает, как ее процессоры GeForce RTX 40 для настольных ПК масштабируются от 242 TOPS на начальном уровне до 1321 TOPS на верхнем уровне. Это увеличение в 4,84 раза на самом нижнем уровне и в 26,42 раза на самом верхнем по сравнению с последними 45-50 TOPS AI NPU, которые будут на SOC в этом году.
Даже варианты NVIDIA GeForce RTX 40 для ноутбуков, такие как RTX 4050, начинаются с производительности 194 TOPS, что в 3,88 раза больше, чем у самого быстрого NPU, в то время как чип для ноутбука RTX 4090 обеспечивает ускорение в 13,72 раза с его 686 TOPS.
Снова и снова NVIDIA демонстрирует, насколько она впереди конкурентов в сегменте искусственного интеллекта, и эти тесты еще раз подтверждают, что если вы используете искусственный интеллект, то у NVIDIA есть подходящее оборудование.
Источник: www.playground.ru