22 августа Nvidia представила новые достижения в области ПО для ИИ и сетевых технологий, которые должны ускорить работу ИИ‑инфраструктуры и внедрение моделей.
Технологический гигант анонсировал Spectrum‑XGS, «гигамасштабное» расширение для своей платформы Spectrum‑X — Ethernet‑коммутаторов, созданных специально под нагрузки ИИ. Если Spectrum‑X соединяет внутри дата‑центра целые кластеры, обеспечивая потоковую передачу огромных массивов данных между моделями, то Spectrum‑XGS идёт дальше: он объединяет и координирует работу нескольких дата‑центров.
«Вы уже слышали такие понятия, как scale up и scale out. А теперь мы вводим новый термин — scale across, — пояснил Дейв Сальватор, директор по продуктам ускоренных вычислений в Nvidia. — Эти коммутаторы созданы именно для того, чтобы позволить разным дата‑центрам работать согласованно, общаться друг с другом и фактически действовать как один гигантский графический процессор».
В реальности это значит следующее: scale up — это наращивание мощности за счёт более крупных машин, scale out — за счёт увеличения их количества в пределах одного центра. Но есть пределы — дата‑центры ограничены доступной энергией и способностью рассеивать тепло, иначе падает эффективность. Эти факторы и сдерживают рост вычислительных мощностей в конкретной точке.
По словам Сальватора, система минимизирует задержки и так называемый jitter — колебания времени доставки пакетов. В контексте ИИ‑сетей это критично: именно от него зависит, насколько полноценно GPU смогут обмениваться данными между разными площадками.
Для сравнения, представленная в мае технология NVLink Fusion, сетевой интерконнект, позволяет облачным провайдерам масштабировать дата‑центры так, чтобы они поддерживали работу миллионов графических процессоров одновременно. В паре NVLink Fusion и Spectrum‑XGS образуют два уровня масштабирования инфраструктуры ИИ: первый — внутри одного дата‑центра, второй — между несколькими центрами.
Поиск лучших способов обслуживания ИИ-моделей
Dynamo — это фреймворк Nvidia для инференса, то есть запуска моделей и обработки ими данных.
Компания исследует новый метод развертывания — disaggregated serving, «распределённое обслуживание», при котором процессы разделяются: prefill (создание контекста) выполняется на одних GPU или серверах, а decode (генерация токенов) — на других.
Это приобретает особое значение в нынешнюю эпоху агентного ИИ: если раньше инференс считался второстепенной задачей по сравнению с обучением моделей, то теперь он превращается в серьёзный вызов. Современные рассуждающие модели создают несоизмеримо больше токенов, чем прежние. Dynamo же предлагает более быстрый, экономичный и эффективный способ справляться с этой нагрузкой.
«Возьмите, например, интерактивность модели GPT‑OSS, — отметил Сальватор. — У нас получилось добиться почти 4-кратного роста скорости генерации токенов в секунду. А на DeepSeek показатели тоже впечатляют — прирост в 2,5 раза».
Nvidia также ведёт разработки в области speculative decoding — «спекулятивного декодирования». Суть его в том, что в помощь основной модели подключается вторая, меньшая, которая заранее угадывает её возможные ответы, ускоряя процесс. «Работает это так: есть вспомогательная модель‑черновик, она пытается предсказать следующие токены, которые могла бы сгенерировать основная модель», — пояснил Сальватор.
Так как черновая модель быстрее, пусть и менее точна, она выдвигает несколько вариантов, а главная проверяет их.
«Чем больше совпадений модель‑черновик угадывает правильно, тем выше итоговая производительность, — продолжил Сальватор. — Уже сейчас мы видим до 35% прироста скорости, благодаря этим приёмам».
Основная модель ИИ параллельно сверяет кандидаты с собственным распределением вероятностей и принимает только те токены, что соответствуют её предсказаниям. Остальные просто отбрасываются. Это удерживает задержку отклика ниже 200 мс и, по словам Сальватора, делает процесс «по‑настоящему интерактивным».
Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.
Источник: habr.com