Nvidia расширяет возможности ИИ с помощью «гигамасштабной» технологии Spectrum-XGS

22 августа Nvidia представила новые достижения в области ПО для ИИ и сетевых технологий, которые должны ускорить работу ИИ‑инфраструктуры и внедрение моделей.

Технологический гигант анонсировал Spectrum‑XGS, «гигамасштабное» расширение для своей платформы Spectrum‑X — Ethernet‑коммутаторов, созданных специально под нагрузки ИИ. Если Spectrum‑X соединяет внутри дата‑центра целые кластеры, обеспечивая потоковую передачу огромных массивов данных между моделями, то Spectrum‑XGS идёт дальше: он объединяет и координирует работу нескольких дата‑центров.

«Вы уже слышали такие понятия, как scale up и scale out. А теперь мы вводим новый термин — scale across, — пояснил Дейв Сальватор, директор по продуктам ускоренных вычислений в Nvidia. — Эти коммутаторы созданы именно для того, чтобы позволить разным дата‑центрам работать согласованно, общаться друг с другом и фактически действовать как один гигантский графический процессор».

В реальности это значит следующее: scale up — это наращивание мощности за счёт более крупных машин, scale out — за счёт увеличения их количества в пределах одного центра. Но есть пределы — дата‑центры ограничены доступной энергией и способностью рассеивать тепло, иначе падает эффективность. Эти факторы и сдерживают рост вычислительных мощностей в конкретной точке.

По словам Сальватора, система минимизирует задержки и так называемый jitter — колебания времени доставки пакетов. В контексте ИИ‑сетей это критично: именно от него зависит, насколько полноценно GPU смогут обмениваться данными между разными площадками.

Для сравнения, представленная в мае технология NVLink Fusion, сетевой интерконнект, позволяет облачным провайдерам масштабировать дата‑центры так, чтобы они поддерживали работу миллионов графических процессоров одновременно. В паре NVLink Fusion и Spectrum‑XGS образуют два уровня масштабирования инфраструктуры ИИ: первый — внутри одного дата‑центра, второй — между несколькими центрами.

Поиск лучших способов обслуживания ИИ-моделей

Dynamo — это фреймворк Nvidia для инференса, то есть запуска моделей и обработки ими данных.

Компания исследует новый метод развертывания — disaggregated serving, «распределённое обслуживание», при котором процессы разделяются: prefill (создание контекста) выполняется на одних GPU или серверах, а decode (генерация токенов) — на других.

Это приобретает особое значение в нынешнюю эпоху агентного ИИ: если раньше инференс считался второстепенной задачей по сравнению с обучением моделей, то теперь он превращается в серьёзный вызов. Современные рассуждающие модели создают несоизмеримо больше токенов, чем прежние. Dynamo же предлагает более быстрый, экономичный и эффективный способ справляться с этой нагрузкой.

«Возьмите, например, интерактивность модели GPT‑OSS, — отметил Сальватор. — У нас получилось добиться почти 4-кратного роста скорости генерации токенов в секунду. А на DeepSeek показатели тоже впечатляют — прирост в 2,5 раза».

Nvidia также ведёт разработки в области speculative decoding — «спекулятивного декодирования». Суть его в том, что в помощь основной модели подключается вторая, меньшая, которая заранее угадывает её возможные ответы, ускоряя процесс. «Работает это так: есть вспомогательная модель‑черновик, она пытается предсказать следующие токены, которые могла бы сгенерировать основная модель», — пояснил Сальватор.

Так как черновая модель быстрее, пусть и менее точна, она выдвигает несколько вариантов, а главная проверяет их.

«Чем больше совпадений модель‑черновик угадывает правильно, тем выше итоговая производительность, — продолжил Сальватор. — Уже сейчас мы видим до 35% прироста скорости, благодаря этим приёмам».

Основная модель ИИ параллельно сверяет кандидаты с собственным распределением вероятностей и принимает только те токены, что соответствуют её предсказаниям. Остальные просто отбрасываются. Это удерживает задержку отклика ниже 200 мс и, по словам Сальватора, делает процесс «по‑настоящему интерактивным».

Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии