Microsoft рассказала про архитектуру Fairwater — нового типа датацентров Azure AI — и одновременно анонсировала строительство еще одного центра на площадке под Атлантой. Этот ДЦ планируется объединить с первым Fairwater в Висконсине и предыдущими ИИ-суперкомпьютерами Azure в «первую планетарную AI-суперфабрику», на которой компания будет тренировать ИИ-модели, существенно превосходящие все, что есть сейчас.
Главная идея Fairwater — уйти от существующей сейчас ситуации, когда внутри одн��го ДЦ «живут» разрозненные кластеры на разном железе и под разные задачи. Вместо этого компания строит «плоские» суперкомпьютеры на сотни тысяч GPU NVIDIA Blackwell (GB200 и GB300). Внутри датацентра все ускорители сводятся в единую сеть: новая архитектура позволяет интегрировать сотни тысяч GPU в кластер с минимальным числом переходов и задержками, которые подходят для тренировки моделей с триллионами параметров и для целой линейки задач — от претрейнинга до тонкой настройки, RL и генерации синтетических данных.
Чтобы достичь этого, датацентр строится двухэтажным — это сокращает длину кабелей между стойками и ускорителями. Для отвода тепла используется замкнутый контур прямого жидкостного охлаждения: воду один раз заливают в систему (объем сопоставим с годовым потреблением примерно 20 частных домов), после чего она многократно используется и рассчитана на срок более шести лет. Это дает до 140 кВт на стойку и примерно 1,36 МВт на ряд, позволяя максимально плотно упаковать вычислители и стабильно держать нагрузку крупных тренинговых задач. Microsoft подчеркивает, что Fairwater изначально проектировался с упором на fungibility — гибкость в том, какие типы ИИ-нагрузок можно на нем запускать и как ими заполнять кластер. Это должно упростить и эволюцию железа, и смену поколений моделей.
На уровне железа одна стойка может содержать до 72 GPU Blackwell, связанные NVLink с пропускной способностью до 1,8 ТБ/с и доступом к более чем 14 ТБ общего пула памяти на каждый GPU; масштабирование наружу идет через двухуровневую бэкэнд-сеть на Ethernet с до 800 Гбит/с между GPU и набором оптимизаций поверх SONiC — от packet trimming и spray до телеметрии высокой частоты. За пределами здания Fairwater-сайты и предыдущие суперкомпьютеры сшиваются в AI WAN: Microsoft протягивает десятки тысяч километров оптоволокна и объединяет площадки по всей стране в одну AI-суперфабрику, которая может динамически распределять разные типы ИИ-нагрузок и максимально загружать GPU.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com