Microsoft Azure преодолела барьер инференса в 1 млн токенов в секунду

Microsoft объявила о новом рекорде производительности в области инференса больших языковых моделей. На виртуальных машинах Azure ND GB300 v6, работающих на стоечных системах NVIDIA GB300 NVL72, инженерам удалось достичь скорости 1.1 миллиона токенов в секунду при работе с моделью Llama 2 70B. Это примерно на 27% выше предыдущего мирового показателя, установленного на оборудовании поколения GB200.

Архитектура Blackwell, на которой основаны новые GPU, обеспечивает почти пятикратный рост пропускной способности по сравнению с H100, а использование формата FP4 и обновлённой библиотеки NVIDIA TensorRT-LLM позволило сократить задержки при обработке данных и повысить эффективность на уровне ядра. Всё это даёт возможность обрабатывать гораздо большие массивы информации с минимальными затратами энергии.

Испытания проводились в партнёрстве с независимой аналитической компанией Signal 65, которая подтвердила достоверность результатов. В открытом доступе опубликованы логи тестового инстанса на GitHub, что делает эксперимент одним из самых прозрачных в истории Azure.

Кроме того, Azure готовит инструменты, которые позволят разработчикам использовать подобные мощности через стандартные API, не вдаваясь в детали архитектуры. Это приближает момент, когда инференс на миллион токенов в секунду станет не лабораторным рекордом, а повседневной практикой для коммерческих приложений.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”