Alibaba придумала, как сократить потребность в GPU на 82%

Компания Alibaba Cloud представила систему Aegaeon, которая может радикально снизить количество необходимых видеокарт Nvidia для обслуживания AI-моделей. Почти в пять раз. Новый подход решает одну из главных проблем облачных сервисов. Неэффективное распределение вычислительных мощностей между тысячами моделей, которые загружаются неравномерно.

Обычно в таких системах лишь несколько моделей. Например, Qwen или DeepSeek постоянно загружены, тогда как сотни других простаивают, занимая дорогостоящие GPU. Aegaeon же перераспределяет ресурсы динамически. Ускорители переключаются между моделями в реальном времени, прямо в процессе генерации ответов.

Один GPU теперь способен обслуживать до семи моделей одновременно, вместо двух или трёх, как раньше. А задержки при переключении между задачами сократились на 97%.

Система уже внедрена на маркетплейсе Bailian от Alibaba Cloud, где размещены сотни AI-моделей от сторонних разработчиков. Эксперты считают, что Aegaeon может стать важным шагом в сторону более устойчивого и дешёвого AI — особенно в эпоху дефицита мощных GPU.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии