«Турбо облако» представило платформу для быстрого запуска ИИ-моделей с поминутной тарификацией и автоматическим масштабированием

Облачный провайдер «Турбо облако» (входит в коммерческий IT-кластер «Ростелекома»), запустил Inference Platform — платформу для развёртывания и эксплуатации моделей искусственного интеллекта, в основу которой положены графические ускорители NVIDIA H200 SXM.

Inference Platform поддерживает различные типы ИИ-моделей, включая open source-решения. Пользователи могут загружать собственные модели или использовать контейнерные образы, разворачивая их в облачной среде без дополнительных инфраструктурных настроек. Сервис обеспечивает автоматическое масштабирование ресурсов (автоскейлинг) в зависимости от нагрузки. Такой подход позволяет оптимизировать использование GPU и снизить затраты при нерегулярной нагрузке, говорит компания. Дополнительным преимуществом является поминутная тарификация ресурсов, гарантирующая более точный контроль расходов по сравнению с почасовой оплатой.

Источник изображения: Omar Lopez-Rincon / unsplash.com

Платформа поддерживает распределённый инференс, позволяя запускать модели объёмом до одного триллиона параметров с размещением на нескольких вычислительных узлах. Для взаимодействия между узлами используется высокоскоростная сеть (InfiniBand), позволяющая объединять большое количество серверов и графических ускорителей для дообучения крупных моделей. Также доступно гибкое использование GPU-ресурсов, включая их дробление под задачи меньшего объёма.

В настоящее время новый продукт доступен для тестирования: компании могут оценить его возможности на собственных моделях.

Источник: servernews.ru

0 0 голоса

Рейтинг новости