CloudRift, облачное решение для разработчиков GPU, первым сообщило о сбоях в работе высокопроизводительных видеокарт NVIDIA. По их информации, после нескольких дней использования моделей в виртуальных машинах, графические процессоры начали полностью переставать отвечать. Примечательно, что доступ к GPU становится невозможным без перезагрузки узловой системы. Утверждается, что проблема затрагивает только RTX 5090 и RTX PRO 6000, в то время как такие модели, как RTX 4090, Hopper H100 и B200 на базе Blackwell, пока остаются вне зоны риска.
Проблема возникает при назначении графического процессора виртуальной машине с использованием драйвера устройства VFIO. После сброса функционального уровня Function Level Reset (FLR) графический процессор может полностью прекратить свою работу. Это приводит к «мягкой блокировке» ядра, что в свою очередь вызывает взаимоблокировку хостовой и клиентской сред. Для устранения данной ситуации требуется перезагрузка хостовой машины, что представляет собой сложную задачу для CloudRift с учетом большого количества гостевых машин.
На экране отображаются сообщения об ошибках, связанных с RTX 5090 и RTX PRO 6000 в процессе создания виртуальной машины, включая конкретные коды ошибок.
Эта ситуация затрагивает не только CloudRift. Один из пользователей Proxmox сообщил о аналогичной проблеме, когда у него произошел полный сбой хоста после завершения работы клиента Windows. NVIDIA уже отреагировала на данную проблему и подтвердила, что смогла воспроизвести её и работает над решением. Ожидаем официального подтверждения от NVIDIA, однако, похоже, что проблема характерна исключительно для графических процессоров на базе Blackwell.
Интересно, что CloudRift объявила о вознаграждении в размере 1000 долларов за устранение ошибки или ее смягчение. NVIDIA скоро выпустит исправление, поскольку эта проблема затрагивает критически важные рабочие нагрузки в области ИИ.
Источник: www.playground.ru