Uptime Institute: сбои в дата-центрах стали реже, но значительнее

Согласно новому отчёту Uptime Institute, за последнюю пятилетку отказоустойчивость ЦОД значительно выросла. При этом сбои в работе дата-центров по-прежнему происходят, а устранение их обходится всё дороже и времени на это уходит в среднем всё больше, сообщает The Register.

Согласно докладу, половина опрошенных представителей операторов ЦОД за последние три года отметили значительные или масштабные сбои. Это наиболее низкий уровень с 2020 года, т.е. инфраструктура становится всё надёжнее. При этом операторам ЦОД всё сложнее повышать прописанный в SLA уровень надёжности — хотя отказы случаются реже, дальнейшее улучшение показателей требует всё больших усилий.

Усилия по повышению времени безотказной работы отчасти сводятся на нет усложнением систем и условий эксплуатации, вызванными повсеместным внедрением ресурсоёмкой инфраструктуры для обучения и инференса ИИ. Повышенная плотность размещения оборудования в стойках, перепады нагрузок и другие факторы способны увеличить вероятность каскадных отказов. Кроме того, нехватка генераторов, распределительных устройств, трансформаторов, систем охлаждения и др. заставляет операторов ЦОД иногда использовать б/у или непроверенное оборудование. Предполагается, что именно это могло привести к сбоям в некоторых ЦОД.

Источник изображения: Uptime Institute

Основной причиной критических неполадок называются сбои электроснабжения, хотя в этом отношении наметились определённые улучшения — если в 2024 году на проблемы с электроснабжением приходилось 54 % самых серьёзных отключений, то в 2025 году речь шла уже о 45 %. При этом ситуация может измениться, поскольку электросети на местах испытывают всё большую нагрузку из-за ввода в эксплуатацию новых ЦОД. Хотя сбои энергосетей не станут главной причиной отключений в будущем, они скажутся на доступности локальной генерации — при сбоях сети ЦОД не всегда успевают переключиться на ДГУ и иные резервные источники питания.

Источник изображения: Uptime Institute

В поле зрения экспертов Uptime попадает не только перегрузка электросетей. По словам экспертов, многие сбои ЦОД связаны с обрывами оптоволокна и другими неполадками. Поскольку инфраструктура ЦОД становится всё более распределённой, сбои за пределами дата-центров играют всё большую роль. Даже если сам ЦОД работает корректно, неправильная сетевая конфигурация, например, может привести к перебоям с предоставлением услуг клиентам. SDN и автоматическое перераспределение трафика позволяет снизить риски, и всё больше компаний не сталкиваются с простоями вообще. Около 20 % опрошенных не регистрировали в последние три года сбоев IT-сервисов, что значительно лучше, чем годом ранее.

Источник изображения: Uptime Institute

Обеспечение устойчивости на уровне ПО помогает смягчить эффекты от локальных инцидентов, включая обрывы оптоволоконных кабелей, за счёт распределения рабочих нагрузок между рядом связанных площадок. Впрочем, такие системы довольно сложны сами по себе. Более того, на примере ударов беспилотниками по ЦОД в ОАЭ и Бахрейне можно увидеть, что распределение нагрузок имеет малую эффективность, если сбой касается сразу нескольких площадок.

Хотя в 2025 году Uptime Institute зарегистрировала меньше сбоев, чем годом ранее, в отчёте полагают, что сбои могут длиться в целом дольше. 55 % инцидентов, информация о которых сообщалось публично, разрешаются в течение 12 часов, но доля инцидентов продолжительностью более 48 часов увеличивается вот уже второй год подряд. При этом многие из них связаны с теми же повреждениями ВОЛС. По информации Uptime, в отчётный период это происходило более чем вдвое чаще, чем ранее.

При этом по мере роста длительности простоя растут и убытки от инцидентов, особенно в случае с ИИ-инфраструктурой. По данным Uptime, в настоящее время 20 % простоев обходится дороже $1 млн. Ожидается, что соответствующий показатель в ближайшие годы будет только увеличиваться.

Источник: servernews.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии