В Huawei Cloud разработали сверхточный инструмент сетевого мониторинга RD-Probe, который позволит обслуживать облачные регионы. Он способен выявить проблемы с точностью, на которую не способен человек.
Как отмечается в докладе Huawei и представителей Пекинского университета, только внутри одного облачного региона AWS насчитывается 1087 возможных путей передачи данных, а между регионами — 10176. В ЦОД Huawei Cloud используются более 100 тысяч коммутаторов и 1 млн серверов.
Монитор RD-Probe способен отслеживать состояние всех L2-портов при том, что традиционно осуществляется именно мониторинг L3, который не даёт полного представления о состоянии сети.
Инструмент Huawei воспринимает коммутаторы как «чёрные ящики». Он не полагается исключительно на их внутреннюю телеметрию и интегрируется с существующей архитектурой системы мониторинга. Сначала он проводит зондирование случайным образом, а затем — детерминированным, чтобы обеспечить максимальное покрытие сети и не нагружать её. Для генерации трафика предназначен кластер из 16 узлов, каждый из которых оснащён восьмиядерным процессором с частотой 2,80 ГГц и 64 Гбайт оперативной памяти. Полученные данные в потоковом режиме обрабатывают 48 узлов.
За месяц использования RD-Probe в обнаружил множество проблем в Huawei Cloud, большинство из которых касались небольших сбоев и эпизодических потерь пакетов. Так, инструмент помог определить некорректно работающий чип в коммутаторе ядра сети, из-за которого периодически отбрасывался входящий трафик без генерации отчётов об ошибках. Он также выявил ошибку в балансировке нагрузки, сбой в SerDes-подключении и проблему с некоторыми BGP-маршрутами.
Как заявили в Huawei, RD-Probe улучшил покрытие мониторингом сети с 80,9 % до 99,5 %. Решение планируется применить и в других облачных регионах Huawei.
Источник: habr.com