Amazon раскрыла причину многочасового сбоя в работе облачных сервисов Amazon Web Services. Это была проблема с DNS-серверами DynamoDB из-за ошибки в ПО для автоматизации. Две служебные программы одновременно изменили адреса серверов и случайно стёрли правильные данные без автоматического восстановления.
Сбой в работе облачных сервисов AWS в центре обработки данных AWS в Северной Вирджинии. Инцидент затронул более 110 сервисов AWS и десятки тысяч клиентов компании по всему миру. Инцидент в AWS продолжался около 15 часов и привёл к проблемам у многих сервисов: Airtable, Canva, Signal, Snapchat, Fortnite, ChatGPT, Duolingo, Zoom, Ring, Hulu. Lyft, Perplexity, Slack, Reddit, Roblox и Fortnite, Apple Music, Apple TV, Venmo, Doordash, приложения Coinbase и Robinhood, не работал веб-интерфейс Perplexity, сбоили приложения McDonald’s, United Airlines и Disney. У пользователей умных устройств Alexa колонки массово отвечали, что интернет недоступен: «Sorry, the internet isn’t reachable». Даже умные матрасы Eight Sleep перестали работать из-за потери связи с AWS.
В Amazon пояснили, что сбой возник из-за неполадок в работе DynamoDB, с которой связаны сотни тысяч записей DNS, необходимых для работы огромного гетерогенного телекоммуникационного парка балансировщиков нагрузки в каждом регионе мира. При этом в системе применяются средства автоматизации для обновления записей DNS и устранения любых проблем.
20 октября 2025 года система управления DNS для DynamoDB в ЦОД Amazon в Северной Вирджинии оказалась в состоянии гонки (race condition). Две автоматические вспомогательные системы Amazon, отвечающие за обновление адресов DNS-серверов, начали работать одновременно и помешали друг другу своими действиями.
Одна система замедлилась и записывала устаревшие данные, в то время как вторая работала в оперативном режиме и обновляла адреса. Когда первая выполнила свой алгоритм, то, не зная, что данные изменились, эта система перезаписала новые настройки старыми. Затем вторая система автоматически удалила эти старые записи, что обнулило все адреса серверов и сделало сервис DynamoDB временно недоступным.
В результате сетевого конфликта DNS-запись для региональной точки подключения к DynamoDB (dynamodb.us-east-1.amazonaws.com) оказалась удалена. В этом случае резервирование систем DNS должно было предотвратить подобную ситуацию, но что-то пошло не так. Устранить неполадку самостоятельно система автоматизации по своим алгоритмам не смогла. В Amazon пришлось привлечь к решению проблемы сетевых инженеров. При этом DynamoDB оказалась недоступна для сотни собственных сервисов AWS и тысяч клиентских служб и приложений, которые используют её в своей работе. В итоге инцидент привёл к каскадным сбоям онлайн-сервисов по всему миру.
Для локализации проблемы инженеры Amazon временно отключили систему автоматизации DNS для DynamoDB по всему миру. В компании пообещали исправить в своих системах контроля текущие ошибки и добавить новые алгоритмы для избежания подобной ситуации.
В AWS уточнили, что дополнительные механизмы контроля и новые системы проверки получат балансировщики NLB и службы EC2.
«Из-за удаления активного плана система осталась в несогласованном состоянии, что не позволяло применять последующие обновления плана. Эта ситуация в конечном итоге потребовала ручного вмешательства оператора для исправления. Приносим извинения за ущерб, нанесённый этим событием нашим клиентам. Несмотря на то что мы имеем богатый опыт предоставления услуг с высочайшим уровнем доступности, мы понимаем, насколько критически важны наши услуги для наших клиентов, их приложений, конечных пользователей и их бизнеса», — говорится в сообщении пресс-службы Amazon.
Источник: habr.com