Amazon: проблема с DNS-серверами DynamoDB и сбой в работе AWS на 15 часов возникли из-за ошибки в ПО для автоматизации

Amazon раскрыла причину многочасового сбоя в работе облачных сервисов Amazon Web Services. Это была проблема с DNS-серверами DynamoDB из-за ошибки в ПО для автоматизации. Две служебные программы одновременно изменили адреса серверов и случайно стёрли правильные данные без автоматического восстановления.

Сбой в работе облачных сервисов AWS в центре обработки данных AWS в Северной Вирджинии. Инцидент затронул более 110 сервисов AWS и десятки тысяч клиентов компании по всему миру. Инцидент в AWS продолжался около 15 часов и привёл к проблемам у многих сервисов: Airtable, Canva, Signal, Snapchat, Fortnite, ChatGPT, Duolingo, Zoom, Ring, Hulu. Lyft, Perplexity, Slack, Reddit, Roblox и Fortnite, Apple Music, Apple TV, Venmo, Doordash, приложения Coinbase и Robinhood, не работал веб-интерфейс Perplexity, сбоили приложения McDonald’s, United Airlines и Disney. У пользователей умных устройств Alexa колонки массово отвечали, что интернет недоступен: «Sorry, the internet isn’t reachable». Даже умные матрасы Eight Sleep перестали работать из-за потери связи с AWS.

В Amazon пояснили, что сбой возник из-за неполадок в работе DynamoDB, с которой связаны сотни тысяч записей DNS, необходимых для работы огромного гетерогенного телекоммуникационного парка балансировщиков нагрузки в каждом регионе мира. При этом в системе применяются средства автоматизации для обновления записей DNS и устранения любых проблем.

20 октября 2025 года система управления DNS для DynamoDB в ЦОД Amazon в Северной Вирджинии оказалась в состоянии гонки (race condition). Две автоматические вспомогательные системы Amazon, отвечающие за обновление адресов DNS-серверов, начали работать одновременно и помешали друг другу своими действиями.

Одна система замедлилась и записывала устаревшие данные, в то время как вторая работала в оперативном режиме и обновляла адреса. Когда первая выполнила свой алгоритм, то, не зная, что данные изменились, эта система перезаписала новые настройки старыми. Затем вторая система автоматически удалила эти старые записи, что обнулило все адреса серверов и сделало сервис DynamoDB временно недоступным.

В результате сетевого конфликта DNS-запись для региональной точки подключения к DynamoDB (dynamodb.us-east-1.amazonaws.com) оказалась удалена. В этом случае резервирование систем DNS должно было предотвратить подобную ситуацию, но что-то пошло не так. Устранить неполадку самостоятельно система автоматизации по своим алгоритмам не смогла. В Amazon пришлось привлечь к решению проблемы сетевых инженеров. При этом DynamoDB оказалась недоступна для сотни собственных сервисов AWS и тысяч клиентских служб и приложений, которые используют её в своей работе. В итоге инцидент привёл к каскадным сбоям онлайн-сервисов по всему миру.

Для локализации проблемы инженеры Amazon временно отключили систему автоматизации DNS для DynamoDB по всему миру. В компании пообещали исправить в своих системах контроля текущие ошибки и добавить новые алгоритмы для избежания подобной ситуации.

В AWS уточнили, что дополнительные механизмы контроля и новые системы проверки получат балансировщики NLB и службы EC2.

«Из-за удаления активного плана система осталась в несогласованном состоянии, что не позволяло применять последующие обновления плана. Эта ситуация в конечном итоге потребовала ручного вмешательства оператора для исправления. Приносим извинения за ущерб, нанесённый этим событием нашим клиентам. Несмотря на то что мы имеем богатый опыт предоставления услуг с высочайшим уровнем доступности, мы понимаем, насколько критически важны наши услуги для наших клиентов, их приложений, конечных пользователей и их бизнеса», — говорится в сообщении пресс-службы Amazon.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”