Продолжается сбой в AWS, который в несколько волн привёл к проблемам у многих сервисов по всему миру

Инженеры AWS продолжают пытаться устранить масштабный сетевой сбой в работе облачный сервисов Amazon Web Services в центре обработки данных AWS в Северной Вирджинии. Инцидент затронул более 100 сервисов AWS и тысячи клиентов компании. Проблема началась 12 часов назад, когда инженеры попытались смягчить проблемы, но потом началась более серьёзная вторая водна неполадок.

«Мы сузили круг источников проблем с сетевым подключением, повлиявших на сервисы AWS. Корневая причина — базовая внутренняя подсистема, отвечающая за мониторинг работоспособности наших сетевых балансировщиков нагрузки. Мы ограничиваем запросы на запуск новых инстансов EC2 для содействия восстановлению и активно работаем над устранением нагрузки.Мы продолжаем расследовать основные причины проблем с сетевым подключением, влияющих на такие сервисы AWS, как DynamoDB, SQS и Amazon Connect в регионе US‑EAST-1. Мы определили, что проблема возникла во внутренней сети EC2. Мы продолжаем расследование и поиск способов её устранения«, — сообщили в AWS.»

«Мы предприняли дополнительные меры по снижению нагрузки, чтобы способствовать восстановлению базовой внутренней подсистемы, отвечающей за мониторинг работоспособности наших сетевых балансировщиков нагрузки, и теперь наблюдаем восстановление подключения и API для сервисов AWS. Мы также определили и применяем дальнейшие меры по снижению нагрузки при запуске новых инстансов EC2», — добавили в AWS.

«Наши меры по устранению сбоев запуска новых экземпляров EC2 продолжаются, и внутренние подсистемы EC2 уже демонстрируют первые признаки восстановления в нескольких зонах доступности (AZ) в регионе US‑EAST-1. Мы применяем меры по устранению проблем в оставшихся зонах доступности, после чего ожидаем, что ошибки запуска и проблемы с сетевым подключением исчезнут. Мы продолжаем применять меры по устранению проблем, связанных с работоспособностью балансировщика сетевой нагрузки и восстановлением подключения для большинства сервисов AWS. В Lambda возникают ошибки вызова функций, поскольку проверки работоспособности балансировщика сетевой нагрузки повлияли на внутреннюю подсистему. Мы предпринимаем шаги по восстановлению этой внутренней системы Lambda. В случае сбоев запуска экземпляров EC2 мы проводим проверку исправления и выполним развёртывание в первой зоне доступности, как только будем уверены в возможности безопасного выполнения этого», — уточнили в AWS.

Инцидент в AWS продолжается более 12 часов и уже привёл к проблемам у многих сервисов: Airtable, Canva, Signal, Snapchat, Fortnite, ChatGPT, Duolingo, Zoom, Ring, Hulu. Lyft, Perplexity, Snapchat, Slack, Reddit, Roblox и Fortnite, приложения Coinbase и Robinhood, не работал веб-интерфейс Perplexity, сбоили приложения McDonald’s, United Airlines и Disney. У пользователей умных устройств Alexa колонки массово отвечали, что интернет недоступен: «Sorry, the internet isn’t reachable».

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии