Издание Register рассказало историю о том, как 20 лет назад неквалифицированный системный администратор на три часа обрушил сайт Amazon.com из‑за опечатки в файле конфигурации системы резервного копирования.
Бывший сотрудник компании под именем Кен более 20 лет назад получил работу системным администратором Linux на Amazon.com. Но, по его словам, был «совершенно неквалифицированным» для этой должности.
Ранее Кен работал системным администратором Solaris, и этот опыт позволил ему пройти собеседование в Amazon. Он наспех изучил азы Linux, получил работу и вскоре обнаружил, что среда Red Hat Enterprise Linux, существовавшая в то время, сильно отличалась от Solaris. Несмотря на его неопытность, в Amazon поручили Кену выполнить обновление рабочего приложения для резервного копирования на ленточные накопители.
«Я потратил месяцы на планирование и тестирование, потому что после этого обновления изменились файлы конфигурации, и моей команде нужно было создать новые и установить их вместе с обновлением. Я создал эти файлы и провёл все необходимые тесты. Казалось, всё работает нормально, и настал день, когда мы нажали кнопку. Несколько часов всё работало как задумано. Мы сидели и смотрели ещё несколько часов после обновления, всё работало отлично, поэтому мы решили, что работа сделана отлично, и пошли домой», — рассказал Кен.
А потом, примерно в 7 вечера, пейджер Кена «начал орать». Через несколько минут Кен присоединился к телефонной конференции, на которой очень и очень высокопоставленные люди, включая тогдашнего генерального директора Джеффа Безоса, хотели узнать, почему весь сейт Amazon.com упал. «Многие считали это серьёзным инцидентом», — сказал Кен.
В конце концов Кен и его коллеги заметили, что это именно основная база данных магазина Amazon перестала работать, несмотря на то, что огромное количество компьютеров, на которых она работала, продолжали штатно функционировать.
Кен знал, что обновлённое им приложение для резервного копирования делает копию журналов базы данных на ленту, а затем удаляет их на серверах, где размещалась база данных. Кен проверил процесс резервного копирования и обнаружил, что всё работает отлично. Он продолжил изучать код и логи и в конце концов проверил файлы конфигурации, которые так тщательно создал… и там обнаружил опечатку, из‑за которой система не удаляла журналы после резервного копирования.
«Это не было проблемой на много часов, но в конце концов раздел, содержащий журналы, заполнился, и база данных просто сдалась и начала жаловаться, что её больше никто не обслуживает», — пояснил Кен. Убедившись, что ни один из файлов журналов не был потерян, Кен и администратор базы данных удалили журналы на кластере и наблюдали, как база данных ожила, как и сайт Amazon.com.
Кен исправил опечатку в файле конфигурации, а затем вернулся домой и провёл беспокойную ночь, размышляя о необходимости поиска новой работы. «На следующее утро я заехал в офис и увидел своего менеджера, стоящего на парковке, где я обычно паркуюсь. Это показалось мне недобрым предзнаменованием», — рассказал Кен. «Я вышел из машины и подошёл к нему. Он молча стоял около 15 секунд, пристально глядя на меня. Внезапно он широко улыбнулся, пожал мне руку и сказал: „Поздравляю, ты больше не девственник“ (Congratulations, you’re no longer a virgin). Мы вошли внутрь, и все в команде ещё долго издевались надо мной. Вот так я и разрушил на несколько часов Amazon», — подытожил Кен.
Источник: habr.com