Site Reliability Engineering: подборка полезных материалов

Собрали для вас самые полезные статьи по Site Reliability Engineering. В материалах ниже вы найдете полезные кейсы, информацию о внедрении SRE и применении отдельных практик ⤵️

1️⃣ Error Budget, SLO и мониторинг: советы для начинающих SRE-инженеров

Книга Google о SRE, статьи экспертов, документация и обучающие курсы дают исчерпывающие знания о том, как в идеале должен работать SRE в компаниях. Правда, ключевое здесь – «в идеале». В этой статье мы поговорим о выстраивании рабочего процесса на старте, когда вам нужно выставить первый SLO, рассчитать error budget и мирно обо всем договориться с командой разработки и бизнесом.

📋 Читать статью

2️⃣ Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженеры

Установка SLO (Service Level Objective, целевых уровней обслуживания) — одна из базовых задач SRE. По этим показателям удобно оценивать надежность службы. Противоположность SLO — бюджет на ошибки, то есть какой уровень ненадежности считать допустимым. Когда мы определим эти показатели и установим SLO, нужно проверить их реалистичность с учетом архитектуры приложения и рабочих практик. Мы точно сможем их достичь? На что, скорее всего, уйдёт наш бюджет на ошибки?

📋 Читать статью

3️⃣ Пять инструментов Site Reliability Engineering

Надежность (reliability) программного продукта всегда является одним из приоритетов компании. Особенно это актуально для ПО, превратившегося в ежедневный инструмент для своих пользователей. Они рассчитывают на заявленный функционал, поэтому любая невозможность его использования подрывает доверие, а следовательно, и желание им пользоваться. В этой статье пойдет речь о главных инструментах Site Reliability Engineering (SRE) и о том, как они влияют на повышение надежности систем.

📋 Читать статью

4️⃣ «Цель SRE — надёжная система». Обзор основных метрик SRE

Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году. В статье опишем, как SRE-подход соотносится с DevOps, какие задачи решает инженер по SRE и о каких показателях заботится.

📋 Читать статью

5️⃣ Как строить надежные, стабильные и отказоустойчивые IT-системы: главное об SRE и SLO

К современным IT-системам предъявляются очень жесткие требования — они должны быть доступны практически 24/7, чтобы выдерживать конкуренцию на рынке. Для обеспечения такой надежности и доступности существует особый подход — SRE, Site Reliability Engineering. В статье рассказываем, что такое подход SRE, зачем он нужен, какие критерии надежности существуют и как их определять.

📋 Читать статью

6️⃣ Как мониторить золотые сигналы SRE

Принципы Site Reliability Engineering (SRE) в последнее время очень популярны, отчасти благодаря знаменитой книге о SRE в Google, где говорится о золотых сигналах, за которыми нужно следить, чтобы наши системы работали быстро и безотказно в любых масштабах. Все понимают, что это важные сигналы, но не все знают, как их отслеживать. В статье разбираются сами сигналы, подход к их использованию в мониторинге и руководства по мониторингу сигналов в конкретных сервисах.

📋 Читать статью

7️⃣ 4 важных отличия DevOps от SRE

Если вы знаете, что такое Site Reliability Engineering, вам может быть интересно, как эти практики связаны с DevOps. Важно сразу оговориться, что мы не ставим между ними слово «против». Хотя у этих подходов есть некоторые отличия в том, как лучше делать и быстрее доставлять программное обеспечение. В этой статье разберём каждый подход и выясним, чем отличаются DevOps и SRE.

📋 Читать статью

8️⃣ SRE: Распределённая и централизованная модели управления инцидентами

Внедрение SRE-практик в компаниях может происходить по-разному. Где-то решение об этом принимает менеджмент, где-то это может быть инициатива снизу. В любом случае может встать вопрос: как организовать реагирование на инциденты и кто будет брать на себя лидерство в командах во время инцидента Перевели статью о двух моделях структуры для команд управления инцидентами — распределенной и централизованной. В ней рассматриваются плюсы и минусы каждой из моделей, а также примеры того, как каждая из них выглядит.

📋 Читать статью

9️⃣ Как реализован SRE подход в Power BI

Команда Power BI рассказала, как она обеспечивает надёжную, производительную и масштабируемую работу своего сервиса. В этой статье вы узнаете, как в Power BI устроен мониторинг состояния сервиса, как SRE команды устраняют инциденты и принимают меры по улучшению сервисов.

📋 Читать статью Дайджест подготовлен в рамках продвижения курса «SRE: data- driven подход к управлению надежностью систем».

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”