Курс обучения SRE

Надежность — это не отсутствие сбоев. Это способность системы, команды и человека вместе подняться после падения, переосмыслить, перестроить и идти дальше — с новыми правилами игры, где человеческая уязвимость не угроза, а часть уравнения

Пример хронологии инцидента с ключевыми метриками

1. За 72 часа до инцидента:

2. 11:30 — Диск БД заполнился на 90%:

3. 11:33 — Задержка выросла до 2.5 секунд:

4. 11:35 — Сработал алерт на падение SLI:

5. 11:40 — Переключение на резервную БД:

6. 12:00 — Полное восстановление: