Курс обучения SRE

Надежность — это не отсутствие сбоев. Это способность системы, команды и человека вместе подняться после падения, переосмыслить, перестроить и идти дальше — с новыми правилами игры, где человеческая уязвимость не угроза, а часть уравнения

Наблюдаемость

Наблюдаемость (observability) — ключевой элемент надежности современных распределенных систем.

Выделяют четыре основных столпа: метрики, логи, трейсы и профилирование.

1. Метрики: фокус на ключевые показатели

Метрики (CPU, память, время ответа) дают общую картину здоровья системы, но требуют контекста.

2. Логи: фильтрация и анализ

Логи полезны для расследования инцидентов, но их объем может быть неподъемным.

3. Трейсы: карта зависимостей

Трейсы показывают путь запроса через сервисы, выявляя узкие места.

4. Профилирование: глубокая оптимизация

Профилирование выявляет узкие места на уровне кода (CPU, память).

Заключение

Комбинация четырех столпов наблюдаемости позволяет:

Пример внедрения

Микросервисная архитектура интернет-магазина: