Надежность — это не отсутствие сбоев. Это способность системы, команды и человека вместе подняться после падения, переосмыслить, перестроить и идти дальше — с новыми правилами игры, где человеческая уязвимость не угроза, а часть уравнения
Вопросы на собеседовании
- Какие различия между DRP и инструкцией реагирования?
- Как инструкции реагирования и DRP помогают при инцидентах?
- Что такое инцидент, если смотреть со стороны SRE?
- Как обычно происходит жизненный цикл инцидента?
- Какую роль в инцидентах обычно занимает SRE?
- Как можно ускорить обнаружение инцидента?
- Как можно ускорить восстановление при инцидентах?
- Что такое постмортем инцидента? Приведи пункты в постмортеме.
- Что такое SLI, SLO и SLA, зачем нужны и как их замерять?
- Что такое бюджет ошибок в SRE и как его используют?
- За что ответственны SRE в релизном цикле?
- По каким признакам и причинам принимается решение об откате релиза?
- В чем разница между канареечным деплоем и А/Б-тестированием для SRE?
- Какие золотые сигнали (метрики) SRE существуют? Как их замерять?
- Какие алерты стоит настроить в первую очередь SRE инженерам?
- Что такое Tracing и как он помогает SRE в их работе?
- Что такое спаны в Tracing и как они создаются? Как настроить Tracing в приложениях?
- Зачем нужны логи, если есть метрики?
- Для чего нужно стандартизировать логи, как это помогает SRE?
- Каким образом собираются, а потом передаются в хранилище логов логи в Kubernetes?
- На какие данные (поля) в логах чаще всего обращают внимания SRE?
- Как в Linux быстро найти в большом текстовом логе ID конкретного пользователя?
- Какие коды ответов HTTP существуют?
- Зачем нужно запускать несколько реплик приложения?
- Как кэширование помогает SRE инженерам? Как очистить кэш?
- Как Docker обеспечивает изоляцию контейнеров?
- В Dockerfile в чем разница между ENTRYPOINT и CMD?
- Как helm помогает разворачивать приложения в Kubernetes?
- Какие параметры важно настроить SRE инженеру в ресурсах Kubernetes?
- Какие компоненты должны быть установлены на master и worker node в Kubernetes?
- В чем разница между HPA и VPA и как они помогают SRE?
- Что такое пробы в Kubernetes?
- Что такое lifecycle хуки в Kubernetes?
- Как Kubernetes работает с лимитами (limits) и запросами (requests) у pod?
- Что такое service mesh в Kubernetes и как помогает SRE?
- В какой памяти хранятся кэшированные данные?
- Как работает DNS и чем плох кэш длительного хранения в А-записях?
- Что такое условный оператор и циклы в программировании?
- Чем отличается синхронное от асинхронного приложение?
- Какие самые популярные kill сигналы для процессов в Linux?
- Что такое ядро Linux, из чего состоит?
- Какие есть уровни TCP/IP?
- Разница между TCP и UDP?
- Ping использует UDP или TCP?
- Что такое FQDN?
- В чем разница между заголовками X-Forwarded-For и X-Real-IP?
- В чем разница между git fetch и git pull?
- Как в git откатить (отменить последние 4 коммита) изменения?
- Как откатить helm релиз? Как автоматизировать откат helm релиза ручным шагом в gitlab ci/cd?
- Какие метрики собирает metrics server в k8s?
- Что такое eBPF и как может пригодиться SRE?
- Какие и как рутинные задачи вы автоматизировали?
- В инцидент-менеджменте, какие этапы нужно автоматизировать в первую очередь?