Курс обучения SRE

Надежность — это не отсутствие сбоев. Это способность системы, команды и человека вместе подняться после падения, переосмыслить, перестроить и идти дальше — с новыми правилами игры, где человеческая уязвимость не угроза, а часть уравнения

Вопросы на собеседовании

  1. Какие различия между DRP и инструкцией реагирования?
  2. Как инструкции реагирования и DRP помогают при инцидентах?
  3. Что такое инцидент, если смотреть со стороны SRE?
  4. Как обычно происходит жизненный цикл инцидента?
  5. Какую роль в инцидентах обычно занимает SRE?
  6. Как можно ускорить обнаружение инцидента?
  7. Как можно ускорить восстановление при инцидентах?
  8. Что такое постмортем инцидента? Приведи пункты в постмортеме.
  9. Что такое SLI, SLO и SLA, зачем нужны и как их замерять?
  10. Что такое бюджет ошибок в SRE и как его используют?
  11. За что ответственны SRE в релизном цикле?
  12. По каким признакам и причинам принимается решение об откате релиза?
  13. В чем разница между канареечным деплоем и А/Б-тестированием для SRE?
  14. Какие золотые сигнали (метрики) SRE существуют? Как их замерять?
  15. Какие алерты стоит настроить в первую очередь SRE инженерам?
  16. Что такое Tracing и как он помогает SRE в их работе?
  17. Что такое спаны в Tracing и как они создаются? Как настроить Tracing в приложениях?
  18. Зачем нужны логи, если есть метрики?
  19. Для чего нужно стандартизировать логи, как это помогает SRE?
  20. Каким образом собираются, а потом передаются в хранилище логов логи в Kubernetes?
  21. На какие данные (поля) в логах чаще всего обращают внимания SRE?
  22. Как в Linux быстро найти в большом текстовом логе ID конкретного пользователя?
  23. Какие коды ответов HTTP существуют?
  24. Зачем нужно запускать несколько реплик приложения?
  25. Как кэширование помогает SRE инженерам? Как очистить кэш?
  26. Как Docker обеспечивает изоляцию контейнеров?
  27. В Dockerfile в чем разница между ENTRYPOINT и CMD?
  28. Как helm помогает разворачивать приложения в Kubernetes?
  29. Какие параметры важно настроить SRE инженеру в ресурсах Kubernetes?
  30. Какие компоненты должны быть установлены на master и worker node в Kubernetes?
  31. В чем разница между HPA и VPA и как они помогают SRE?
  32. Что такое пробы в Kubernetes?
  33. Что такое lifecycle хуки в Kubernetes?
  34. Как Kubernetes работает с лимитами (limits) и запросами (requests) у pod?
  35. Что такое service mesh в Kubernetes и как помогает SRE?
  36. В какой памяти хранятся кэшированные данные?
  37. Как работает DNS и чем плох кэш длительного хранения в А-записях?
  38. Что такое условный оператор и циклы в программировании?
  39. Чем отличается синхронное от асинхронного приложение?
  40. Какие самые популярные kill сигналы для процессов в Linux?
  41. Что такое ядро Linux, из чего состоит?
  42. Какие есть уровни TCP/IP?
  43. Разница между TCP и UDP?
  44. Ping использует UDP или TCP?
  45. Что такое FQDN?
  46. В чем разница между заголовками X-Forwarded-For и X-Real-IP?
  47. В чем разница между git fetch и git pull?
  48. Как в git откатить (отменить последние 4 коммита) изменения?
  49. Как откатить helm релиз? Как автоматизировать откат helm релиза ручным шагом в gitlab ci/cd?
  50. Какие метрики собирает metrics server в k8s?
  51. Что такое eBPF и как может пригодиться SRE?
  52. Какие и как рутинные задачи вы автоматизировали?
  53. В инцидент-менеджменте, какие этапы нужно автоматизировать в первую очередь?