Надежность — это не отсутствие сбоев. Это способность системы, команды и человека вместе подняться после падения, переосмыслить, перестроить и идти дальше — с новыми правилами игры, где человеческая уязвимость не угроза, а часть уравнения
«Инженеры Google теперь проектируют системы, которые не просто работают — они не могут сломаться непредвиденным и опасным образом»
Надёжность — это не отсутствие ошибок, а способность системы безопасно управлять сложностью. STAMP даёт инструменты для этого, смещая фокус с «тушения пожаров» на проектирование устойчивых систем.
От компонентов к системам
Традиционные методы, такие как анализ цепочек событий, недостаточны для сложных систем. STAMP фокусируется на взаимодействиях компонентов, включая человеческий фактор и программные контроллеры.
Пример: Сбой в системе квотирования Google (2021) произошёл из-за некорректной обратной связи, а не из-за ошибки в одном компоненте.
Состояния опасности (Hazard States)
Авария — это результат длительного нахождения системы в опасном состоянии, а не мгновенного события. Обнаружение таких состояний позволяет предотвратить сбои.
Пример: Автоматическое снижение квоты ресурсов привело к нехватке, но система находилась в «опасном состоянии» несколько недель до аварии.
Обратные связи так же важны, как контроль
STPA (System-Theoretic Process Analysis) выявляет уязвимости не только в алгоритмах управления, но и в цепочках данных.
Пример: Ошибка в агрегации данных об использовании ресурсов привела к неверным решениям правсизера квот.