Ещё немного про Blameless Culture. Уже затрагивали тему в этой статье, остановимся подробнее.
Итак, представим себе ситуацию: прод упал. Первая закономерная реакция: «Кто это сломал?».
Но в мире SRE виноватых не ищут. Потому что Blameless Culture (культура без поиска виновных) — это не про наказания, а про поиск реальных причин проблем и их предотвращение в будущем.
Почему поиск виновных — это тупик?
Как работает Blameless Culture?
Каждый инцидент — это возможность улучшить систему, а не повод найти виноватого.
Разбор инцидентов (postmortem) ведётся без обвинений. Главное — понять, как сбой стал возможен и как этого избежать в будущем.
Ошибка — это сбой процесса, а не человека. Почему он мог её совершить? Чего не хватило? Документации? Мониторинга? Автоматизации?
‼️ Плохо:
— Кто сломал базу?
— Как можно было так ошибиться?
— Больше никогда не давайте ему доступ!
☑️ Хорошо:
— Почему человек мог сломать базу?
— Каких проверок не хватало?
— Как автоматизировать это, чтобы исключить такую ошибку?
Blameless Culture делает системы более надёжными, а инженеров более уверенными. Это не значит, что ошибки не имеют последствий — просто последствия должны улучшать процессы, а не ломать людей.
Итак, представим себе ситуацию: прод упал. Первая закономерная реакция: «Кто это сломал?».
Но в мире SRE виноватых не ищут. Потому что Blameless Culture (культура без поиска виновных) — это не про наказания, а про поиск реальных причин проблем и их предотвращение в будущем.
Почему поиск виновных — это тупик?
- Люди начинают бояться ошибок и скрывают инциденты.
- Проблемы повторяются, потому что виновного наказали, а систему не исправили.
- Инженеры перестают инициировать улучшения, потому что любая ошибка = головная боль.
Как работает Blameless Culture?
Каждый инцидент — это возможность улучшить систему, а не повод найти виноватого.
Разбор инцидентов (postmortem) ведётся без обвинений. Главное — понять, как сбой стал возможен и как этого избежать в будущем.
Ошибка — это сбой процесса, а не человека. Почему он мог её совершить? Чего не хватило? Документации? Мониторинга? Автоматизации?
‼️ Плохо:
— Кто сломал базу?
— Как можно было так ошибиться?
— Больше никогда не давайте ему доступ!
☑️ Хорошо:
— Почему человек мог сломать базу?
— Каких проверок не хватало?
— Как автоматизировать это, чтобы исключить такую ошибку?
Blameless Culture делает системы более надёжными, а инженеров более уверенными. Это не значит, что ошибки не имеют последствий — просто последствия должны улучшать процессы, а не ломать людей.