Блог Слёрм

Blameless Culture: почему в SRE не ищут виноватых?

Ещё немного про Blameless Culture. Уже затрагивали тему в этой статье, остановимся подробнее.

Итак, представим себе ситуацию: прод упал. Первая закономерная реакция: «Кто это сломал?».

Но в мире SRE виноватых не ищут. Потому что Blameless Culture (культура без поиска виновных) — это не про наказания, а про поиск реальных причин проблем и их предотвращение в будущем.

Почему поиск виновных — это тупик?

  • Люди начинают бояться ошибок и скрывают инциденты.
  • Проблемы повторяются, потому что виновного наказали, а систему не исправили.
  • Инженеры перестают инициировать улучшения, потому что любая ошибка = головная боль.

Как работает Blameless Culture?

Каждый инцидент — это возможность улучшить систему, а не повод найти виноватого.

Разбор инцидентов (postmortem) ведётся без обвинений. Главное — понять, как сбой стал возможен и как этого избежать в будущем.

Ошибка — это сбой процесса, а не человека. Почему он мог её совершить? Чего не хватило? Документации? Мониторинга? Автоматизации?

‼️ Плохо:

— Кто сломал базу?

— Как можно было так ошибиться?

— Больше никогда не давайте ему доступ!

☑️ Хорошо:

— Почему человек мог сломать базу?

— Каких проверок не хватало?

— Как автоматизировать это, чтобы исключить такую ошибку?

Blameless Culture делает системы более надёжными, а инженеров более уверенными. Это не значит, что ошибки не имеют последствий — просто последствия должны улучшать процессы, а не ломать людей.
SRE