Блог Слёрм

«Pager Hell», «Toil» и «Blameless Culture»

Если вы когда-нибудь работали с продом, то точно сталкивались с ситуациями, когда «всё сломалось, а виноваты вы». Но в мире SRE к этому подходят с философией: инциденты неизбежны, но их можно пережить с меньшей болью. Для этого существуют отдельные понятия:

Pager Hell — когда алерты превращают вашу жизнь в ад

  • Вы ложитесь спать, но в 3:00 ночи приходит тревожное уведомление.
  • Вы засыпаете снова — оно орёт через десять минут.
  • Вы просыпаетесь в панике, заходите в Grafana, видите аномалии, но не понимаете, что происходит.

Добро пожаловать в Pager Hell! Это ситуация, когда алерты настроены так ужасно, что инженеры перманентно не спят, но ничего полезного не могут сделать. Лечится:

☑️ фильтрацией алертов (не орать на всё подряд);

☑️ автоматизацией рутинных решений (Self-healing системы);

☑️ Error Budget (планирование допустимых сбоев). Подробнее о нём рассказывали тут.

Toil — бесполезная и повторяющаяся работа

Это рутинные задачи, которые не приносят ценности, но пожирают время:

  • ручные деплои, которые можно автоматизировать;
  • поиск в логах без нормального мониторинга;
  • чек-листы вместо скриптов.

Google считает, что Toil не должно занимать больше 50% времени SRE. Поэтому хороший SRE автоматизирует всё, что повторяется больше двух раз.

Blameless Culture — когда виноватых не ищут

Представьте: прод упал, бизнес злится, начальство требует «найти виновного». Но в SRE-культуре винить людей бессмысленно — всегда виновата система.

❗️Плохая практика: «Кто сломал прод?»

☑️ Хорошая практика: «Почему система позволила человеку сломать прод?»

Blameless postmortems (разбор инцидентов без поиска виновных) помогают улучшать процессы, а не устраивать охоту на ведьм.

Вывод:

  1. Pager Hell — если уведомления будят вас по ночам, у вас проблемы с алертами.
  2. Toil — если вы тратите дни на рутину, а не на инженерию, значит, пора автоматизировать.
  3. Blameless Culture — если ищете виновных, а не причины сбоя, значит, вы не про SRE.

Как у вас обстоят дела с этими понятиями?
2025-05-12 00:00 SRE