Если вы когда-нибудь работали с продом, то точно сталкивались с ситуациями, когда «всё сломалось, а виноваты вы». Но в мире SRE к этому подходят с философией: инциденты неизбежны, но их можно пережить с меньшей болью. Для этого существуют отдельные понятия:
Pager Hell — когда алерты превращают вашу жизнь в ад
Добро пожаловать в Pager Hell! Это ситуация, когда алерты настроены так ужасно, что инженеры перманентно не спят, но ничего полезного не могут сделать. Лечится:
☑️ фильтрацией алертов (не орать на всё подряд);
☑️ автоматизацией рутинных решений (Self-healing системы);
☑️ Error Budget (планирование допустимых сбоев). Подробнее о нём рассказывали тут.
Toil — бесполезная и повторяющаяся работа
Это рутинные задачи, которые не приносят ценности, но пожирают время:
Google считает, что Toil не должно занимать больше 50% времени SRE. Поэтому хороший SRE автоматизирует всё, что повторяется больше двух раз.
Blameless Culture — когда виноватых не ищут
Представьте: прод упал, бизнес злится, начальство требует «найти виновного». Но в SRE-культуре винить людей бессмысленно — всегда виновата система.
❗️Плохая практика: «Кто сломал прод?»
☑️ Хорошая практика: «Почему система позволила человеку сломать прод?»
Blameless postmortems (разбор инцидентов без поиска виновных) помогают улучшать процессы, а не устраивать охоту на ведьм.
Вывод:
Как у вас обстоят дела с этими понятиями?
Pager Hell — когда алерты превращают вашу жизнь в ад
- Вы ложитесь спать, но в 3:00 ночи приходит тревожное уведомление.
- Вы засыпаете снова — оно орёт через десять минут.
- Вы просыпаетесь в панике, заходите в Grafana, видите аномалии, но не понимаете, что происходит.
Добро пожаловать в Pager Hell! Это ситуация, когда алерты настроены так ужасно, что инженеры перманентно не спят, но ничего полезного не могут сделать. Лечится:
☑️ фильтрацией алертов (не орать на всё подряд);
☑️ автоматизацией рутинных решений (Self-healing системы);
☑️ Error Budget (планирование допустимых сбоев). Подробнее о нём рассказывали тут.
Toil — бесполезная и повторяющаяся работа
Это рутинные задачи, которые не приносят ценности, но пожирают время:
- ручные деплои, которые можно автоматизировать;
- поиск в логах без нормального мониторинга;
- чек-листы вместо скриптов.
Google считает, что Toil не должно занимать больше 50% времени SRE. Поэтому хороший SRE автоматизирует всё, что повторяется больше двух раз.
Blameless Culture — когда виноватых не ищут
Представьте: прод упал, бизнес злится, начальство требует «найти виновного». Но в SRE-культуре винить людей бессмысленно — всегда виновата система.
❗️Плохая практика: «Кто сломал прод?»
☑️ Хорошая практика: «Почему система позволила человеку сломать прод?»
Blameless postmortems (разбор инцидентов без поиска виновных) помогают улучшать процессы, а не устраивать охоту на ведьм.
Вывод:
- Pager Hell — если уведомления будят вас по ночам, у вас проблемы с алертами.
- Toil — если вы тратите дни на рутину, а не на инженерию, значит, пора автоматизировать.
- Blameless Culture — если ищете виновных, а не причины сбоя, значит, вы не про SRE.
Как у вас обстоят дела с этими понятиями?