Если вы SRE-инженер, то точно знаете этот звук — звук алерта в 3:00. Вы вскакиваете, заходите в Grafana, пытаетесь сообразить, что сломалось, пока мозг ещё в режиме сна. И так снова и снова.
Так рождается выгорание — когда вы больше не можете, но инциденты этого не знают. Можно ли вообще работать в SRE и не страдать от ночных алертов?
Почему SRE-инженеры выгорают?
1️⃣ Слишком много ложных алертов, когда тревога срабатывает на любую мелочь.
2️⃣ Отсутствие автоматизации, когда вы делаете одну и ту же рутину вручную.
3️⃣ «Геройская культура», когда работа строится на «держимся из последних сил».
4️⃣ Нестабильный прод, когда вы постоянно тушите пожары, а не устраняете их причины.
Как избежать выгорания?
⚡️ Фильтруйте алерты
Каждый алерт должен требовать действий. Если он просто «на всякий случай», удалите его.
⚡️ Внедряйте автоматическое восстановление
Упал сервис? ➡️ Автоматически перезапускаем.
Проблема с базой? ➡️ Автоматически переключаемся на реплику.
Чем меньше ручной работы в 3:00 ночи – тем меньше выгорания.
⚡️ Вводите Error Budget
99.99% аптайма — это круто, но требует жертв. Если у нас ещё есть запас ошибок, не стоит включать оверреакцию на каждый сбой.
⚡️ Дежурства должны быть человеческими
Дежурства по ночам должны быть равномерно распределены. Если вы каждую неделю в бою, что-то идёт не так.
⚡️ После жёсткого инцидента — время на восстановление.
Здесь комментарии излишни.
Что ещё бесит бесит SRE-инженера, кроме ночных алертов, рассказали здесь.
Так рождается выгорание — когда вы больше не можете, но инциденты этого не знают. Можно ли вообще работать в SRE и не страдать от ночных алертов?
Почему SRE-инженеры выгорают?
1️⃣ Слишком много ложных алертов, когда тревога срабатывает на любую мелочь.
2️⃣ Отсутствие автоматизации, когда вы делаете одну и ту же рутину вручную.
3️⃣ «Геройская культура», когда работа строится на «держимся из последних сил».
4️⃣ Нестабильный прод, когда вы постоянно тушите пожары, а не устраняете их причины.
Как избежать выгорания?
⚡️ Фильтруйте алерты
Каждый алерт должен требовать действий. Если он просто «на всякий случай», удалите его.
⚡️ Внедряйте автоматическое восстановление
Упал сервис? ➡️ Автоматически перезапускаем.
Проблема с базой? ➡️ Автоматически переключаемся на реплику.
Чем меньше ручной работы в 3:00 ночи – тем меньше выгорания.
⚡️ Вводите Error Budget
99.99% аптайма — это круто, но требует жертв. Если у нас ещё есть запас ошибок, не стоит включать оверреакцию на каждый сбой.
⚡️ Дежурства должны быть человеческими
Дежурства по ночам должны быть равномерно распределены. Если вы каждую неделю в бою, что-то идёт не так.
⚡️ После жёсткого инцидента — время на восстановление.
Здесь комментарии излишни.
Что ещё бесит бесит SRE-инженера, кроме ночных алертов, рассказали здесь.