Блог Слёрм

SRE против выгорания: можно ли жить без ночных алертов?

Если вы SRE-инженер, то точно знаете этот звук — звук алерта в 3:00. Вы вскакиваете, заходите в Grafana, пытаетесь сообразить, что сломалось, пока мозг ещё в режиме сна. И так снова и снова.

Так рождается выгорание — когда вы больше не можете, но инциденты этого не знают. Можно ли вообще работать в SRE и не страдать от ночных алертов?

Почему SRE-инженеры выгорают?

1️⃣ Слишком много ложных алертов, когда тревога срабатывает на любую мелочь.

2️⃣ Отсутствие автоматизации, когда вы делаете одну и ту же рутину вручную.

3️⃣ «‎Геройская культура», когда работа строится на «держимся из последних сил».

4️⃣ Нестабильный прод, когда вы постоянно тушите пожары, а не устраняете их причины.

Как избежать выгорания?

⚡️ Фильтруйте алерты

Каждый алерт должен требовать действий. Если он просто «на всякий случай», удалите его.

⚡️ Внедряйте автоматическое восстановление

Упал сервис? ➡️ Автоматически перезапускаем.

Проблема с базой? ➡️ Автоматически переключаемся на реплику.

Чем меньше ручной работы в 3:00 ночи – тем меньше выгорания.

⚡️ Вводите Error Budget

99.99% аптайма — это круто, но требует жертв. Если у нас ещё есть запас ошибок, не стоит включать оверреакцию на каждый сбой.

⚡️ Дежурства должны быть человеческими

Дежурства по ночам должны быть равномерно распределены. Если вы каждую неделю в бою, что-то идёт не так.

⚡️ После жёсткого инцидента — время на восстановление.

Здесь комментарии излишни.

Что ещё бесит бесит SRE-инженера, кроме ночных алертов, рассказали здесь.
SRE