7 вещей, которые бесят SRE-инженера

SRE — это про надёжность, но иногда кажется, что весь мир против нас. Какие вещи чаще всего доводят SRE-инженеров до нервного тика?

1️⃣ — А давайте зарелизим в пятницу вечером?

— Нет. Просто нет.

Релиз перед выходными = гарантированный Pager Hell. Если что-то пойдёт не так (а оно пойдёт), вы проведёте субботу не с друзьями, а в логах и Grafana.

2️⃣ — Давайте алертить на всё подряд!

— Если алерты орут постоянно, их просто перестают слушать.

Настроили алерт на 5% падения запросов? Добавили ещё один на 3%? А потом ещё на миллисекунду задержки? Поздравляю, теперь SRE живёт в Pager Hell и игнорирует критические алерты.

3️⃣ — Мониторинг? Да у нас есть логи!

— Логи ≠ мониторинг!

Логов может быть миллионы строк в секунду, и если искать проблему вручную — можно состариться быстрее, чем найдёшь её. Без нормальных метрик и дашбордов SRE работает в темноте.

4️⃣ — Прод упал, а кто-то поменял конфиг. Но кто?

— Конфигурация должна быть под контролем.

Если кто-то пофиксил что-то прямо на проде без ревью, а потом прод лёг — это худшее, что можно сделать. GitOps, версионирование, ревью — наше всё.

5️⃣ — Просто перезапустите контейнер, и всё заработает!

— Нет.

Перезапуск контейнера не решает проблему. Он просто маскирует её. Настоящий SRE должен разобраться, почему он вообще упал.

6️⃣— А давайте убьём кэш!

— А давайте убьём прод сразу?

Очистка кэша без понимания последствий = лавина запросов в базу, перегрузка и падение сервиса.

7️⃣— Зачем нам тестить отказоустойчивость? Всё и так работает!

— До первого сбоя.

Если система не тестировалась на сбои, то первый реальный инцидент станет катастрофой. Поэтому SRE практикуют Chaos Engineering: намеренно ломают системы, чтобы узнать, что произойдёт.

SRE-работа бесценна, но иногда кажется, что мы воюем не только с продом, но и с людьми.

Какой «набор выживальщика» помогает SRE-инженеру воевать с пожарами, рассказали здесь.