Блог Слёрм

Error Budget: почему иногда лучше НЕ чинить баги?

Допустим, у вас есть сервис, который должен работать 99.9% времени. Это значит, что 0.1% времени он может лежать – и это нормально.

Но что делает большинство разработчиков и менеджеров? Паникует при каждом сбое и бросается чинить баги любой ценой. И вот тут SRE-инженеры говорят: «Стоп! Давайте посчитаем Error Budget».

Что такое Error Budget?


Это запас «разрешённых» сбоев, который закладывается в SLO (Service Level Objective). Например, если ваш SLA — 99.9% аптайма в месяц, значит, вы можете позволить себе до 43 минут простоя. Подробнее о сути и различиях SLO и SLA, писали тут.

Почему иногда баги лучше не чинить?

  • Фикс может сломать что-то ещё — исправление одного бага может породить новые инциденты.
  • Релизная гонка — если Error Budget не исчерпан, лучше сфокусироваться на фичах, а не на «перестраховке».
  • Приоритеты бизнеса — иногда баг мешает 1% пользователей, а новая фича увеличит доход на 10%.

Как использовать Error Budget?

— Если бюджет заканчивается раньше срока → замедляем релизы, усиливаем тестирование.

— Если бюджет не исчерпан → можно делать более агрессивные изменения и не бояться экспериментов.

— Если сервис часто выходит за рамки бюджета → нужно пересматривать архитектуру, мониторинг и процессы.

Вывод:

Error Budget — это не просто цифры, а инструмент управления балансом между скоростью и надёжностью. Иногда лучше оставить баг в покое и не ломать систему ради фикса.
SRE