Блог Слёрм

Почему 100% аптайма — это миф? (и зачем нужны SLA, SLO, SLI)

Все хотят, чтобы сервис работал всегда. Но давайте будем честными: 100% аптайма — это утопия. Почему? Потому что абсолютная надёжность стоит слишком дорого.

Что происходит, когда бизнес требует 100% аптайма?

1️⃣ Инженеры начинают перестраховываться и бояться любых изменений.

2️⃣ Продукт замирает в развитии, потому что каждое обновление — потенциальный риск.

3️⃣ Компания тратит миллионы на избыточную инфраструктуру, которая будет простаивать 99.99% времени.

Вот почему в реальном мире компании закладывают допустимые сбои. И тут на сцену выходят SLA, SLO и SLI:

  • SLI (Service Level Indicator) — метрика, которая показывает, насколько хорошо работает сервис.

Пример: время отклика API, процент успешных запросов, аптайм сервера.

  • SLO (Service Level Objective) — цель, которую сервис должен соблюдать.

Пример: API должен быть доступен 99.9% времени.

  • SLA (Service Level Agreement) — договор между бизнесом и клиентами о минимально допустимой надёжности.

Пример: если сервис работает хуже 99.9%, компания возвращает деньги клиентам.

Насколько реально поддерживать высокий аптайм?

Вот как выглядят реальные цифры допустимого простоя:

99.9% ➡️ 43 минуты 50 секунд простоя в месяц

99.99% ➡️ 4 минуты 23 секунды простоя в месяц

99.999% ➡️ 26 секунд простоя в месяц

Каждая дополнительная «девятка» увеличивает стоимость инфраструктуры в разы. Поэтому бизнес выбирает баланс между надёжностью и затратами.
SRE