Все хотят, чтобы сервис работал всегда. Но давайте будем честными: 100% аптайма — это утопия. Почему? Потому что абсолютная надёжность стоит слишком дорого.
Что происходит, когда бизнес требует 100% аптайма?
1️⃣ Инженеры начинают перестраховываться и бояться любых изменений.
2️⃣ Продукт замирает в развитии, потому что каждое обновление — потенциальный риск.
3️⃣ Компания тратит миллионы на избыточную инфраструктуру, которая будет простаивать 99.99% времени.
Вот почему в реальном мире компании закладывают допустимые сбои. И тут на сцену выходят SLA, SLO и SLI:
Пример: время отклика API, процент успешных запросов, аптайм сервера.
Пример: API должен быть доступен 99.9% времени.
Пример: если сервис работает хуже 99.9%, компания возвращает деньги клиентам.
Насколько реально поддерживать высокий аптайм?
Вот как выглядят реальные цифры допустимого простоя:
99.9% ➡️ 43 минуты 50 секунд простоя в месяц
99.99% ➡️ 4 минуты 23 секунды простоя в месяц
99.999% ➡️ 26 секунд простоя в месяц
Каждая дополнительная «девятка» увеличивает стоимость инфраструктуры в разы. Поэтому бизнес выбирает баланс между надёжностью и затратами.
Что происходит, когда бизнес требует 100% аптайма?
1️⃣ Инженеры начинают перестраховываться и бояться любых изменений.
2️⃣ Продукт замирает в развитии, потому что каждое обновление — потенциальный риск.
3️⃣ Компания тратит миллионы на избыточную инфраструктуру, которая будет простаивать 99.99% времени.
Вот почему в реальном мире компании закладывают допустимые сбои. И тут на сцену выходят SLA, SLO и SLI:
- SLI (Service Level Indicator) — метрика, которая показывает, насколько хорошо работает сервис.
Пример: время отклика API, процент успешных запросов, аптайм сервера.
- SLO (Service Level Objective) — цель, которую сервис должен соблюдать.
Пример: API должен быть доступен 99.9% времени.
- SLA (Service Level Agreement) — договор между бизнесом и клиентами о минимально допустимой надёжности.
Пример: если сервис работает хуже 99.9%, компания возвращает деньги клиентам.
Насколько реально поддерживать высокий аптайм?
Вот как выглядят реальные цифры допустимого простоя:
99.9% ➡️ 43 минуты 50 секунд простоя в месяц
99.99% ➡️ 4 минуты 23 секунды простоя в месяц
99.999% ➡️ 26 секунд простоя в месяц
Каждая дополнительная «девятка» увеличивает стоимость инфраструктуры в разы. Поэтому бизнес выбирает баланс между надёжностью и затратами.