Чтобы говорить о надёжности, сначала стоит расставить акценты в терминологии.
SLI (Service Level Indicator) — это числовой показатель, который отражает, насколько хорошо система работает с точки зрения пользователя. Примеры: доля успешных запросов, среднее время ответа API, процент времени доступности сервиса. Это метрика факта.
SLO (Service Level Objective) — это целевое значение для SLI, которого команда стремится достичь. Например: «99.9% успешных запросов за последние 30 дней». Это внутренняя договорённость, ориентир, задающий порог допустимого. Это и есть SLO — основа для оценки стабильности.
SLA (Service Level Agreement) — это юридическое или формализованное соглашение между заказчиком и поставщиком услуги. Оно включает SLO, но добавляет ответственность: штрафы, компенсации, обязательства. Например: «Если аптайм будет ниже 99.5% — клиент получает скидку». SLA — это внешняя рамка, SLO— внутренняя цель, SLI — измерение реальности.
Три понятия образуют иерархию:- SLI — «мы измеряем»;
- SLO — «мы обещаем»;
- SLA — «мы гарантируем (и отвечаем)».