Учебное приложение состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.
Мы сформулируем показатели SLO, SLI, SLA для сервиса, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.
Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.
Мы разберем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.
Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?
Мы организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Будем тренироваться под давлением в условиях предельно ограниченного времени.
Разберем подход к сайту с точки зрения SRE. Проанализируем инциденты (причины возникновения, ход устранения).
Примем решение по их дальнейшему предотвращению: улучшим мониторинг, изменим архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.
Внутренние и внешние факторы начинают «портить» SLO
Cмотрим на сайт и инциденты с точки зрения SRE