Достало, что про сбои в работе вы узнаете от пользователей и саппорта, но не знаете, как это изменить?
Как увидеть инцидент в зачатке на графике и по алерту, и предотвратить панику и стресс в моменте?
Представим, у тебя есть 100 микросервисов, ты умеешь мерить надежность каждого, но что говорить бизнесу? Бизнес хочет что-то простое и понятное, а не 100 независимых метрик.
Как увидеть и оценить результаты работы над надежностью?
Как объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в момент инцидента?
Как договориться с бизнесом, что делать: выкатывать фичи или работать над надежностью?
Non Functional Requirements: требования для оценки качества технической работы системы
Выбирать метрики, чтобы с их помощью успешно определять надежность системы
«Читать» по метрикам, что с системой что-то не так
Что такое error budget и как его рассчитывать
Применять классические воронки
Как измерять надежность точек входа
Спикер
Павел Лакосников
Team Lead команды SLA в Авито
Более 10 лет в разработке
Фанат метрик
Регулярный докладчик на конференциях и митапах
Как проходит обучение:
На серии мастер-классов вы построите систему мониторинга приложений, состоящих из множества микросервисов. На практике научитесь работать с метриками, которые отражают требования бизнеса и стабильность системы одновременно
Общие подходы к формированию мониторинга
Зачем: чтобы научиться работать сосновными Golden Signals SRE и вбудущем знать, как ими обвесить любой переданный вам наподдержку сервис для эффективного мониторинга и оповещения.
Что делаем: настраиваем Golden Signals для приложения
обзор метрик Golden Signals вразрезе реальных приложений работа с разными инфраструктурными паттернами. Как лучше покрывать ихметриками
Дата уточняется
•
•
•
Алертинг
Зачем: чтобы вы могли настроить систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений. Учимся настраивать алерты учитывая anomaly detection: сезонность, тенденции рынка идругие внешние условия. Мастер-класс поможет понять инаучиться использовать методы математической статистики при работе сметриками.
Что делаем: строим систему алертов
разбор сложных сценариев при построении системы алертов, построение бейзлайна
учимся выбирать и настраивать Silence periods для алертов так, чтобы они неспамили в момент работы наинциденте
опираясь на методы мат статистики определяем, что отклонение метрики значимо идействительноявляется аварией
разбор примеров ипрактик того, как применять методы мат статистики нареальных проектах
Дата уточняется
•
•
•
•
•
Мониторинг множества сервисов
Зачем: чтобы научиться приоритизировать таски даже в ситуациях, когда продакт каждого из 100 сервисов говорит, что их задача самая критичная
Что делаем:
работа с прозрачными бизнес-метриками надежности приложения
разбор аспектов использования приложения пользователями для того, чтобы иметь легко измеряемую надежность через стартовые точки
узнаем, как построить систему метрик для множества сервисов и понимать, что каждый сервис надежен по отдельности
Дата уточняется
•
•
•
Для кого этот курс
01
Для тех, у кого есть базовые знания о SRE-практиках
03
Командам, которым нужно наладить внутренние процессы и научиться настраивать мониторинг
04
Компаний, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца
02
Для SRE-инженеров, которые хотят повысить отказоустойчивость системы
Учиться будет проще, если у вас есть:
навыки программирования: вам предстоит писать код на Python
опыт настройки мониторинга: Prometheus, Grafana и др.
В результате обучения на курсе вы сможете составить план действий по внедрению SRE в своей компании, поймёте, как коммуницировать с бизнесом и коллегами в случае аварии, как принимать сервисы на поддержку.