Observability

Для SRE-инженеров, которые хотят взять под контроль состояние системы. Научитесь агрегировать SLO/SLI в одну или несколько высокоуровневых метрик.
Дата уточняется
Поток
На какие вопросы поможет ответить курс


Достало, что про сбои в работе вы узнаете от пользователей и саппорта, но не знаете, как это изменить?



Как увидеть инцидент в зачатке на графике и по алерту, и предотвратить панику и стресс в моменте?


Представим, у тебя есть 100 микросервисов, ты умеешь мерить надежность каждого, но что говорить бизнесу? Бизнес хочет что-то простое и понятное, а не 100 независимых метрик.

Как увидеть и оценить результаты работы над надежностью?

Как объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в момент инцидента?

Как договориться с бизнесом, что делать: выкатывать фичи или работать над надежностью?
Чему вы научитесь на курсе
Non Functional Requirements: требования для оценки качества технической работы системы
Выбирать метрики, чтобы с их помощью успешно определять надежность системы
«Читать» по метрикам, что с системой что-то не так

Что такое error budget и как его рассчитывать
Применять классические воронки
Как измерять надежность точек входа
Спикер
Павел Лакосников
Team Lead команды SLA в Авито
Более 10 лет в разработке
Фанат метрик
Регулярный докладчик на конференциях и митапах
Как проходит обучение:
На серии мастер-классов вы построите систему мониторинга приложений, состоящих из множества микросервисов. На практике научитесь работать с метриками, которые отражают требования бизнеса и стабильность системы одновременно
Общие подходы к формированию мониторинга
Зачем:
чтобы научиться работать с основными Golden Signals SRE и в будущем знать, как ими обвесить любой переданный вам на поддержку сервис для эффективного мониторинга и оповещения.
Что делаем:
настраиваем Golden Signals для приложения

обзор метрик Golden Signals в разрезе реальных приложений

работа с разными инфраструктурными паттернами. Как лучше покрывать их метриками
Дата уточняется
Алертинг
Зачем:
чтобы вы могли настроить систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений. Учимся настраивать алерты учитывая anomaly detection: сезонность, тенденции рынка и другие внешние условия. Мастер-класс поможет понять и научиться использовать методы математической статистики при работе с метриками.
Что делаем:
строим систему алертов

разбор сложных сценариев при построении системы алертов, построение бейзлайна

учимся выбирать и настраивать Silence periods для алертов так, чтобы они не спамили в момент работы на инциденте

опираясь на методы мат статистики определяем, что отклонение метрики значимо и действительноявляется аварией

разбор примеров и практик того, как применять методы мат статистики на реальных проектах
Дата уточняется
Мониторинг множества сервисов
Зачем:
чтобы научиться приоритизировать таски даже в ситуациях, когда продакт каждого из 100 сервисов говорит, что их задача самая критичная

Что делаем:

работа с прозрачными бизнес-метриками надежности приложения

разбор аспектов использования приложения пользователями для того, чтобы иметь легко измеряемую надежность через стартовые точки

узнаем, как построить систему метрик для множества сервисов и понимать, что каждый сервис надежен по отдельности
Дата уточняется
Для кого этот курс
01
Для тех, у кого есть базовые знания о  SRE-практиках
03
Командам, которым нужно наладить внутренние процессы и научиться настраивать мониторинг
04
Компаний, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца
02
Для SRE-инженеров, которые хотят повысить отказоустойчивость системы
Учиться будет проще, если у вас есть:
навыки программирования: вам предстоит писать код на Python
опыт настройки мониторинга: Prometheus, Grafana и др.
навыки работы с Linuх
Стек, с которым будете работать:
Приложение на Python
Kubernetes
Graphite
Grafana
Этот курс входит
в подписку
Оформи подписку и получи на три месяца доступ к 20 видеокурсам и потокам.
Дата уточняется
Живые встречи со спикером, запись на 2 года

Практика на стендах

Общение со спикером в чате
Обучение в потоке
45 000
Цена без подписки
это может быть интересно
В результате обучения на курсе вы сможете составить план действий по внедрению SRE в своей компании, поймёте, как коммуницировать с бизнесом и коллегами в случае аварии, как принимать сервисы на поддержку.
SRE База
Cтарт: 25 апреля
это может быть интересно
Курс для тех, кто хочет проводить контролируемые испытания с помощью хаоса, улучшить надёжность и избежать катастрофических сбоев в работе системы
Chaos Engineering
Ведётся набор