Для SRE-инженеров, которые хотят взять под контроль состояние системы. Научитесь агрегировать SLO/SLI в одну или несколько высокоуровневых метрик.

Observability

идет набор группы
20 февраля
На какие вопросы поможет ответить курс


Достало, что про сбои в работе вы узнаете от пользователей и саппорта, но не знаете, как это изменить?


Как договориться с бизнесом, что делать: выкатывать фичи или работать над надежностью?


Как увидеть инцидент в зачатке на графике и по алерту, и предотвратить панику и стресс в моменте?


Представим, у тебя есть 100 микросервисов, ты умеешь мерить надежность каждого, но что говорить бизнесу? Бизнес хочет что-то простое и понятное, а не 100 независимых метрик.

Как увидеть и оценить результаты работы над надежностью?

Как объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в момент инцидента?
Чему вы научитесь на курсе
Non Functional Requirements: требования для оценки качества технической работы системы
Выбирать метрики, чтобы с их помощью успешно определять надежность системы
«Читать» по метрикам, что с системой что-то не так

Что такое error budget и как его рассчитывать
Применять классические воронки
Как измерять надежность точек входа
Вебинар «Внешнее observability а-ля black-box»
На вебинаре обсуждали главные вопросы, связанные с observability:

  • Какие подходы используют в мониторинге?
  • Зачем и как мониторить самого себя?
  • Какие подходы есть у геораспределённых систем?
  • Как большие компании типа Google работают с мониторингом?

После вебинара у вас будет представление о трендах в Observability, о подходах в мониторинге и о метриках. Наслаждайтесь просмотром!
Внешнее observability а-ля black-box
Поговорим о подходах в мониторинге и observability
Спикер
Павел Лакосников
Team Lead команды SLA в Авито
Более 10 лет в разработке
Фанат метрик
Регулярный докладчик на конференциях и митапах
Как проходит обучение:
На серии мастер-классов вы построите систему мониторинга приложений, состоящих из множества микросервисов. На практике научитесь работать с метриками, которые отражают требования бизнеса и стабильность системы одновременно
Общие подходы к формированию мониторинга
Зачем:
чтобы научиться работать с основными Golden Signals SRE и в будущем знать, как ими обвесить любой переданный вам на поддержку сервис для эффективного мониторинга и оповещения.
Что делаем:
настраиваем Golden Signals для приложения

обзор метрик Golden Signals в разрезе реальных приложений

работа с разными инфраструктурными паттернами. Как лучше покрывать их метриками
Неделя 1
Алертинг
Зачем:
чтобы вы могли настроить систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений. Учимся настраивать алерты учитывая anomaly detection: сезонность, тенденции рынка и другие внешние условия. Мастер-класс поможет понять и научиться использовать методы математической статистики при работе с метриками.
Что делаем:
строим систему алертов

разбор сложных сценариев при построении системы алертов, построение бейзлайна

учимся выбирать и настраивать Silence periods для алертов так, чтобы они не спамили в момент работы на инциденте

опираясь на методы мат статистики определяем, что отклонение метрики значимо и действительноявляется аварией

разбор примеров и практик того, как применять методы мат статистики на реальных проектах
Неделя 2
Мониторинг множества сервисов
Зачем:
чтобы научиться приоритизировать таски даже в ситуациях, когда продакт каждого из 100 сервисов говорит, что их задача самая критичная

Что делаем:

работа с прозрачными бизнес-метриками надежности приложения

разбор аспектов использования приложения пользователями для того, чтобы иметь легко измеряемую надежность через стартовые точки

узнаем, как построить систему метрик для множества сервисов и понимать, что каждый сервис надежен по отдельности
Неделя 3
Для кого этот курс
01
Для тех, у кого есть базовые знания о  SRE-практиках
03
Командам, которым нужно наладить внутренние процессы и научиться настраивать мониторинг
04
Компаний, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца
02
Для SRE-инженеров, которые хотят повысить отказоустойчивость системы
Учиться будет проще, если у вас есть:
навыки программирования: вам предстоит писать код на Python
опыт настройки мониторинга: Prometheus, Grafana и др.
навыки работы с Linuх
Стек, с которым будете работать:
Приложение на Python
Kubernetes
Graphite
Grafana
Рассрочка
только для физических лиц
Условия рассрочки:
Процесс оформления:
Видеокурс
Доступ к лекциям на 2 года
Записи лекций и практических занятий
6 250 ₽/мес
Купить курс
Бонусная QA-сессия с Павлом Лакосниковым
при рассрочке от 4 месяцев
или 25 000 ₽ единовременно
это может быть интересно
В результате обучения на курсе вы сможете составить план действий по внедрению SRE в своей компании, поймёте, как коммуницировать с бизнесом и коллегами в случае аварии, как принимать сервисы на поддержку.
SRE База
Cтарт: 3 октября
Как проходит обучение:
Менеджер по продажам
Альберт Матюхин
Нужна консультация?
Обсудим ваши цели и ответим на вопросы
Отправляя форму, я соглашаюсь с Политикой Конфиденциальности Слёрм и предоставляю Согласие на обработку персональных данных и аудио- и видеорелиз