Для SRE-инженеров, которые хотят взять под контроль состояние системы. Научитесь агрегировать SLO/SLI в одну или несколько высокоуровневых метрик.
старт в любой момент
SRE: Observability
3 недели обучения
8 часов теории
Практика на стендах
для выполнения практических заданий выделяем стенды
Онлайн встречи со спикером
Онлайн-встречи в формате «вопрос – ответ»
Сертификация по итогу обучения
Закрепление практической и теоретической части
4 часа практики
Для тех, у кого есть базовые знания о  SRE-практиках
Для SRE-инженеров, которые хотят повысить отказоустойчивость системы
Кому подойдёт курс?
для компаний, где уже внедрены erroe budget и SLO, но эти процессы не отработаны до конца
для команд, которые хотят наладить внутренние процессы и научиться настраивать мониторинг
Учиться будет проще, если у вас уже есть:
навыки программирования: вам предстоит писать код на Python
навыки работы с Linuх
опыт работы с Kubernetes
опыт настройки мониторинга: Prometheus, Grafana и др.
Стек, с которым будете работать:
Приложение на Python
Kubernetes
Graphite
Grafana
Чему вы научитесь на курсе
Non Functional Requirements: требования для оценки качества технической работы системы
Выбирать метрики, чтобы с их помощью успешно определять надежность системы
«Читать» по метрикам, что с системой что-то не так
Что такое error budget и как его рассчитывать
Применять классические воронки
Как измерять надежность точек входа
В каких ситуациях курс будет полезен
У меня есть 100 микросервисов, я умею мерить надежность каждого, но что говорить бизнес?
Бизнес хочет что-то простое и понятное, а не 100 независимых метрик
Хочу научиться замечать инцидент в зачатке на графике и по алерту, чтобы предотвратить панику и стресс в моменте
Достало, что про сбои в работе я узнаю от пользователей и саппорта, но не знаю, как это изменить
Хочу донести до руководителя, зачем собирать бизнес-метрики приложения, и сколько он он теряет в моменте инцидента
Хочу договориться с бизнесом приоритеты: выкатывать фичи или работать над надежностью
Как проходит обучение:
На серии мастер-классов вы построите систему мониторинга приложений, состоящих из множества микросервисов. На практике научитесь работать с метриками, которые отражают требования бизнеса и стабильность системы одновременно
Зачем:
чтобы научиться работать с основными Golden Signals SRE и в будущем знать, как ими обвесить любой переданный вам на поддержку сервис для эффективного мониторинга и оповещения.
Что делаем:
  • настраиваем Golden Signals для приложения
  • обзор метрик Golden Signals в разрезе реальных приложений
  • работа с разными инфраструктурными паттернами. Как лучше покрывать их метриками
Общие подходы к формированию мониторинга
Неделя 1
Зачем:
чтобы вы могли настроить систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений. Учимся настраивать алерты учитывая anomaly detection: сезонность, тенденции рынка и другие внешние условия. Мастер-класс поможет понять и научиться использовать методы математической статистики при работе с метриками.
Что делаем:
  • строим систему алертов
  • разбор сложных сценариев при построении системы алертов, построение бейзлайна
  • учимся выбирать и настраивать Silence periods для алертов так, чтобы они не спамили в момент работы на инциденте
  • опираясь на методы мат статистики определяем, что отклонение метрики значимо и действительноявляется аварией
  • разбор примеров и практик того, как применять методы мат статистики на реальных проектах
Алертинг
Неделя 2
Зачем:
чтобы научиться приоритизировать таски даже в ситуациях, когда продакт каждого из 100 сервисов говорит, что их задача самая критичная
Что делаем:
  • работа с прозрачными бизнес-метриками надежности приложения
  • разбор аспектов использования приложения пользователями для того, чтобы иметь легко измеряемую надежность через стартовые точки
  • узнаем, как построить систему метрик для множества сервисов и понимать, что каждый сервис надежен по отдельности
Мониторинг множества сервисов
Неделя 3
Cпикер курса
Team Lead команды SLA в Авито
Более 10 лет в разработке. Фанат метрик. Регулярный докладчик на конференциях и митапах.
Павел Лакосников
Вебинар «Внешнее observability а-ля black-box»
На вебинаре обсуждали главные вопросы, связанные с observability:

  • Какие подходы используют в мониторинге?
  • Зачем и как мониторить самого себя?
  • Какие подходы есть у геораспределённых систем?
  • Как большие компании типа Google работают с мониторингом?

После вебинара у вас будет представление о трендах в Observability, о подходах в мониторинге и о метриках. Наслаждайтесь просмотром!
Cвидетельство
Именное свидетельство о прохождении курса получает студент, если:
  • изучил 80% курса
  • принимал участие в решении практик, которые входят в курс.
Как купить курс
Запись интенсива
Видеоуроки, доступ 2 года
Практические задания
Старт когда удобно
в рассрочку на 4 месяца или 25 000 ₽ единовременно
6 250 ₽/мес
Написать нам
Написать нам
В 75% случаев обучение готова оплатить компания. Напишите нам, и мы поможем.
Курс за счёт работодателя
Узнать про вычет
Узнать про вычет
Предоставим все необходимые документы для получения вычета.
Налоговый вычет 13%
Командное предложение
от 10-ти человек
специальные условия
от 5-ти человек
-10%
от 3-х человек
-7%
Перейти
Перейти
Подарите своему сотруднику скидку или курс целиком. А мы упакуем ;)
Подарочный сертификат
Перейти
Выгодно и быстро обучим целые команды. Единоразовое оформление и быстрый доступ к курсам.
Универсальные доступы
Перейти
Запись интенсива
Видеоуроки, доступ 2 года
Практические задания
Старт когда удобно
25 000 ₽
Рассрочка
только для физических лиц
Условия рассрочки:
Процесс оформления:
SRE: data-driven подход к управлению надежностью систем
В результате обучения на курсе вы сможете составить план действий по внедрению SRE в своей компании, поймёте, как коммуницировать с бизнесом и коллегами в случае аварии, как принимать сервисы на поддержку.
Это может быть интересно
Нужна консультация?
задайте нам свой вопрос