Подписка на курсы Слёрма: 24 курса в полном доступе
Для SRE-инженеров, которые хотят взять под контроль состояние системы. Научитесь агрегировать SLO/SLI в одну или несколько высокоуровневых метрик.
старт: 15 сентября
SRE: Observability
Практика на стендах
Для выполнения практических заданий выделяем стенды
Онлайн-встречи со спикером
Онлайн-встречи в формате «вопрос-ответ»
Сертификат об окончании обучения
Именной сертификат с индивидуальным номером
3 недели обучения
8 часов теории
4 часа практики
Для тех, у кого есть базовые знания об SRE-практиках
Для SRE-инженеров, которые хотят повысить отказоустойчивость системы
Для кого этот курс?
Для компаний, где уже внедрены error budget и SLO, но эти процессы не отработаны до конца
Для команд, которые хотят наладить внутренние процессы и научиться настраивать мониторинг
Учиться будет проще, если у вас уже есть:
Навыки программирования: вам предстоит писать код на Python
Навыки работы с Linuх
Опыт работы с Kubernetes
Опыт настройки мониторинга: Prometheus, Grafana и др.
Стек, с которым будете работать:
Приложение на Python
Kubernetes
Graphite
Grafana
Чему вы научитесь на курсе
Реализовывать Non Functional Requirements — требования для оценки качества технической работы
Выбирать метрики, чтобы с их помощью успешно определять надёжность системы
«Читать» по метрикам, что с системой что-то не так
Рассчитывать error budget
Применять классические воронки
Измерять надежность точек входа
Знакомо?
У меня есть 100 микросервисов, я умею мерить надёжность каждого, но бизнес хочет что-то простое и понятное, а не 100 независимых метрик
Хочу научиться замечать инцидент в зачатке на графике и по алерту, чтобы предотвратить панику и стресс в моменте
Достало, что про сбои в работе я узнаю от пользователей и саппорта, но я не знаю, как это изменить
Хочу объяснить руководителю, зачем собирать бизнес-метрики приложения, и сколько он теряет в моменте инцидента
Хочу договориться с бизнесом о расстановке приоритетов: выкатывать фичи или работать над надёжностью
Как проходит обучение:
На серии мастер-классов вы построите систему мониторинга приложений, состоящих из множества микросервисов. На практике научитесь работать с метриками, которые отражают требования бизнеса и стабильность системы одновременно.
Чтобы научиться работать с основными Golden Signals SRE на любом сервисе для эффективности мониторинга и оповещения
Зачем:
Что делаем:
  • Настраиваем Golden Signals для приложения
  • Изучаем метрики Golden Signals в разрезе реальных приложений
  • Работаем с разными инфраструктурными паттернами
Чтобы вы могли настроить систему алертов, которая обеспечит быстрое реагирование на аварии без отвлекающих уведомлений
Зачем:
  • Применяем методы математической статистики в работе с метриками и определяем, какие отклонения значимы и действительно являются аварией
Что делаем:
  • Строим систему алертов, учитывая anomaly detection: сезонность, тенденции рынка и другие внешние условия
  • Разбираем сложные сценарии при построении системы алертов, строим бейзлайн
  • Учимся выбирать и настраивать silence periods для алертов так, чтобы они не спамили во время работы с инцидентом
Чтобы научиться приоритизировать таски, даже если продакт каждого из 100 сервисов говорит, что его задача самая критичная
Зачем:
Что делаем:
  • Работаем с прозрачными бизнес-метриками надёжности приложения
  • Разбираем аспекты использования приложений пользователями, чтобы иметь легко измеряемую надёжность через стартовые точки
  • Учимся строить систему метрик для множества сервисов и понимать, что каждый сервис надёжен по отдельности
Cпикер курса
Team Lead команды SLA в Авито
Более 10 лет в разработке. Фанат метрик. Регулярный докладчик на конференциях и митапах.
Павел Лакосников
На вебинаре обсуждали главные вопросы, связанные с observability:

  • Какие подходы используют в мониторинге?
  • Зачем и как мониторить самого себя?
  • Какие подходы есть у геораспределённых систем?
  • Как большие компании типа Google работают с мониторингом?

После вебинара у вас будет представление о трендах в Observability, о подходах в мониторинге и о метриках. Наслаждайтесь просмотром!
Внешнее observability а-ля black-box
Примеры лекций
Cвидетельство
Именное свидетельство о прохождении курса получает студент, который:
  • прошёл 80% курса
  • принимал участие в мастер-классах, которые входят в курс
Как купить курс
Интенсив
Видеоуроки
Практические задания
Работа в группах с куратором
Онлайн-встречи со спикерами
в рассрочку на 4 месяца или 55 000 ₽ единовременно
13 750 ₽/мес
старт 15 сентября
Написать нам
В 75% случаев обучение готова оплатить компания. Напишите нам, и мы поможем.
Курс за счёт работодателя
Написать нам
Узнать про вычет
Узнать про вычет
Предоставим все необходимые документы для получения вычета.
Налоговый вычет 13%
Запись интенсива
Видеоуроки
Практические задания
Старт когда удобно
в рассрочку на 4 месяца или 25 000 ₽ единовременно
6 250 ₽/мес
Командное предложение
от 10-ти человек
специальные условия
от 5-ти человек
-10%
от 3-х человек
-7%
Интенсив
Видеоуроки
Практические задания
Работа в группах с куратором
Онлайн-встречи со спикерами
60 000 ₽
старт 15 сентября
Перейти
Выгодно и быстро обучим целые команды. Единоразовое оформление и быстрый доступ к курсам.
Универсальные доступы
Перейти
Перейти
Перейти
Подарите своему сотруднику скидку или курс целиком. А мы упакуем ;)
Подарочный сертификат
Запись интенсива
Видеоуроки
Практические задания
Старт когда удобно
25 000 ₽
Подарочный сертификат
Подарите своему сотруднику скидку или курс целиком. А мы упакуем ;)
Перейти
Перейти
Универсальные доступы
Выгодно и быстро обучим целые команды. Единоразовое оформление и быстрый доступ к курсам.
Перейти
Перейти
Рассрочка
только для физических лиц
Условия рассрочки:
Процесс оформления:
SRE: data-driven подход к управлению надежностью систем
В результате обучения на курсе вы сможете составить план действий по внедрению SRE в своей компании, поймёте, как коммуницировать с бизнесом и коллегами в случае аварии, как принимать сервисы на поддержку.
Это может быть интересно
Нужна консультация?
задайте нам свой вопрос