SRE (Site Reliability Engineering): обучающий онлайн-курс для специалистов и бизнеса, курс по SRE на платформе Слёрм

Занять место

Решайте кейсы и погружайтесь в реальную работу

Научитесь практическим навыкам мониторинга, предотвращения инцидентов и построения надежных систем

На курсе осталось 99 мест

длительность 3 недели

поток: старт 17 марта

Станьте SRE для сервиса покупки билетов

SRE: data-driven подход к управлению надежностью систем

Купить

Программа

Видеокурс «Мониторинг в Grafanа» в подарок!

Упор на практику

20 часа практики

Работа в команде

поделим на группы, распределим роли и научим работать в коллективе

Имитация реальной работы

решайте задачи и кейсы, которые возникают на вашем сервисе

Прямое общение со спикерами

разборы кейсов, Q&A и отдельный чат

15 часов теории

DevOps инженеры

Для кого курс

Разработчики

Системные администраторы

Сотрудники технической поддержки

Повысьте надежность приложений, освойте и примените лучшие практики SRE для систематизации знаний, улучшения мониторинга и более эффективного решения инцидентов

Углубите знания в области SRE, практически примените эти знания для повышения надежности и стабильности систем, а также научитесь быстро реагировать на инциденты

Получите глубокие практические знаний в области SRE, улучшите мониторинг и надежность системы, а также внедрите эти знания в команду и организацию

Научитесь оценивать стабильность и нагрузку сервисов, улучшать отказоустойчивость, строить метрики и применять лучшие практики для эффективного выпуска сервисов в продакшн

Зачем компании внедрять SRE-подход?

Повышение надежности сервисов

Улучшение производительности

Снижение количества инцидентов

Эффективное управление нагрузкой

Автоматизация и стандартизация

Кросс-функциональное взаимодействие команд

Обратная связь и улучшения

Снижение затрат

SRE помогает обеспечивать высокую доступность и стабильность сервисов, что критически важно для удовлетворенности пользователей

Использование SRE практик позволяет оптимизировать производительность систем, что может привести к снижению задержек и повышению скорости отклика

Внедрение превентивного мониторинга и автоматизации процессов помогает минимизировать количество инцидентов и время их решения

SRE позволяет анализировать и прогнозировать нагрузку на системы, что помогает лучше справляться с пиковыми периодами

SRE внедряет автоматизированные процессы, что снижает количество рутинных задач и повышает эффективность работы команд

SRE способствует более тесному сотрудничеству между разработчиками и операционными командами, что улучшает коммуникацию и общий процесс разработки

SRE практики включают анализ инцидентов и создание постмортемов, что помогает выявлять слабые места и улучшать процессы

Оптимизация процессов и автоматизация помогают сократить операционные расходы

Курс поможет разобраться

Как снизить ущерб от отказов в будущем?

Как решать конкретные проблемы, связанные с надежностью сервиса?

Как внедрить правки сразу в прод?

Какие метрики собирать и как это делать правильно?

Как быстро поднимать продакшн силами команды?

После курса вы сможете

мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса

Настроить:

пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаете, какие инцидент сервисы существуют

Организовать:

мониторинг SRE-инфраструктурных сервисов. Умеете опознавать и решать проблемы с инфраструктурой

alerting и healthcheck

разные методы деплоймента, знаете какие инструменты для этого существуют

надежные коммуникации между сервисами retry, timeout, circuit breaker

Составите план действий по внедрению SRE подхода в своей компании. Поймете, как коммуницировать с бизнесом, с коллегами в случае аварии, как принимать сервисы на поддержку

Минимальные требования:

Будет большим плюсом:

Знание Grafana и Prometheus

Умение писать код на Python

Знание Linux на уровне администратора

Умение читать код на Python

Опыт работы в кластере Kubernetes, либо знания принципов работы

Знание принципов работы Баз данных (любые: SQL, NoSQL, KeyVal)

Комьюнити SRE со Слёрмом

Вступить

Работа в команде

Вы объединитесь в команды, чтобы познакомиться, распределить роли и научиться работать в коллективе. Этот принцип важен, потому что вам необходимо научиться выстраивать командное взаимодействие в соответствии с принципами SRE.

Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.

Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.

Ломаем

Чиним

Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.

Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.

Изучаем

Строим

Внутренние и внешние факторы начинают «портить» SLO

incident response

Cмотрим на сайт и инциденты с точки зрения SRE

Павел Селиванов

Архитектор Yandex Cloud

Автор нескольких курсов по Kubernetes и DevOps. Регулярный докладчик на Российских и международных IT-конференциях

Владимир Федорков

Эксперт в области высоких нагрузок

Регулярный докладчик на конференциях и митах. Десятки успешных проектов по подъему нагрузки в США, Европе и России

Павел Лакосников

Team Lead команды SLA в Авито

Регулярный докладчик на конференциях и митапах. Фанат метрик

Максим Гусев

SRE Dodo Engineering

Автор нескольких курсов по DevOps и его внедрению. 100+ инсталляций Kubernetes в продакшен. 1000+ выстроенных пайплайнов CI/CD

Сергей Бухаров

Head of SRE Process в Dodo Engineering

Спикер конференций HighLoad, DevOps Live, DevOops и Podlodka Crew. Технический лидер Dodo Engineering, внедрение культуры SRE

Спикеры курса

Как проходит обучение

7 видеоуроков

4 командных кейса

26

6

часов практики

встреч со спикерами

3 Q&A-сессии

41

час всего

На изучение теории, работу в командах и общение со спикерами

15

часов теории

Видеокурс «Мониторинг в Grafana»

4 задания

3 практикума с кейсами

Шаг 1

Встречаемся со спикерами и делимся на команды

Шаг 2

Шаг 3

Шаг 4

Шаг 5

Изучаем видеоуроки и читаем теорию

Выполняем практические задания и решаем кейсы в командах, имитируем работу SRE

Разбираем практические задания и кейсы со спикерами +задаем вопросы

Сдаем все практические задания и получаем сертификат

Программа

Скачать презентацию курса

Мониторинг в Grafana

бонус

Подходы к мониторингу. Blackbox & Whitebox, 4 golden signals, RED, USE

Grafana, Prometheus & Alertmanager. Установка и настройка

Prometheus. Модель данных и типы метрик. Особенности мониторинга latency

Prometheus. PromQL

Grafana. Первый dashboard

Grafana. Tips & tricks

Alerting. Grafana vs Prometheus

Alerting. Тестирование

Установочная встреча

18 марта (вт) в 19:00

встреча

Обсудим цели и задачи курса

Расскажем что такое SRE

Распределим студентов на команды

Введение в SRE и метрики

тема 1

SLO, SLI, SLA

Durability

Error budget

Мониторинг

тема 2

Зачем нужен мониторинг?

Перцентили

Alerting

Observability

Практикум № 1 и командные кейсы

22 марта (сб) в 10:00

встреча

Делаем базовый дашборд и настраиваем необходимые алерты

Добавляем на дашборд SLO/SLI + алерты

Первая нагрузка системы

Командное решение кейса: зависимость downstream

Q&A-сессия со спикерами

25 марта (вт) в 19:00

встреча

Ответы на вопросы

Основные проблемы с окружением и архитектурой

Управление инцидентами

Правила для пожарной команды

Работа с постмортерами (post mortem)

Основные шаблоны работы

Спикеры ответят на вопросы и расскажут про управление инцидентами, правила для пожарной команды и работу с постмортемами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.

Управление инцидентами

тема 3

Resiliencе Engineering

Как выстраивается пожарная бригада?

Насколько ваша команда эффективна в инциденте?

7 правил для лидера инцидента

5 правил для пожарного

HiPPO — highest paid person's opinion. Communications Leader

Инструменты варрума и алерт менеджмента

тема 4

Вest practiсe из разных компаний по организации инцидент-менеджмента

Практикум № 2 и командные кейсы

29 марта (сб) в 10:00

встреча

Командное решение кейса: зависимость upstream

Командное решение кейса: проблемы с базой данных

Практика работы с постмортемами

Q&A-сессия со спикерами

1 апреля (вт) в 19:00

встреча

Ответы на вопросы по предыдущим темам

Разбор основных проблем с окружением

Разбор внедрения SRE в компании

Опыт компаний, в которых работают спикеры курса

Health Checking и способы деплоймента

тема 5

Health Check в Kubernetes

Жив ли наш сервис?

Exec probes

InitialDelaySeconds

Secondary Health Port

Sidecar Health Server

Headless Probe

Hardware Probe

SRE онбординг проекта

тема 6

В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать. А также спикеры поделяться опытом, как у них проходило внедрение SRE и на какие грабли они наступали.

Практикум № 3 и командные кейсы

5 апреля (сб) в 10:00

встреча

Командное решение кейса: Health Check

Подведение итогов курса

Командное решение кейса: канареечные релизы при помощи инструмента Argo Rolluots

Сертификат

Именной сертификат с индивидуальным номером получает студент, если:

прошёл 80% курса

принимал участие в решении практик, которые входят в курс

успешно сдал итоговое задание/проект/сертификацию.

В случае, если студент изучил 80% курса, но не выполнил или не сдал финальное задание, вместо сертификата выдаётся свидетельство.

4.7

Студенты оценивают этот курс

Отзывы о курсе

Я пришла на курс по SRE, чтобы посмотреть свежим взглядом на процессы в своей команде, задать вопросы про формирование требований SLO, мониторинг и алертинг по ним.

Валентина

Читать весь отзыв

Организаторам отдельное спасибо! Я не первый раз уже восхищаюсь организацией в «Слёрме».

Юлия

Читать весь отзыв

Сам курс организован профессионально, все по делу и интенсивно.

Юрий

Читать весь отзыв

Интересные докладчики с большим опытом, которые старались отвечать на все вопросы участников. Много практики по разбору инцидентов. Получили много полезной информации и еще раз напомнили себе, что к инцидентам нужно готовиться и регулярно тренироваться

Команда ДоДо

Читать весь отзыв

Метрики были рассказаны интересно, я их уже начал использовать.

SRE

Было интересно. Получил кучу инсайтов от коллег. Теперь знаю, как определить SLO и error budget. Хочется больше текстовой информации, потому что самому писать шпаргалки лениво

Никита

Читать весь отзыв

Сборка контейнеров

Получила багаж знаний в живой форме и с практикой.

Яна

Читать весь отзыв

Понравились спикеры и то, что мы решали проблемы командой.

Артём

Читать весь отзыв

Сборка контейнеров

Этот курс может оплатить ваша компания

Если вы считаете, что знания, полученные на курсе, могут быть полезными на вашем текущем месте работы, оставляйте заявку с контактами компании в форме ниже или обсудите покупку курса с вашим руководителем. Как это организовать, что говорить и куда идти — написали здесь.