Управление надёжностью систем на основе данных (SRE). Онлайн-курс по SRE в учебном центре Слёрм.

Занять место

БЕСПЛАТНАЯ Вечерняя школа ИИ для инженеров: польза и риски

Подробнее

Закройте пробелы в SRE и почувствуйте уверенность в своих скиллах

дата старта уточняется

Внедрите SRE-практики в команду и избавьтесь от хаоса с инцидентами

Управление надёжностью систем на основе данных (SRE)

Записаться на курс

Программа

Видеокурс «Мониторинг в Grafanа» в подарок!

Упор на практику

20 часов практики

Работа в команде

поделим на группы, распределим роли и научим работать в коллективе

Имитация реальной работы

решайте задачи и кейсы, которые возникают на вашем сервисе

Прямое общение со спикерами

разборы кейсов, Q&A и отдельный чат

15 часов теории

Курс для вас, если

Начинающие DevOps, младшие сисадмины, разработчики, которые присматриваются к SRE

DevOps, SRE, тимлиды инфраструктурных команд, архитекторы, сисадмины, разработчики с «инфра-ответственностью»

Вы хотите познакомиться с SRE, понять, что это такое и зачем оно вам нужно, а также получить фреймворки для старта в новой сфере

Вы устали «тушить пожары» и хотите внедрить метрики, алерты и постмортемы в команду, а также систематизировать свои знания по SRE

Получите готовый план внедрения SRE, сможете рассчитать ROI и обосновать его руководству

На обучении вы

Сделаете первые шаги в SRE, получите полезные чек-листы и шаблоны, которые сразу сможете внедрить в работу

DevOps/SRE инженеры уровня middle/middle+ и разработчики, которые хотят сделать апгрейд в SRE

Вы хотите закрыть пробелы в знаниях, сделать крупный шаг в карьере или избавиться от «синдрома самозванца»

На обучении вы

Прокачаете ваши скиллы, повысите экспертизу в SRE и станете увереннее как специалист

После курса вы

настроите мониторинг, SLO/SLI, алертинг в своей команде, чтобы бизнесу было спокойно, а инженеры перестали жить в режиме тушения пожаров

поймете, как пройти сопротивление команды при внедрении практик

сможете уверенно решать инциденты и выстраивать postmortem-процессы

получите полную картину SRE-практик, адаптированных под реалии российского бизнеса

систематизируете знания, почувствуете уверенность в скиллах и станете тем специалистом, которого не нужно доучивать

осознаете, какие метрики надо собирать и как это делать правильно

сможете снизить ущерб от отказов в будущем

сможете устранять конкретные проблемы, связанные с надежностью сервиса

Вы получите не гугловскую теорию, а рабочий опыт инженеров из российских компаний

Начни учиться бесплатно

Начать бесплатно

Познакомьтесь с материалами и спикерами курса. Даем демодоступ на 3 дня

Зачем компании внедрять SRE-подход?

Повышение
надежности сервисов

Улучшение производительности

Снижение
количества инцидентов

Эффективное
управление нагрузкой

Автоматизация и стандартизация

Кросс-функциональное взаимодействие команд

Обратная связь и улучшения

Снижение затрат

SRE обеспечивает высокую доступность и стабильность сервисов. Это критически важно для удовлетворенности пользователей.

Использование SRE-практик позволяет оптимизировать производительность систем. Задержки снижаются, скорость отклика повышается.

Внедрение превентивного мониторинга и автоматизации процессов минимизирует количество инцидентов и время их решения.

SRE позволяет анализировать и прогнозировать нагрузку на системы, что помогает лучше справляться с пиковыми периодами.

SRE внедряет автоматизированные процессы, что снижает количество рутинных задач и повышает эффективность работы команд.

SRE способствует более тесному сотрудничеству между разработчиками и операционными командами. Это улучшает коммуникацию и общий процесс разработки.

SRE-практики включают анализ инцидентов и создание постмортемов, что помогает выявлять слабые места и улучшать процессы.

Оптимизация процессов и автоматизация помогают сократить операционные расходы.

Формат обучения

Обучение проходит в условиях имитации реальной работы — в специально разработанном приложении кинотеатра, в котором у каждого будет своя роль

Учебное приложение состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для сервиса, настроим мониторинг и алертинг.

Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Мы разберем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.

Ломаем

Чиним

Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Мы организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Будем тренироваться под давлением в условиях предельно ограниченного времени.

Разберем подход к приложению с точки зрения SRE. Проанализируем инциденты (причины возникновения, ход устранения).

Примем решение по их дальнейшему предотвращению: улучшим мониторинг, автоматизируем процессы.

Изучаем

Строим

Внутренние и внешние факторы начинают «портить» SLO

Incident response

Cмотрим на сайт и инциденты с точки зрения SRE

С чем предстоит работать

Вы будете поддерживать приложение, написанное на python, которое взаимодействует с базой данных MySQL для хранения информации. Оно будет развернуто микросервисной архитектурой на наших кластерах Kubernetes, к которым у вас будет доступ для решения проблем, возникших на инцидентах.

Это один из самых распространенных, простых и доступных языков программирования. Вы легко сможете разобраться в его коде и внести изменения, если это потребуются.

7 видеоуроков

5 командных кейсов

20

6

ч практики

встреч со спикерами

3 Q&A-сессии

45

ч итого

На изучение теории, работу в командах и общение со спикерами

15

ч теории

Видеокурс «Мониторинг в Grafana»

+ работа с дашбордами

3 практикума с кейсами

Шаг 1

Шаг 2

Встречаемся со спикерами и делимся на команды

Шаг 3

Шаг 4

Шаг 5

Шаг 6

Делаем домашние задания, получаем фидбек от эксперта

Изучаем видеоуроки и читаем теорию

Выполняем практические задания и решаем кейсы в командах, имитируем работу SRE

Разбираем практические задания и кейсы со спикерами +задаем вопросы

Сдаем все практические задания и получаем сертификат

Что мы ожидаем от вас

↑ Без этих знаний обучаться будет трудно!

Будет большим плюсом, если вы:

Работали в кластере Kubernetes или просто знаете принципы работы

знаете, как работать в Grafana и Prometheus

умеете писать код на Python

Вы умеете читать код на Python

Знаете Linux на уровне администратора

Знание принципов работы Баз данных (любые: SQL, NoSQL, KeyVal)

Вступайте в наш канал Путь SRE

Вступить

Если вы чувствуете себя неуверенно в работе с Kubernetes, вы можете дополнительно пройти подготовительный модуль.

Чтобы вы успели его пройти и подготовиться к обучению, рекомендуем занять место на курсе до 1 ноября

Павел Селиванов

Руководитель продуктового направления в DevOps Tools, Yandex Cloud

Инженер с 10-летним опытом в DevOps. Отвечает за развитие сервисов Managed Kubernetes, Observability Platform, Dev Tools. Спикер на конференциях: DevOops, DevOpsConf, Kuberconf и т. д.

Владимир Федорков

Эксперт в области высоких нагрузок

Регулярный докладчик на конференциях и митах. Десятки успешных проектов по подъему нагрузки в США, Европе и России

Павел Лакосников

Независимый эксперт

Регулярный докладчик на конференциях и митапах. Фанат метрик

Максим Гусев

Руководитель команды SRE в RWB

Строит отказоустойчивые системы в IT более 11 лет. Активно проповедует искоренение тойла и построение правильного инцидент-менеджмента.

Прошел путь от инженера по замене бумаги в принтере до техлида SRE в финтехе и Lead Observability Team в Dodo Engineering. Сейчас SRE Team Lead @ RWB.

Сергей Бухаров

Технический руководитель инфраструктурной платформы в Dodo Engineering

Спикер конференций HighLoad, DevOps Live, DevOops и Podlodka Crew. Технический лидер Dodo Engineering, внедрение культуры SRE

Спикеры курса

Программа

Подготовительный модуль по Kubernetes

бонус

Вы познакомитесь с основами архитектуры Kubernetes и её ключевыми компонентами. Вы узнаете, для чего нужны и как взаимодействуют основные объекты, такие как поды, репликасеты, деплойменты и сервисы.

Мониторинг в Grafana

бонус

6 апреля, пн – старт обучения. Открываем доступ к Telegram-чату потока

Подходы к мониторингу. Blackbox & Whitebox, 4 golden signals, RED, USE

Grafana, Prometheus & Alertmanager. Установка и настройка

Prometheus. Модель данных и типы метрик. Особенности мониторинга latency

Prometheus. PromQL

Grafana. Первый dashboard

Grafana. Tips & tricks

Alerting. Grafana vs Prometheus

Alerting. Тестирование

Установочная встреча

встреча

Обсудим цели и задачи курса

Расскажем, что такое SRE

Распределим студентов на команды

Теория SRE

тема

Monitoring и Observability
SLO, SLI, SLA
Error budget

Практикум № 1 и командные кейсы

встреча

Добавляем на дашборды SLO, SLI и Error budget (Первичная нагрузка)
Работаем с k8s, исправляем ошибки в коде, разбираем архитектуру приложения

Q&A-сессия со спикерами

встреча

SRE в других компаниях: как устроена работа с метриками
Ответы на вопросы по предыдущим темам
Обратная связь по домашнему заданию

Инцидент-менеджмент

тема

Resiliencе Engineering и устройство команды
Инструменты варрума
Postmortem

Практикум № 2 и командные кейсы

встреча

Работаем в команде и устраняем проблемы в приложении, развернутом в Kubernetes кластере, на основе метрик
По окончании практики вы получите комплект шаблонов постмортемов

Q&A-сессия со спикерами

встреча

Работа с инцидентами, продом и прочие практики SRE
Ответы на вопросы по предыдущим темам

Health Checking

тема

Health Check в Kubernetes
Exec probes
InitialDelaySeconds
Secondary Health Port
Sidecar Health Server
Headless Probe
Hardware Probe

Практикум № 3 и командные кейсы

встреча

Реализация Fail-fast подхода: учимся быстро выявлять проблемы и минимизировать их последствия
Реализация канареечных деплоев: работаем с Argo Rollouts и учимся деплоить с минимальным аффектом пользователей

Q&A-сессия со спикерами

встреча

Тренды и технологии, карьера и развитие в SRE
Ответы на вопросы по предыдущим темам
Подведение итогов и завершение обучения

Сертификат

Именной сертификат с индивидуальным номером получает студент, если:

прошёл 80% курса

посетил все 3 субботние практики

успешно сдавал домашние задания

В случае, если студент изучил 80% курса, но не выполнял домашние задания или не посетил все практики, вместо сертификата выдаётся свидетельство.

Этот курс может оплатить ваша компания

Если вы считаете, что знания, полученные на курсе, могут быть полезными на вашем текущем месте работы, оставляйте заявку с контактами компании в форме ниже или обсудите покупку курса с вашим руководителем. Как это организовать, что говорить и куда идти — написали здесь.