поделим на группы, распределим роли и научим работать в коллективе
Имитация реальной работы
решайте задачи и кейсы, которые возникают на вашем сервисе
Прямое общение со спикерами
разборы кейсов, Q&A и отдельный чат
15 часов теории
DevOps инженеры
Для кого курс
Разработчики
Системные администраторы
Сотрудники технической поддержки
Повысьте надежность приложений, освойте и примените лучшие практики SRE для систематизации знаний, улучшения мониторинга и более эффективного решения инцидентов
Углубите знания в области SRE, практически примените эти знания для повышения надежности и стабильности систем, а также научитесь быстро реагировать на инциденты
Получите глубокие практические знаний в области SRE, улучшите мониторинг и надежность системы, а также внедрите эти знания в команду и организацию
Научитесь оценивать стабильность и нагрузку сервисов, улучшать отказоустойчивость, строить метрики и применять лучшие практики для эффективного выпуска сервисов в продакшн
Зачем компании внедрять SRE-подход?
Повышение надежности сервисов
Улучшение производительности
Снижение количества инцидентов
Эффективное управление нагрузкой
Автоматизация и стандартизация
Кросс-функциональное взаимодействие команд
Обратная связь и улучшения
Снижение затрат
SRE помогает обеспечивать высокую доступность и стабильность сервисов, что критически важно для удовлетворенности пользователей
Использование SRE практик позволяет оптимизировать производительность систем, что может привести к снижению задержек и повышению скорости отклика
Внедрение превентивного мониторинга и автоматизации процессов помогает минимизировать количество инцидентов и время их решения
SRE позволяет анализировать и прогнозировать нагрузку на системы, что помогает лучше справляться с пиковыми периодами
SRE внедряет автоматизированные процессы, что снижает количество рутинных задач и повышает эффективность работы команд
SRE способствует более тесному сотрудничеству между разработчиками и операционными командами, что улучшает коммуникацию и общий процесс разработки
SRE практики включают анализ инцидентов и создание постмортемов, что помогает выявлять слабые места и улучшать процессы
Оптимизация процессов и автоматизация помогают сократить операционные расходы
Курс поможет разобраться
Как снизить ущерб от отказов в будущем?
Как решать конкретные проблемы, связанные с надежностью сервиса?
Как внедрить правки сразу в прод?
Какие метрики собирать и как это делать правильно?
Как быстро поднимать продакшн силами команды?
После курса вы сможете
мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса
Настроить:
пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаете, какие инцидент сервисы существуют
Организовать:
мониторинг SRE-инфраструктурных сервисов. Умеете опознавать и решать проблемы с инфраструктурой
alerting и healthcheck
разные методы деплоймента, знаете какие инструменты для этого существуют
надежные коммуникации между сервисами retry, timeout, circuit breaker
Составите план действий по внедрению SRE подхода в своей компании. Поймете, как коммуницировать с бизнесом, с коллегами в случае аварии, как принимать сервисы на поддержку
Минимальные требования:
Будет большим плюсом:
Знание Grafana и Prometheus
Умение писать код на Python
Знание Linux на уровне администратора
Умение читать код на Python
Опыт работы в кластере Kubernetes, либо знания принципов работы
Знание принципов работы Баз данных (любые: SQL, NoSQL, KeyVal)
Вы объединитесь в команды, чтобы познакомиться, распределить роли и научиться работать в коллективе. Этот принцип важен, потому что вам необходимо научиться выстраивать командное взаимодействие в соответствии с принципами SRE.
Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.
Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.
Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.
Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.
Ломаем
Чиним
Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?
Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.
Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.
Изучаем
Строим
Внутренние и внешние факторы начинают «портить» SLO
incident response
Cмотрим на сайт и инциденты с точки зрения SRE
Павел Селиванов
Архитектор Yandex Cloud
Автор нескольких курсов по Kubernetes и DevOps. Регулярный докладчик на Российских и международных IT-конференциях
Владимир Федорков
Эксперт в области высоких нагрузок
Регулярный докладчик на конференциях и митах. Десятки успешных проектов по подъему нагрузки в США, Европе и России
Павел Лакосников
Team Lead команды SLA в Авито
Регулярный докладчик на конференциях и митапах. Фанат метрик
Максим Гусев
SRE Dodo Engineering
Автор нескольких курсов по DevOps и его внедрению. 100+ инсталляций Kubernetes в продакшен. 1000+ выстроенных пайплайнов CI/CD
Сергей Бухаров
Head of SRE Process в Dodo Engineering
Спикер конференций HighLoad, DevOps Live, DevOops и Podlodka Crew. Технический лидер Dodo Engineering, внедрение культуры SRE
Спикеры курса
Как проходит обучение
7 видеоуроков
4 командных кейса
26
6
часов практики
встреч со спикерами
3 Q&A-сессии
41
час всего
На изучение теории, работу в командах и общение со спикерами
15
часов теории
Видеокурс «Мониторинг в Grafana»
4 задания
3 практикума с кейсами
Шаг 1
Встречаемся со спикерами и делимся на команды
Шаг 2
Шаг 3
Шаг 4
Шаг 5
Изучаем видеоуроки и читаем теорию
Выполняем практические задания и решаем кейсы в командах, имитируем работу SRE
Разбираем практические задания и кейсы со спикерами +задаем вопросы
Сдаем все практические задания и получаем сертификат
Подходы к мониторингу. Blackbox & Whitebox, 4 golden signals, RED, USE
Grafana, Prometheus & Alertmanager. Установка и настройка
Prometheus. Модель данных и типы метрик. Особенности мониторинга latency
Prometheus. PromQL
Grafana. Первый dashboard
Grafana. Tips & tricks
Alerting. Grafana vs Prometheus
Alerting. Тестирование
Установочная встреча
18 марта (вт) в 19:00
встреча
Обсудим цели и задачи курса
Расскажем что такое SRE
Распределим студентов на команды
Введение в SRE и метрики
тема 1
SLO, SLI, SLA
Durability
Error budget
Мониторинг
тема 2
Зачем нужен мониторинг?
Перцентили
Alerting
Observability
Практикум № 1 и командные кейсы
22 марта (сб) в 10:00
встреча
Делаем базовый дашборд и настраиваем необходимые алерты
Добавляем на дашборд SLO/SLI + алерты
Первая нагрузка системы
Командное решение кейса: зависимость downstream
Q&A-сессия со спикерами
25 марта (вт) в 19:00
встреча
Ответы на вопросы
Основные проблемы с окружением и архитектурой
Управление инцидентами
Правила для пожарной команды
Работа с постмортерами (post mortem)
Основные шаблоны работы
Спикеры ответят на вопросы и расскажут про управление инцидентами, правила для пожарной команды и работу с постмортемами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.
Вest practiсe из разных компаний по организации инцидент-менеджмента
Практикум № 2 и командные кейсы
29 марта (сб) в 10:00
встреча
Командное решение кейса: зависимость upstream
Командное решение кейса: проблемы с базой данных
Практика работы с постмортемами
Q&A-сессия со спикерами
1 апреля (вт) в 19:00
встреча
Ответы на вопросы по предыдущим темам
Разбор основных проблем с окружением
Разбор внедрения SRE в компании
Опыт компаний, в которых работают спикеры курса
Health Checking и способы деплоймента
тема 5
Health Check в Kubernetes
Жив ли наш сервис?
Exec probes
InitialDelaySeconds
Secondary Health Port
Sidecar Health Server
Headless Probe
Hardware Probe
SRE онбординг проекта
тема 6
В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать. А также спикеры поделяться опытом, как у них проходило внедрение SRE и на какие грабли они наступали.
Практикум № 3 и командные кейсы
5 апреля (сб) в 10:00
встреча
Командное решение кейса: Health Check
Подведение итогов курса
Командное решение кейса: канареечные релизы при помощи инструмента Argo Rolluots
Сертификат
Каждому студенту, кто сдаст все домашние задания до конца курса и поработает в 3-х практикумах онлайн — выдадим номерной сертификат. При пропуске практикумов и домашних заданиях выдается свидетельство.