поделим на группы, распределим роли и научим работать в коллективе
Имитация реальной работы
решайте задачи и кейсы, которые возникают на вашем сервисе
Прямое общение со спикерами
разборы кейсов, Q&A и отдельный чат
15 часов теории
DevOps инженеры
Для кого курс
Разработчики
Системные администраторы
Сотрудники технической поддержки
Повысьте надежность приложений, освойте и примените лучшие практики SRE для систематизации знаний, улучшения мониторинга и более эффективного решения инцидентов
Углубите знания в области SRE, практически примените эти знания для повышения надежности и стабильности систем, а также научитесь быстро реагировать на инциденты
Получите глубокие практические знаний в области SRE, улучшите мониторинг и надежность системы, а также внедрите эти знания в команду и организацию
Научитесь оценивать стабильность и нагрузку сервисов, улучшать отказоустойчивость, строить метрики и применять лучшие практики для эффективного выпуска сервисов в продакшн
Зачем компании внедрять SRE-подход?
Повышение надежности сервисов
Улучшение производительности
Снижение количества инцидентов
Эффективное управление нагрузкой
Автоматизация и стандартизация
Кросс-функциональное взаимодействие команд
Обратная связь и улучшения
Снижение затрат
SRE помогает обеспечивать высокую доступность и стабильность сервисов, что критически важно для удовлетворенности пользователей
Использование SRE практик позволяет оптимизировать производительность систем, что может привести к снижению задержек и повышению скорости отклика
Внедрение превентивного мониторинга и автоматизации процессов помогает минимизировать количество инцидентов и время их решения
SRE позволяет анализировать и прогнозировать нагрузку на системы, что помогает лучше справляться с пиковыми периодами
SRE внедряет автоматизированные процессы, что снижает количество рутинных задач и повышает эффективность работы команд
SRE способствует более тесному сотрудничеству между разработчиками и операционными командами, что улучшает коммуникацию и общий процесс разработки
SRE практики включают анализ инцидентов и создание постмортемов, что помогает выявлять слабые места и улучшать процессы
Оптимизация процессов и автоматизация помогают сократить операционные расходы
Курс поможет разобраться
Как снизить ущерб от отказов в будущем?
Как решать конкретные проблемы, связанные с надежностью сервиса?
Как внедрить правки сразу в прод?
Какие метрики собирать и как это делать правильно?
Как быстро поднимать продакшн силами команды?
После курса вы сможете
мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса
Настроить:
пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаете, какие инцидент сервисы существуют
Организовать:
мониторинг SRE-инфраструктурных сервисов. Умеете опознавать и решать проблемы с инфраструктурой
alerting и healthcheck
разные методы деплоймента, знаете какие инструменты для этого существуют
надежные коммуникации между сервисами retry, timeout, circuit breaker
Составите план действий по внедрению SRE подхода в своей компании. Поймете, как коммуницировать с бизнесом, с коллегами в случае аварии, как принимать сервисы на поддержку
Минимальные требования:
Будет большим плюсом:
Знание Grafana и Prometheus
Умение писать код на Python
Знание Linux на уровне администратора
Умение читать код на Python
Опыт работы в кластере Kubernetes, либо знания принципов работы
Знание принципов работы Баз данных (любые: SQL, NoSQL, KeyVal)
Вы объединитесь в команды, чтобы познакомиться, распределить роли и научиться работать в коллективе. Этот принцип важен, потому что вам необходимо научиться выстраивать командное взаимодействие в соответствии с принципами SRE.
Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.
Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.
Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.
Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.
Ломаем
Чиним
Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?
Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.
Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.
Изучаем
Строим
Внутренние и внешние факторы начинают «портить» SLO
incident response
Cмотрим на сайт и инциденты с точки зрения SRE
Павел Селиванов
Архитектор Yandex Cloud
Автор нескольких курсов по Kubernetes и DevOps. Регулярный докладчик на Российских и международных IT-конференциях
Владимир Федорков
Эксперт в области высоких нагрузок
Регулярный докладчик на конференциях и митах. Десятки успешных проектов по подъему нагрузки в США, Европе и России
Павел Лакосников
Team Lead команды SLA в Авито
Регулярный докладчик на конференциях и митапах. Фанат метрик
Максим Гусев
SRE Dodo Engineering
Автор нескольких курсов по DevOps и его внедрению. 100+ инсталляций Kubernetes в продакшен. 1000+ выстроенных пайплайнов CI/CD
Сергей Бухаров
Head of SRE Process в Dodo Engineering
Спикер конференций HighLoad, DevOps Live, DevOops и Podlodka Crew. Технический лидер Dodo Engineering, внедрение культуры SRE
Спикеры курса
Как проходит обучение
7 видеоуроков
4 командных кейса
26
6
часов практики
встреч со спикерами
3 Q&A-сессии
41
час всего
На изучение теории, работу в командах и общение со спикерами
15
часов теории
Видеокурс «Мониторинг в Grafana»
4 задания
3 практикума с кейсами
Шаг 1
Встречаемся со спикерами и делимся на команды
Шаг 2
Шаг 3
Шаг 4
Шаг 5
Изучаем видеоуроки и читаем теорию
Выполняем практические задания и решаем кейсы в командах, имитируем работу SRE
Разбираем практические задания и кейсы со спикерами +задаем вопросы
Сдаем все практические задания и получаем сертификат
Подходы к мониторингу. Blackbox & Whitebox, 4 golden signals, RED, USE
Grafana, Prometheus & Alertmanager. Установка и настройка
Prometheus. Модель данных и типы метрик. Особенности мониторинга latency
Prometheus. PromQL
Grafana. Первый dashboard
Grafana. Tips & tricks
Alerting. Grafana vs Prometheus
Alerting. Тестирование
Установочная встреча
18 марта (вт) в 19:00
встреча
Обсудим цели и задачи курса
Расскажем что такое SRE
Распределим студентов на команды
Введение в SRE и метрики
тема 1
SLO, SLI, SLA
Durability
Error budget
Мониторинг
тема 2
Зачем нужен мониторинг?
Перцентили
Alerting
Observability
Практикум № 1 и командные кейсы
22 марта (сб) в 10:00
встреча
Делаем базовый дашборд и настраиваем необходимые алерты
Добавляем на дашборд SLO/SLI + алерты
Первая нагрузка системы
Командное решение кейса: зависимость downstream
Q&A-сессия со спикерами
25 марта (вт) в 19:00
встреча
Ответы на вопросы
Основные проблемы с окружением и архитектурой
Управление инцидентами
Правила для пожарной команды
Работа с постмортерами (post mortem)
Основные шаблоны работы
Спикеры ответят на вопросы и расскажут про управление инцидентами, правила для пожарной команды и работу с постмортемами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.
Вest practiсe из разных компаний по организации инцидент-менеджмента
Практикум № 2 и командные кейсы
29 марта (сб) в 10:00
встреча
Командное решение кейса: зависимость upstream
Командное решение кейса: проблемы с базой данных
Практика работы с постмортемами
Q&A-сессия со спикерами
1 апреля (вт) в 19:00
встреча
Ответы на вопросы по предыдущим темам
Разбор основных проблем с окружением
Разбор внедрения SRE в компании
Опыт компаний, в которых работают спикеры курса
Health Checking и способы деплоймента
тема 5
Health Check в Kubernetes
Жив ли наш сервис?
Exec probes
InitialDelaySeconds
Secondary Health Port
Sidecar Health Server
Headless Probe
Hardware Probe
SRE онбординг проекта
тема 6
В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать. А также спикеры поделяться опытом, как у них проходило внедрение SRE и на какие грабли они наступали.
Практикум № 3 и командные кейсы
5 апреля (сб) в 10:00
встреча
Командное решение кейса: Health Check
Подведение итогов курса
Командное решение кейса: канареечные релизы при помощи инструмента Argo Rolluots
Сертификат
Именной сертификат с индивидуальным номером получает студент, если:
прошёл 80% курса
принимал участие в решении практик, которые входят в курс
успешно сдал итоговое задание/проект/сертификацию.
В случае, если студент изучил 80% курса, но не выполнил или не сдал финальное задание, вместо сертификата выдаётся свидетельство.
Наверное, около года назад стала задумываться, что хочу узнать, что такое SRE и с чем его едят. До книжки от «Гугла» так и не добралась, потому что свободного времени всегда очень мало, а курс от Slurm самое то. Моей основной задачей было понять, хочу ли я развиваться в сторону SRE или мне достаточно DevOps'а. Также хотела получить более глубокие знания об SRE, узнать, какие методологии используются, увидеть примеры из жизни. Организаторам отдельное спасибо! Я не первый раз уже восхищаюсь организацией в «Слёрме». Заранее было известно примерное расписание каждого дня, спикеры и организаторы придерживались тайминга и практически не вылезали за рамки. В целом интенсив мне понравился: я узнала что-то новое, понравились некоторые методики по мониторингу. Захотелось внедрить несколько решений из курса. И новый взгляд на постмортем. Отлично раскрыли эту тему на курсе, и тоже сразу захотелось внедрить всё на работе.
Юлия
Отзыв на курс «SRE»
Я пришла на курс по SRE, чтобы посмотреть свежим взглядом на процессы в своей команде, задать вопросы про формирование требований SLO, мониторинг и алертинг по ним. После курса договорились с командой о том, за что отвечает лидер инцидента, немного поменяли структуру постмортемов. Раньше некоторые пункты не расписывали. Во время интенсива парень из команды, в которой работали, скинул свой формат постмортема. Когда я заполняла его по прошедшей практике, некоторые проблемы подсветились очень неожиданно именно в тех пунктах, которые мы в команде не писали. Я его утащила в свою рабочую команду. Еще сейчас мы планируем переосмыслить свои SLO и определить новые качественные метрики, отслеживать по ним error budget.
Валентина
Отзыв на курс «SRE»
Мне было интересно понять эту тему. Хотелось сэкономить время на прочтении и понимании книги. Цели посещения достиг: какие-то практики у нас работали до, что-то заставило задуматься. Метрики были рассказаны интересно, я их уже начал использовать.
Андрей
Отзыв на курс «SRE»
Интересные докладчики с большим опытом, которые старались отвечать на все вопросы участников. Много практики по разбору инцидентов. Получили много полезной информации и еще раз напомнили себе, что к инцидентам нужно готовиться и регулярно тренироваться. Узнали про выбор SLO, а именно, что это напрямую касается пользователя. SLO — уровень счастья/удовлетворенности клиент от сервиса. Еще один вывод после курса — нужно проводить регулярные ретро по инцидентам. Там же обсуждать задачи по повышению надежности системы. Пошли бы еще раз? Да. Жалко ли потраченного времени? Нет.
Команда ДоДо
Отзыв на курс «SRE»
Много говорили про процессы, много опыта получилось от спикера получить, было немного шероховатостей на практике, в целом потрогали технологии. Круто, что можно быстро получить обратную связь от спикера. Сам курс организован профессионально, все по делу и интенсивно. Уже работаем над внедрением мониторинга в команде. Понравились темы про Error budget и Grafana.
Юрий
Отзыв на курс «SRE»
Отмечу формат, команду и атмосферу. Спикеры огонь. Очень понравилось упражнение про актуальность алертов (левое задание и повторная поломка тем же самым методом) и лекция «Инструменты варрума и alert-менеджмента. В целом очень классная система эмуляции проблем.
Было интересно. Получил кучу инсайтов от коллег. Теперь знаю, как определить SLO и error budget. Хочется больше текстовой информации, потому что самому писать шпаргалки лениво😊
Никита
Отзыв на курс «SRE»
На курсе дали возможность пощупать и обсудить технологии. Удачно собрали команду — по итогу масса планов на внедрение. Я получила багаж знаний в живой форме и с практикой, дальше с ним можно самостоятельно развиваться.
Спасибо и за проработку начальника и за написание постмортемов и за хитрые уловки с коммитами и задачами на отвлечение внимания. Большое спасибо за продуктивное времяпровождение!
Яна
Отзыв на курс «SRE»
Понравились спикеры и то, что мы решали проблемы командой. В целом курс понравился, вся команда отлично отработала, было очень интересно и полезно, ни в коем случае не жалею, что попал. Спасибо большое! Оперативность и отзывчивость всей команды
Знания преподавателей / лекторов — сразу видно, что люди с опытом работы в индустрии. Много интересного узнал во время QA сессий. Лекции были отличные, с конкретикой. Очень полезными для меня стали лекции по Agro CD. Хотелось бы больше таких по всем темам. Насчёт практики тоже, в целом понравилось. Команда на практиках подобралось отличная, ментор помогал супер, отдельное спасибо — очень понравилось.
Артём
Этот курс может оплатить ваша компания
Если вы считаете, что знания, полученные на курсе, могут быть полезными на вашем текущем месте работы, оставляйте заявку с контактами компании в форме ниже или обсудите покупку курса с вашим руководителем. Как это организовать, что говорить и куда идти — написали здесь.
Как купить курс
Написать нам
В 75% случаев обучение готова оплатить компания. Напишите нам, и мы поможем.
Курс за счёт работодателя
Написать нам
Узнать про вычет
Узнать про вычет
Предоставим все необходимые документы для получения вычета.
Налоговый вычет 13%
осталось n места
Поток
Видеоуроки
Командные практикумы и кейсы
Q&A-сессии со спикерами
Виртуальные стенды для практики
Чат-группы Телеграм со спикерами
Поддержка от куратора группы
Видеокурс «Мониторинг в Grafana»
в рассрочку на 12 месяцев или 110000 ₽ 79 990 ₽ единовременно