Новогодний экспресс знаний с подарками ждёт вас
Новогодний экспресс знаний с подарками ждёт вас
Новогодний экспресс знаний с подарками ждёт вас
Станьте SRE для сервиса покупки билетов
поток: старт 17 марта
SRE: data-driven подход к управлению надежностью систем
длительность 3 недели
Решайте кейсы и погружайтесь в реальную работу
Научитесь практическим навыкам мониторинга, предотвращения инцидентов и построения надежных систем
Видеокурс «Мониторинг в Grafanа» в подарок!
Упор на практику
20 часа практики
Работа в команде
поделим на группы, распределим роли и научим работать в коллективе
Имитация реальной работы
решайте задачи и кейсы, которые возникают на вашем сервисе
Прямое общение со спикерами
разборы кейсов, Q&A и отдельный чат
15 часов теории
DevOps инженеры
Для кого курс
Разработчики
Системные администраторы
Сотрудники технической поддержки
Повысьте надежность приложений, освойте и примените лучшие практики SRE для систематизации знаний, улучшения мониторинга и более эффективного решения инцидентов
Углубите знания в области SRE, практически примените эти знания для повышения надежности и стабильности систем, а также научитесь быстро реагировать на инциденты
Получите глубокие практические знаний в области SRE, улучшите мониторинг и надежность системы, а также внедрите эти знания в команду и организацию
Научитесь оценивать стабильность и нагрузку сервисов, улучшать отказоустойчивость, строить метрики и применять лучшие практики для эффективного выпуска сервисов в продакшн
Зачем компании внедрять SRE-подход?
Повышение надежности сервисов
Улучшение производительности
Снижение количества инцидентов
Эффективное управление нагрузкой
Автоматизация и стандартизация
Кросс-функциональное взаимодействие команд
Обратная связь и улучшения
Снижение затрат
SRE помогает обеспечивать высокую доступность и стабильность сервисов, что критически важно для удовлетворенности пользователей
Использование SRE практик позволяет оптимизировать производительность систем, что может привести к снижению задержек и повышению скорости отклика
Внедрение превентивного мониторинга и автоматизации процессов помогает минимизировать количество инцидентов и время их решения
SRE позволяет анализировать и прогнозировать нагрузку на системы, что помогает лучше справляться с пиковыми периодами
SRE внедряет автоматизированные процессы, что снижает количество рутинных задач и повышает эффективность работы команд
SRE способствует более тесному сотрудничеству между разработчиками и операционными командами, что улучшает коммуникацию и общий процесс разработки
SRE практики включают анализ инцидентов и создание постмортемов, что помогает выявлять слабые места и улучшать процессы
Оптимизация процессов и автоматизация помогают сократить операционные расходы
Курс поможет разобраться
Как снизить ущерб от отказов в будущем?
Как решать конкретные проблемы, связанные с надежностью сервиса?
Как внедрить правки сразу в прод?
Какие метрики собирать и как это делать правильно?
Как быстро поднимать продакшн силами команды?
После курса вы сможете
  • мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса
Настроить:
  • пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаете, какие инцидент сервисы существуют
Организовать:
  • мониторинг SRE-инфраструктурных сервисов. Умеете опознавать и решать проблемы с инфраструктурой
  • alerting и healthcheck
  • разные методы деплоймента, знаете какие инструменты для этого существуют
  • надежные коммуникации между сервисами retry, timeout, circuit breaker
Составите план действий по внедрению SRE подхода в своей компании. Поймете, как коммуницировать с бизнесом, с коллегами в случае аварии, как принимать сервисы на поддержку
Минимальные требования:
Будет большим плюсом:
  • Знание Grafana и Prometheus
  • Умение писать код на Python
  • Знание Linux на уровне администратора
  • Умение читать код на Python
  • Опыт работы в кластере Kubernetes, либо знания принципов работы
  • Знание принципов работы Баз данных (любые: SQL, NoSQL, KeyVal)
Комьюнити SRE со Слёрмом
Работа в команде
Вы объединитесь в команды, чтобы познакомиться, распределить роли и научиться работать в коллективе. Этот принцип важен, потому что вам необходимо научиться выстраивать командное взаимодействие в соответствии с принципами SRE.
Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.
Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.
Ломаем
Чиним
Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.
Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.
Изучаем
Строим
Внутренние и внешние факторы начинают «портить» SLO
incident response
Cмотрим на сайт и инциденты с точки зрения SRE
Павел Селиванов
Архитектор Yandex Cloud
Автор нескольких курсов по Kubernetes и DevOps. Регулярный докладчик на Российских и международных IT-конференциях
Владимир Федорков
Эксперт в области высоких нагрузок
Регулярный докладчик на конференциях и митах. Десятки успешных проектов по подъему нагрузки в США, Европе и России
Павел Лакосников
Team Lead команды SLA в Авито
Регулярный докладчик на конференциях и митапах. Фанат метрик
Максим Гусев
SRE Dodo Engineering
Автор нескольких курсов по DevOps и его внедрению. 100+ инсталляций Kubernetes в продакшен. 1000+ выстроенных пайплайнов CI/CD
Сергей Бухаров
Head of SRE Process в Dodo Engineering
Спикер конференций HighLoad, DevOps Live, DevOops и Podlodka Crew. Технический лидер Dodo Engineering, внедрение культуры SRE
Спикеры курса
Как проходит обучение
7 видеоуроков
4 командных кейса
20
6
часов практики
встреч со спикерами
3 Q&A-сессии
41
час всего
На изучение теории, работу в командах и общение со спикерами
15
часов теории
Видеокурс
«Мониторинг в Grafana»
4 задания
3 разбора практики
Шаг 1
Встречаемся со спикерами и делимся на команды
Шаг 2
Шаг 3
Шаг 4
Шаг 5
Изучаем видеоуроки и читаем теорию
Выполняем практические задания и решаем кейсы в командах, имитируем работу SRE
Разбираем практические задания и кейсы со спикерами +задаем вопросы
Сдаем все практические задания и получаем сертификат
  • Подходы к мониторингу. Blackbox & Whitebox, 4 golden signals, RED, USE
  • Grafana, Prometheus & Alertmanager. Установка и настройка
  • Prometheus. Модель данных и типы метрик. Особенности мониторинга latency
  • Prometheus. PromQL
  • Grafana. Первый dashboard
  • Grafana. Tips & tricks
  • Alerting. Grafana vs Prometheus
  • Alerting. Тестирование
  • Обсудим цели и задачи курса
  • Расскажем что такое SRE
  • Распределим студентов на команды
  • SLO, SLI, SLA
  • Durability
  • Error budget
  • Зачем нужен мониторинг?
  • Перцентили
  • Alerting
  • Observability
  • Делаем базовый дашборд и настраиваем необходимые алерты
  • Добавляем на дашборд SLO/SLI + алерты
  • Первая нагрузка системы
  • Командное решение кейса: зависимость downstream
  • Ответы на вопросы
  • Основные проблемы с окружением и архитектурой
  • Управление инцидентами
  • Правила для пожарной команды
  • Работа с постмортерами (post mortem)
  • Основные шаблоны работы
Спикеры ответят на вопросы и расскажут про управление инцидентами, правила для пожарной команды и работу с постмортемами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.
  • Resiliencе Engineering
  • Как выстраивается пожарная бригада?
  • Насколько ваша команда эффективна в инциденте?
  • 7 правил для лидера инцидента
  • 5 правил для пожарного
  • HiPPO — highest paid person's opinion. Communications Leader
  • Вest practiсe из разных компаний по организации инцидент-менеджмента
  • Командное решение кейса: зависимость upstream
  • Командное решение кейса: проблемы с базой данных
  • Практика работы с постмортемами
  • Ответы на вопросы по предыдущим темам
  • Разбор основных проблем с окружением
  • Разбор внедрения SRE в компании
  • Опыт компаний, в которых работают спикеры курса
  • Health Check в Kubernetes
  • Жив ли наш сервис?
  • Exec probes
  • InitialDelaySeconds
  • Secondary Health Port
  • Sidecar Health Server
  • Headless Probe
  • Hardware Probe
В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать. А также спикеры поделяться опытом, как у них проходило внедрение SRE и на какие грабли они наступали.
  • Командное решение кейса: Health Check
  • Подведение итогов курса
  • Командное решение кейса: канареечные релизы при помощи инструмента Argo Rolluots
Сертификат
Каждому студенту, кто сдаст все домашние задания до конца курса и поработает в 3-х практикумах онлайн — выдадим номерной сертификат. При пропуске практикумов и домашних заданиях выдается свидетельство.
SRE: data-driven
Отзывы о курсе

Юрий
SRE
SRE
Яна
Этот курс может оплатить ваша компания
Если вы считаете, что знания, полученные на курсе, могут быть полезными на вашем текущем месте работы, оставляйте заявку с контактами компании в форме ниже или обсудите покупку курса с вашим руководителем. Как это организовать, что говорить и куда идти — написали здесь.
При покупке курса «SRE: data- driven подход к управлению надежностью систем» видеокурс «Мониторинг в Grafana» в подарок
Хороший инженер должен обеспечивать, контролировать и поддерживать надежную работу сервиса. Обучаем этому в видеокурсе "Мониторинг в Grafana".
30 000 ₽
Бесплатно
Как купить курс

SRE: data-driven подход к управлению надежностью систем

Видеоуроки
Техподдержка и разбор ошибок
Чат со спикерами
Практические задания
при рассрочке от 4 месяцев или 100 000 ₽ единовременно

25 000 ₽/мес

Работа в командах над кейсами
старт в любой момент
поток
старт 17 марта

Командное предложение

от 3-х человек
от 5-ти человек
93 000 ₽
90 000 ₽
Для команды от 10 человек даем индивидуальные условия и предложения
Вернём деньги, если обучение не подойдёт
Если в течение двух недель решите, что курс вам не подходит, мы вернём полную стоимость обучения
Верните 13% от стоимости обучения
Оформив налоговый вычет. Запросите у нас документы для налогового вычета, и мы пришлём вам всё необходимое
Корпоративное обучение
Если ваша задача — обучить больше 20 сотрудников, мы готовы предложить вашей компании корпоративный формат обучения или адаптировать обучение под вас
Пример корпоративного обучения по Kubernetes для сотрудников Тинькофф банка →
Нужна консультация?
задайте нам свой вопрос
Рассрочка
только для физических лиц
Условия рассрочки:
Процесс оформления: