data- driven подход к управлению надежностью систем

Site
Reliability
Engineering

Старт: дата уточняется
Консультация с менеджером
Обсудим ваши цели и текущие знания.
Обучение платное

О курсе

Мы проводим этот практикум для инженеров в десятый раз. Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.

На время обучения вы станете SRE для сервиса покупки билетов в кинотеатр. Решая предложенные кейсы, вы получите представление, чем занимается SRE в реальности.
На интенсиве вы:

научитесь быстро поднимать продакшн силами команды;

поймете, какие метрики собирать и как это делать правильно;

узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;

внедрите правки прямо в прод;

узнаете, как снизить ущерб от отказов в будущем.

Кому полезно

ЛЮДЯМ
SRE-инженером может стать как инженер эксплуатации, так и разработчик.

Во время обучения вы будете много практиковаться, а полученные навыки и знания можно адаптировать и внедрить в любую сферу.
БИЗНЕСУ
SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».
На курсе сотрудники получат представление о задачах специалиста по SRE в компании, изучат практики повышения надежности. Новая культура производства приведет к следующим изменениям:
Результаты внедрения SRE-подхода
Снижение процента отказов сервиса
Повышение скорости реагирования на отказы
Снижение рисков при выкате новых фич
Увеличение скорости разработки
SRE подход — это методология работы с цифровыми продуктами. Её задача — через улучшение процессов и автоматизацию уменьшить время простоя и количество ошибок сервиса, делая бизнес, основанный на информационных системах, более предсказуемым и устойчивым.
Чтобы внедрить SRE предстоит:
определить команды разработки, где будет внедряться SRE. Экономический эффект будет максимальным, если эти команды отвечают за решения, генерирующие основную выручку;
обучить лидеров и сотрудников этих команд подходу и инструментам SRE;
сформировать процессы улучшения этих метрик.
выработать политику улучшения этих метрик (подход к мониторингу, бюджет ошибок, соответствующую автоматизацию);
определить метрики, которые будет улучшать SRE, и научиться их замерять;

В результате обучения

Могу настроить:
мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса. Понимаю как эти метрики выбрать;

мониторинг SRE-инфраструктурных сервисов. Умею опознавать и решать проблемы с инфраструктурой;

alerting и healthcheck;

разные методы деплоймента, знаю какие инструменты для этого существуют.
пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаю, какие инцидент сервисы существуют;

надежные коммуникации между сервисами retry, timeout, circuit breaker.
Могу организовать:
Вы сможете составить план действий по внедрению SRE подхода в своей компании. Поймете, как коммуницировать с бизнесом, с коллегами в случае аварии, как принимать сервисы на поддержку.
Условия получения номерного сертификата:
  • Все сданные домашние задания до конца курса
  • Участие и работа в 3-х практикумах онлайн
При пропуске практикума и домашних заданий выдается свидетельство
SRE: data-driven

Как проходит курс

  • Теоретические лекции
    Каждый понедельник будут открываться видеолекции с теорией для самостоятельного изучения. Полученные знания вы сможете закрепить на практических занятиях по субботам и задать вопросы на встречах со спикерами в течении недели. На изучение теории нужно выделять 2-3 часа в неделю.
  • Встречи со спикерами и ответы на вопросы
    На еженедельных встречах вы сможете получить ответы на свои вопросы и предметнее обсудить применение инструментов SRE в вашей компании.
  • Практикумы
    На субботних практикумах вы сможете закрепить теорию на стендах, работая над практическими кейсами. Вас ждут 4-5 часов насыщенной работы в командах под руководством наставников нашего курса. Это прекрасная возможность применить свои знания на практике и получить ценный опыт работы в команде
  • Командная работа
    На первой встрече курса вы объединитесь в команды, чтобы познакомиться, распределить роли и научиться работать в коллективе. Этот принципа важен, потому что вам необходимо научиться выстраивать командное взаимодействие в соответствии с принципами SRE.
Строим:
Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.
Внутренние и внешние факторы начинают «портить» SLO

Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.
Ломаем:
Чиним:
incident response

Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.
Cмотрим на сайт и инциденты с точки зрения SRE

Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.
Изучаем:

Расписание встреч

Подготовка

В процессе решения кейсов вам необходимо будет писать код на Python, если вы кодить не умеете, мы определим вас в команду, где эта экспертиза будет.

Также необходимо знать Linux и иметь навыки работы в кластере Kubernetes.

Спикеры курса

Курс основан на реальном опыте специалистов из крупных российских и зарубежных компаний. Программа дорабатывалась с каждым последующим интенсивом. Над данным интенсивом работали:
Павел Селиванов
Архитектор Yandex Cloud
— Десятки выстроенных инфраструктур и сотни написанных пайплайнов CI/CD
— Certified Kubernetes Administrator
— Автор нескольких курсов по Kubernetes и DevOps
— Регулярный докладчик на Российских и международных IT-конференциях

Записи выступлений:
DevOpsDays Moscow
DevOpsConf 2019
Владимир Федорков
Эксперт в области высоких нагрузок
— Спикер Highload++ 2022
— Десятки успешных проектов по подъему нагрузки в США, Европе и России
— Серьезный опыт кризис-менеджмента и ведения инцидентов
— Регулярный докладчик на конференциях и митах

Записи выступлений:
Highload++ 2021
Big Data Days 2021
Максим Гусев
SRE Dodo Engineering
— Тысячи выстроенных пайплайнов CI/CD
— Более 100 инсталляций Kubernetes в продакшен
— Автор нескольких курсов по DevOps и его внедрению
Сергей Бухаров
Head of SRE Process в Dodo Engineering
— .NET и Node.js разработчик
— Технический лидер Dodo Engineering, внедрение культуры SRE
— Спикер конференций HighLoad, DevOps Live, DevOops и Podlodka Crew

Записи выступлений:
Доклад на HighLoad++
Павел Лакосников
Team Lead команды SLA в Авито
– Более 10 лет в разработке
– Фанат метрик
– Регулярный докладчик на конференциях и митапах

Записи выступлений:
Highload++ 2023
Highload++ 2022
PHP Russia 2021
Рассрочка
только для физических лиц
Условия рассрочки:
Процесс оформления:

Начать учиться

Лекции по метрикам
SLO, SLI, SLA
Zoom-трансляция и AMA-cессии
Техподдержка и разбор ошибок
Работа в группах с куратором или спикером
Практика на микросервисном приложении
Доступ к материалам на 2 года
Видео
с теорией
бесплатно
Участник
22 500
единовременно
/
90 000
Zoom-трансляция и AMA-cессии
Техподдержка и разбор ошибок
Работа в группах с куратором или спикером
Практика на микросервисном приложении
Доступ к материалам на 2 года
Видео
с теорией
Особое предложение
для команд от 5 человек
за участника
65 000

Отзывы студентов

Отзывы студентов

Менеджер по продажам
Альберт Матюхин
Нужна консультация?
Обсудим ваши цели и ответим на вопросы
Отправляя форму, я соглашаюсь с Политикой Конфиденциальности Слёрм и предоставляю Согласие на обработку персональных данных и аудио- и видеорелиз

Комплект

Углубленный курс о продвинутых SRE- метриках. Вы узнаете, как выбрать технические метрики оценки надежности для своего сервиса SLO и SLI, научитесь их отслеживать, а также увидите вживую, как они деградируют.
SRE Observability
это может быть интересно