data- driven подход к управлению надежностью систем
Site
Reliability
Engineering
Старт: 30 января
Консультация с менеджером
Обсудим ваши цели и текущие знания.
Обучение платное
Отправляя форму, я соглашаюсь с Политикой Конфиденциальности Слёрм и предоставляю Согласие на обработку персональных данных и аудио- и видеорелиз

О курсе

Мы проводим этот практикум для инженеров в десятый раз. Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.

На время обучения вы станете SRE для сервиса покупки билетов в кинотеатр. Решая предложенные кейсы, вы получите представление, чем занимается SRE в реальности.
На интенсиве вы:
узнаете, как снизить ущерб от отказов в будущем.
внедрите правки прямо в прод;
узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;
поймете, какие метрики собирать и как это делать правильно;
научитесь быстро поднимать продакшн силами команды;

Кому полезно

ЛЮДЯМ
SRE-инженером может стать как инженер эксплуатации, так и разработчик.

Во время обучения вы будете много практиковаться, а полученные навыки и знания можно адаптировать и внедрить в любую сферу.
БИЗНЕСУ
SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».
На курсе сотрудники получат представление о задачах специалиста по SRE в компании, изучат практики повышения надежности. Новая культура производства приведет к следующим изменениям:
Результаты внедрения SRE-подхода
Снижение процента отказов сервиса
Повышение скорости реагирования на отказы
Снижение рисков при выкате новых фич
Увеличение скорости разработки
SRE подход — это методология работы с цифровыми продуктами. Её задача — через улучшение процессов и автоматизацию уменьшить время простоя и количество ошибок сервиса, делая бизнес, основанный на информационных системах, более предсказуемым и устойчивым.
Чтобы внедрить SRE предстоит:
определить команды разработки, где будет внедряться SRE. Экономический эффект будет максимальным, если эти команды отвечают за решения, генерирующие основную выручку;
обучить лидеров и сотрудников этих команд подходу и инструментам SRE;
сформировать процессы улучшения этих метрик.
выработать политику улучшения этих метрик (подход к мониторингу, бюджет ошибок, соответствующую автоматизацию);
определить метрики, которые будет улучшать SRE, и научиться их замерять;

В результате обучения

Могу настроить:
мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса. Понимаю как эти метрики выбрать;

мониторинг SRE-инфраструктурных сервисов. Умею опознавать и решать проблемы с инфраструктурой;

alerting и healthcheck;

разные методы деплоймента, знаю какие инструменты для этого существуют.
пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаю, какие инцидент сервисы существуют;

надежные коммуникации между сервисами retry, timeout, circuit breaker.
Могу организовать:
Вы сможете составить план действий по внедрению SRE подхода в своей компании. Поймете, как коммуницировать с бизнесом, с коллегами в случае аварии, как принимать сервисы на поддержку.

Как проходит курс

  • Теоретические лекции
    Каждый понедельник будут открываться видеолекции с теорией для самостоятельного изучения. Полученные знания вы сможете закрепить на практических занятиях по субботам и задать вопросы на встречах со спикерами в течении недели. На изучение теории нужно выделять 2-3 часа в неделю.
  • Встречи со спикерами и ответы на вопросы
    На еженедельных встречах вы сможете получить ответы на свои вопросы и предметнее обсудить применение инструментов SRE в вашей компании.
  • Практикумы
    На субботних практикумах вы сможете закрепить теорию на стендах, работая над практическими кейсами. Вас ждут 4-5 часов насыщенной работы в командах под руководством наставников нашего курса. Это прекрасная возможность применить свои знания на практике и получить ценный опыт работы в команде
  • Командная работа
    На первой встрече курса вы объединитесь в команды, чтобы познакомиться, распределить роли и научиться работать в коллективе. Этот принципа важен, потому что вам необходимо научиться выстраивать командное взаимодействие в соответствии с принципами SRE.
Строим:
Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.
Внутренние и внешние факторы начинают «портить» SLO

Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.
Ломаем:
Чиним:
incident response

Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.
Cмотрим на сайт и инциденты с точки зрения SRE

Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.
Изучаем:

Расписание встреч

Подготовка

В процессе решения кейсов вам необходимо будет писать код на Python, если вы кодить не умеете, мы определим вас в команду, где эта экспертиза будет.

Также необходимо знать Linux и иметь навыки работы в кластере Kubernetes.

Спикеры курса

Курс основан на реальном опыте специалистов из крупных российских и зарубежных компаний. Программа дорабатывалась с каждым последующим интенсивом. Над данным интенсивом работали:
Павел Селиванов
Архитектор Yandex Cloud
— Десятки выстроенных инфраструктур и сотни написанных пайплайнов CI/CD
— Certified Kubernetes Administrator
— Автор нескольких курсов по Kubernetes и DevOps
— Регулярный докладчик на Российских и международных IT-конференциях

Записи выступлений:
DevOpsDays Moscow
DevOpsConf 2019
Владимир Федорков
Эксперт в области высоких нагрузок
— Спикер Highload++ 2022
— Десятки успешных проектов по подъему нагрузки в США, Европе и России
— Серьезный опыт кризис-менеджмента и ведения инцидентов
— Регулярный докладчик на конференциях и митах

Записи выступлений:
Highload++ 2021
Big Data Days 2021
Максим Гусев
SRE Dodo Engineering
— Тысячи выстроенных пайплайнов CI/CD
— Более 100 инсталляций Kubernetes в продакшен
— Автор нескольких курсов по DevOps и его внедрению
Сергей Бухаров
Head of SRE Process в Dodo Engineering
Записи выступлений:
Доклад на HighLoad++
Павел Лакосников
Team Lead команды SLA в Авито
– Более 10 лет в разработке
– Фанат метрик
– Регулярный докладчик на конференциях и митапах

Записи выступлений:
Highload++ 2023
Highload++ 2022
PHP Russia 2021

Начать учиться

Лекции по метрикам
SLO, SLI, SLA
Zoom-трансляция и AMA-cессии
Техподдержка и разбор ошибок
Работа в группах с куратором или спикером
Практика на микросервисном приложении
Доступ к материалам на 2 года
Видео
с теорией
бесплатно
Участник
22 500
единовременно
/
90 000
Zoom-трансляция и AMA-cессии
Техподдержка и разбор ошибок
Работа в группах с куратором или спикером
Практика на микросервисном приложении
Доступ к материалам на 2 года
Видео
с теорией
не для компаний
Этот курс доступен в рамках подписки
Показать опции
Тариф «База»
Тариф «Мега»
150 000 ₽
200 000 ₽
Видеокурсы
Сертификация
Потоки и интенсивны
Чаты со студентами
Обратная связь
АМА-сессии
Доступ на 3 месяца
Видеокурсы
Сертификация
Потоки и интенсивы
Чаты со студентами
Обратная связь
АМА-сессии
Доступ на 4 месяца
Там, где предусматривают программы курсов
Там, где предусматривают программы курсов
Там, где предусматривают программы курсов
Там, где предусматривают программы курсов
Там, где предусматривают программы курсов
Особое предложение
для команд от 5 человек
за участника
65 000

Отзывы студентов

Отзывы студентов

Вы можете их задать менеджеру заботы о клиентах Марине Бородаевой с помощью формы
Остались вопросы?
или по телефону +7 (995) 053-11-06
и в Telegram mborodaeva

Комплект

Углубленный курс о продвинутых SRE- метриках. Вы узнаете, как выбрать технические метрики оценки надежности для своего сервиса SLO и SLI, научитесь их отслеживать, а также увидите вживую, как они деградируют.
SRE Observability
это может быть интересно