data- driven подход к управлению надежностью систем

Site
Reliability
Engineering

Старт: дата уточняется

Консультация с менеджером

Обсудим ваши цели и текущие знания.
Обучение платное

О курсе

Мы проводим этот практикум для инженеров в десятый раз. Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.

На время обучения вы станете SRE для сервиса покупки билетов в кинотеатр. Решая предложенные кейсы, вы получите представление, чем занимается SRE в реальности.

На интенсиве вы:

научитесь быстро поднимать продакшн силами команды;

поймете, какие метрики собирать и как это делать правильно;

узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;

внедрите правки прямо в прод;

узнаете, как снизить ущерб от отказов в будущем.

Комьюнити SRE со Слёрмом

Кому полезно

ЛЮДЯМ

SRE-инженером может стать как инженер эксплуатации, так и разработчик.

Во время обучения вы будете много практиковаться, а полученные навыки и знания можно адаптировать и внедрить в любую сферу.

БИЗНЕСУ

SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».

На курсе сотрудники получат представление о задачах специалиста по SRE в компании, изучат практики повышения надежности. Новая культура производства приведет к следующим изменениям:

Результаты внедрения SRE-подхода

Снижение процента отказов сервиса

Повышение скорости реагирования на отказы

Снижение рисков при выкате новых фич

Увеличение скорости разработки

SRE подход — это методология работы с цифровыми продуктами. Её задача — через улучшение процессов и автоматизацию уменьшить время простоя и количество ошибок сервиса, делая бизнес, основанный на информационных системах, более предсказуемым и устойчивым.

Чтобы внедрить SRE предстоит:

определить команды разработки, где будет внедряться SRE. Экономический эффект будет максимальным, если эти команды отвечают за решения, генерирующие основную выручку;

обучить лидеров и сотрудников этих команд подходу и инструментам SRE;

сформировать процессы улучшения этих метрик.

выработать политику улучшения этих метрик (подход к мониторингу, бюджет ошибок, соответствующую автоматизацию);

определить метрики, которые будет улучшать SRE, и научиться их замерять;

В результате обучения

Могу настроить:

мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса. Понимаю как эти метрики выбрать;

мониторинг SRE-инфраструктурных сервисов. Умею опознавать и решать проблемы с инфраструктурой;

alerting и healthcheck;

разные методы деплоймента, знаю какие инструменты для этого существуют.

пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаю, какие инцидент сервисы существуют;

надежные коммуникации между сервисами retry, timeout, circuit breaker.

Могу организовать:

Вы сможете составить план действий по внедрению SRE подхода в своей компании. Поймете, как коммуницировать с бизнесом, с коллегами в случае аварии, как принимать сервисы на поддержку.

Узнать цену

Условия получения номерного сертификата:

Все сданные домашние задания до конца курса

Участие и работа в 3-х практикумах онлайн

При пропуске практикума и домашних заданий выдается свидетельство

SRE: data-driven

Как проходит курс

Теоретические лекции
Каждый понедельник будут открываться видеолекции с теорией для самостоятельного изучения. Полученные знания вы сможете закрепить на практических занятиях по субботам и задать вопросы на встречах со спикерами в течении недели. На изучение теории нужно выделять 2-3 часа в неделю.
Встречи со спикерами и ответы на вопросы
На еженедельных встречах вы сможете получить ответы на свои вопросы и предметнее обсудить применение инструментов SRE в вашей компании.
Практикумы

На субботних практикумах вы сможете закрепить теорию на стендах, работая над практическими кейсами. Вас ждут 4-5 часов насыщенной работы в командах под руководством наставников нашего курса. Это прекрасная возможность применить свои знания на практике и получить ценный опыт работы в команде
Командная работа
На первой встрече курса вы объединитесь в команды, чтобы познакомиться, распределить роли и научиться работать в коллективе. Этот принципа важен, потому что вам необходимо научиться выстраивать командное взаимодействие в соответствии с принципами SRE.

Строим:

Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.

Внутренние и внешние факторы начинают «портить» SLO

Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.

Ломаем:

Чиним:

incident response

Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.

Cмотрим на сайт и инциденты с точки зрения SRE

Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.

Изучаем:

Скачать презентацию курса

Расписание встреч

Подготовка

В процессе решения кейсов вам необходимо будет писать код на Python, если вы кодить не умеете, мы определим вас в команду, где эта экспертиза будет.

Также необходимо знать Linux и иметь навыки работы в кластере Kubernetes.

Хочу прокачаться в SRE

Спикеры курса

Курс основан на реальном опыте специалистов из крупных российских и зарубежных компаний. Программа дорабатывалась с каждым последующим интенсивом. Над данным интенсивом работали:

Павел Селиванов

Архитектор Yandex Cloud

— Десятки выстроенных инфраструктур и сотни написанных пайплайнов CI/CD
— Certified Kubernetes Administrator
— Автор нескольких курсов по Kubernetes и DevOps
— Регулярный докладчик на Российских и международных IT-конференциях

Записи выступлений:
DevOpsDays Moscow
DevOpsConf 2019

Владимир Федорков

Эксперт в области высоких нагрузок

— Спикер Highload++ 2022
— Десятки успешных проектов по подъему нагрузки в США, Европе и России
— Серьезный опыт кризис-менеджмента и ведения инцидентов
— Регулярный докладчик на конференциях и митах

Записи выступлений:
Highload++ 2021
Big Data Days 2021

Максим Гусев

SRE Dodo Engineering

— Тысячи выстроенных пайплайнов CI/CD
— Более 100 инсталляций Kubernetes в продакшен
— Автор нескольких курсов по DevOps и его внедрению

Сергей Бухаров

Head of SRE Process в Dodo Engineering

— .NET и Node.js разработчик
— Технический лидер Dodo Engineering, внедрение культуры SRE
— Спикер конференций HighLoad, DevOps Live, DevOops и Podlodka Crew

Записи выступлений:
Доклад на HighLoad++

Павел Лакосников

Team Lead команды SLA в Авито

– Более 10 лет в разработке
– Фанат метрик
– Регулярный докладчик на конференциях и митапах

Записи выступлений:
Highload++ 2023
Highload++ 2022
PHP Russia 2021

Рассрочка

только для физических лиц

Условия рассрочки:

Процесс оформления:

Начать учиться

Лекции по метрикам
SLO, SLI, SLA

Zoom-трансляция и AMA-cессии

Техподдержка и разбор ошибок

Работа в группах с куратором или спикером

Практика на микросервисном приложении

Доступ к материалам на 2 года

Видео
с теорией

бесплатно

Получить доступ

Участник

22 500 ₽

Оплатить участие

Оплатить от юрлица

при рассрочке от 4 мес.

единовременно

/

90 000 ₽

Zoom-трансляция и AMA-cессии

Техподдержка и разбор ошибок

Работа в группах с куратором или спикером

Практика на микросервисном приложении

Доступ к материалам на 2 года

Видео
с теорией

Как оплатить зарубежной картой?

Особое предложение
для команд от 5 человек

за участника

65 000 ₽

Оставить заявку на команду

Отзывы студентов

Я пришла на курс по SRE, чтобы посмотреть свежим взглядом на процессы в своей команде, задать вопросы про формирование требований SLO, мониторинг и алертинг по ним. После курса договорились с командой о том, за что отвечает лидер инцидента, немного поменяли структуру постмортемов. Раньше некоторые пункты не расписывали. Во время интенсива парень из команды, в которой работали, скинул свой формат постмортема. Когда я заполняла его по прошедшей практике, некоторые проблемы подсветились очень неожиданно именно в тех пунктах, которые мы в команде не писали. Я его утащила в свою рабочую команду. Еще сейчас мы планируем переосмыслить свои SLO и определить новые качественные метрики, отслеживать по ним error budget.

Валентина, ведущий инженер команды разработки

Интересные докладчики с большим опытом, которые старались отвечать на все вопросы участников. Много практики по разбору инцидентов. Получили много полезной информации и еще раз напомнили себе, что к инцидентам нужно готовиться и регулярно тренироваться. Узнали про выбор SLO, а именно, что это напрямую касается пользователя. SLO — уровень счастья/удовлетворенности клиент от сервиса. Еще один вывод после курса — нужно проводить регулярные ретро по инцидентам. Там же обсуждать задачи по повышению надежности системы. Пошли бы еще раз? Да. Жалко ли потраченного времени? Нет.

Команда ДОДО

Мне было интересно понять эту тему. Хотелось сэкономить время на прочтении и понимании книги. Цели посещения достиг: какие-то практики у нас работали до, что-то заставило задуматься. Метрики были рассказаны интересно, я их уже начал использовать.

Андрей, старший системный администратор

Наверное, около года назад стала задумываться, что хочу узнать, что такое SRE и с чем его едят. До книжки от «Гугла» так и не добралась, потому что свободного времени всегда очень мало, а курс от Slurm самое то. Моей основной задачей было понять, хочу ли я развиваться в сторону SRE или мне достаточно DevOps'а. Также хотела получить более глубокие знания об SRE, узнать, какие методологии используются, увидеть примеры из жизни.
Организаторам отдельное спасибо! Я не первый раз уже восхищаюсь организацией в «Слёрме». Заранее было известно примерное расписание каждого дня, спикеры и организаторы придерживались тайминга и практически не вылезали за рамки. В целом интенсив мне понравился: я узнала что-то новое, понравились некоторые методики по мониторингу. Захотелось внедрить несколько решений из курса. И новый взгляд на постмортем. Отлично раскрыли эту тему на курсе, и тоже сразу захотелось внедрить всё на работе.

Юлия, DevOps-инженер

Много говорили про процессы, много опыта получилось от спикера получить, было немного шероховатостей на практике, в целом потрогали технологии. Круто, что можно быстро получить обратную связь от спикера. Сам курс организован профессионально, все по делу и интенсивно. Уже работаем над внедрением мониторинга в команде. Понравились темы про Error budget и Grafana.

Юрий

На курсе дали возможность пощупать и обсудить технологии. Удачно собрали команду — по итогу масса планов на внедрение. Я получила багаж знаний в живой форме и с практикой, дальше с ним можно самостоятельно развиваться.

Спасибо и за проработку начальника и за написание постмортемов и за хитрые уловки с коммитами и задачами на отвлечение внимания. Большое спасибо за продуктивное времяпровождение!

Яна

Отмечу формат, команду и атмосферу. Спикеры огонь. Очень понравилось упражнение про актуальность алертов (левое задание и повторная поломка тем же самым методом) и лекция «Инструменты варрума и alert-менеджмента. В целом очень классная система эмуляции проблем.

Было интересно. Получил кучу инсайтов от коллег. Теперь знаю, как определить SLO и error budget. Хочется больше текстовой информации, потому что самому писать шпаргалки лениво😊

Никита

Понравились спикеры и то, что мы решали проблемы командой. В целом курс понравился, вся команда отлично отработала, было очень интересно и полезно, ни в коем случае не жалею, что попал. Спасибо большое! Оперативность и отзывчивость всей команды

Знания преподавателей / лекторов — сразу видно, что люди с опытом работы в индустрии. Много интересного узнал во время QA сессий. Лекции были отличные, с конкретикой. Очень полезными для меня стали лекции по Agro CD. Хотелось бы больше таких по всем темам. Насчёт практики тоже, в целом понравилось. Команда на практиках подобралось отличная, ментор помогал супер, отдельное спасибо — очень понравилось.

Артём

Если прод горит, компания теряет деньги и хочет срочно стабилизировать ситуацию, хочет получить знания, как все починить и настроить — этот курс подойдет. Я бы также порекомендовал его только для продвинутых разработчиков, админов без хороших знаний здесь сложно выполнять занятия. Курс по Прометею, наверное, нужно было сделать доступ пораньше, чтобы успеть его пройти. Курс помог разобраться с SLO и SLI.

Дмитрий

Отзывы студентов

Я пришла на курс по SRE, чтобы посмотреть свежим взглядом на процессы в своей команде, задать вопросы про формирование требований SLO, мониторинг и алертинг по ним. После курса договорились с командой о том, за что отвечает лидер инцидента, немного поменяли структуру постмортемов. Раньше некоторые пункты не расписывали. Во время интенсива парень из команды, в которой работали, скинул свой формат постмортема. Когда я заполняла его по прошедшей практике, некоторые проблемы подсветились очень неожиданно именно в тех пунктах, которые мы в команде не писали. Я его утащила в свою рабочую команду. Еще сейчас мы планируем переосмыслить свои SLO и определить новые качественные метрики, отслеживать по ним error budget.

Валентина, ведущий инженер команды разработки

Интересные докладчики с большим опытом, которые старались отвечать на все вопросы участников. Много практики по разбору инцидентов. Получили много полезной информации и еще раз напомнили себе, что к инцидентам нужно готовиться и регулярно тренироваться. Узнали про выбор SLO, а именно, что это напрямую касается пользователя. SLO — уровень счастья/удовлетворенности клиент от сервиса. Еще один вывод после курса — нужно проводить регулярные ретро по инцидентам. Там же обсуждать задачи по повышению надежности системы. Пошли бы еще раз? Да. Жалко ли потраченного времени? Нет.

Команда ДОДО

Мне было интересно понять эту тему. Хотелось сэкономить время на прочтении и понимании книги. Цели посещения достиг: какие-то практики у нас работали до, что-то заставило задуматься. Метрики были рассказаны интересно, я их уже начал использовать.

Андрей, старший системный администратор

Наверное, около года назад стала задумываться, что хочу узнать, что такое SRE и с чем его едят. До книжки от «Гугла» так и не добралась, потому что свободного времени всегда очень мало, а курс от Slurm самое то. Моей основной задачей было понять, хочу ли я развиваться в сторону SRE или мне достаточно DevOps'а. Также хотела получить более глубокие знания об SRE, узнать, какие методологии используются, увидеть примеры из жизни.

Организаторам отдельное спасибо! Я не первый раз уже восхищаюсь организацией в «Слёрме». Заранее было известно примерное расписание каждого дня, спикеры и организаторы придерживались тайминга и практически не вылезали за рамки. В целом интенсив мне понравился: я узнала что-то новое, понравились некоторые методики по мониторингу. Захотелось внедрить несколько решений из курса. И новый взгляд на постмортем. Отлично раскрыли эту тему на курсе, и тоже сразу захотелось внедрить всё на работе.

Юлия, DevOps-инженер

Много говорили про процессы, много опыта получилось от спикера получить, было немного шероховатостей на практике, в целом потрогали технологии. Круто, что можно быстро получить обратную связь от спикера. Сам курс организован профессионально, все по делу и интенсивно. Уже работаем над внедрением мониторинга в команде. Понравились темы про Error budget и Grafana.

Юрий

На курсе дали возможность пощупать и обсудить технологии. Удачно собрали команду — по итогу масса планов на внедрение. Я получила багаж знаний в живой форме и с практикой, дальше с ним можно самостоятельно развиваться.

Спасибо и за проработку начальника и за написание постмортемов и за хитрые уловки с коммитами и задачами на отвлечение внимания. Большое спасибо за продуктивное времяпровождение!

Яна

Отмечу формат, команду и атмосферу. Спикеры огонь. Очень понравилось упражнение про актуальность алертов (левое задание и повторная поломка тем же самым методом) и лекция «Инструменты варрума и alert-менеджмента. В целом очень классная система эмуляции проблем.

Было интересно. Получил кучу инсайтов от коллег. Теперь знаю, как определить SLO и error budget. Хочется больше текстовой информации, потому что самому писать шпаргалки лениво😊

Никита

Понравились спикеры и то, что мы решали проблемы командой. В целом курс понравился, вся команда отлично отработала, было очень интересно и полезно, ни в коем случае не жалею, что попал. Спасибо большое! Оперативность и отзывчивость всей команды

Знания преподавателей / лекторов — сразу видно, что люди с опытом работы в индустрии. Много интересного узнал во время QA сессий. Лекции были отличные, с конкретикой. Очень полезными для меня стали лекции по Agro CD. Хотелось бы больше таких по всем темам. Насчёт практики тоже, в целом понравилось. Команда на практиках подобралось отличная, ментор помогал супер, отдельное спасибо — очень понравилось.

Артём

Если прод горит, компания теряет деньги и хочет срочно стабилизировать ситуацию, хочет получить знания, как все починить и настроить — этот курс подойдет. Я бы также порекомендовал его только для продвинутых разработчиков, админов без хороших знаний здесь сложно выполнять занятия. Курс по Прометею, наверное, нужно было сделать доступ пораньше, чтобы успеть его пройти. Курс помог разобраться с SLO и SLI.

Дмитрий

Менеджер по продажам

Альберт Матюхин

Нужна консультация?

Обсудим ваши цели и ответим на вопросы

Отправляя форму, я соглашаюсь с Политикой Конфиденциальности Слёрм и предоставляю Согласие на обработку персональных данных и аудио- и видеорелиз

Комплект

Купить за 140 000 ₽

Комплект видеокурсов

Выгода 25 000 ₽

30 000 ₽

Поток

Курс для тех, кто хочет обеспечить, контролировать и поддерживать надежную работу сервиса

Мониторинг в Grafana

90 000 ₽

Поток

Продвинутый уровень для тех, кто освоил Kubernetes Базу или активно работает с Kubernetes

SRE, data-driven

45 000 ₽

Поток

Для SRE-инженеров, которые хотят взять под контроль состояние системы

SRE: Observability

Подробнее

Углубленный курс о продвинутых SRE- метриках. Вы узнаете, как выбрать технические метрики оценки надежности для своего сервиса SLO и SLI, научитесь их отслеживать, а также увидите вживую, как они деградируют.

SRE Observability

это может быть интересно

SiteReliabilityEngineering

О курсе

научитесь быстро поднимать продакшн силами команды;

поймете, какие метрики собирать и как это делать правильно;

узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;

внедрите правки прямо в прод;

узнаете, как снизить ущерб от отказов в будущем.

Кому полезно

В результате обучения

Как проходит курс

Расписание встреч

Подготовка

Спикеры курса

Начать учиться

Отзывы студентов

Отзывы студентов

Комплект

Site
Reliability
Engineering