Обсудим ваши цели и текущие знания. Обучение платное
Консультация с менеджером
О курсе
Мы проводим этот практикум для инженеров в восьмой раз. Программа сформирована с участием SRE-инженеров из зарубежных и российских компаний, таких как: Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.
На время обучения вы станете SRE для сервиса покупки билетов в кинотеатр. Решая предложенные кейсы, вы получите представление, чем занимается SRE в реальности.
На интенсиве вы:
узнаете, как снизить ущерб от отказов в будущем.
внедрите правки прямо в прод;
узнаете, как решать конкретные проблемы, связанные с надежностью сервиса;
поймете, какие метрики собирать и как это делать правильно;
научитесь быстро поднимать продакшн силами команды;
SRE-инженером может стать как инженер эксплуатации, так и разработчик.
Во время обучения вы будете много практиковаться, а полученные навыки и знания можно адаптировать и внедрить в любую сферу.
БИЗНЕСУ
SRE решает те же проблемы, что и DevOps: увеличивает скорость выхода новых фич и налаживает процессы в команде. Но основная задача SRE – обеспечить стабильность и надежность работы сервисов, исключая ситуации, когда пользователи жалуются на сбои, а у инженеров «графики зеленые».
На курсе сотрудники получат представление о задачах специалиста по SRE в компании, изучат практики повышения надежности. Новая культура производства приведет к следующим изменениям:
Результаты внедрения SRE-подхода
Снижение процента отказов сервиса
Повышение скорости реагирования на отказы
Снижение рисков при выкате новых фич
Увеличение скорости разработки
SRE подход — это методология работы с цифровыми продуктами. Её задача — через улучшение процессов и автоматизацию уменьшить время простоя и количество ошибок сервиса, делая бизнес, основанный на информационных системах, более предсказуемым и устойчивым.
Чтобы внедрить SRE предстоит:
определить команды разработки, где будет внедряться SRE. Экономический эффект будет максимальным, если эти команды отвечают за решения, генерирующие основную выручку;
обучить лидеров и сотрудников этих команд подходу и инструментам SRE;
сформировать процессы улучшения этих метрик.
выработать политику улучшения этих метрик (подход к мониторингу, бюджет ошибок, соответствующую автоматизацию);
определить метрики, которые будет улучшать SRE, и научиться их замерять;
В результате обучения
Могу настроить:
мониторинг SRE-метрик (SLO, SLI, error budget) для своего сервиса. Понимаю как эти метрики выбрать;
мониторинг SRE-инфраструктурных сервисов. Умею опознавать и решать проблемы с инфраструктурой;
alerting и healthcheck;
разные методы деплоймента, знаю какие инструменты для этого существуют.
пожарную команду в случае инцидента, раздать роли коллегам и выступить лидером. Знаю, какие инцидент сервисы существуют;
надежные коммуникации между сервисами retry, timeout, circuit breaker.
Могу организовать:
Вы сможете составить план действий по внедрению SRE подхода в своей компании. Поймете, как коммуницировать с бизнесом, с коллегами в случае аварии, как принимать сервисы на поддержку.
Каждый понедельник будут открываться видеолекции с теорией для самостоятельного изучения. Полученные знания вы сможете закрепить на практических занятиях по субботам и задать вопросы на встречах со спикерами в течении недели. На изучение теории нужно выделять 2-3 часа в неделю.
Встречи со спикерами и ответы на вопросы
На еженедельных встречах вы сможете получить ответы на свои вопросы и предметнее обсудить применение инструментов SRE в вашей компании.
Практикумы
На субботних практикумах вы сможете закрепить теорию на стендах, работая над практическими кейсами. Вас ждут 4-5 часов насыщенной работы в командах под руководством наставников нашего курса. Это прекрасная возможность применить свои знания на практике и получить ценный опыт работы в команде
Командная работа
На первой встрече курса вы объединитесь в команды, чтобы познакомиться, распределить роли и научиться работать в коллективе. Этот принципа важен, потому что вам необходимо научиться выстраивать командное взаимодействие в соответствии с принципами SRE.
Строим:
Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.
Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, настроим мониторинг и алертинг.
Внутренние и внешние факторы начинают «портить» SLO
Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.
Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.
Ломаем:
Чиним:
incident response
Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?
Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.
Cмотрим на сайт и инциденты с точки зрения SRE
Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения). Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.
Обсудим цели и задачи курса, а также расскажем что такое SRE, распределим на команды.
Открытие 2 теоретических тем:
Тема 1: Мониторинг
Зачем нужен мониторинг
Перцентили
Alerting
Observability
Тема 2: Теория SRE
SLO, SLI, SLA
Durability
Error budget
Практика: Делаем базовый дашборд и настраиваем необходимые алерты
Практика: Добавляем на дашборд SLO/SLI + алерты
Практика: Первая нагрузка системы
Решение 1 кейса: зависимость downstream.
В большой системе существует много взаимозависимых сервисов, и не всегда они работают одинаково хорошо. Особенно обидно, когда с вашим сервисом порядок, а соседний, от которого вы зависите, периодически уходит в down.
Учебный проект окажется именно в таких условиях, а вы сделаете так, чтобы он все равно выдавал качество на максимально возможном уровне.
AMA-сессия и ответы на вопросы
Открывается доступ к 2-му теоретическому модулю:
Решение проблем с окружением и архитектурой
Второй модуль построен вокруг решения двух кейсов: зависимость upstream и проблемы с архитектурой. Спикеры расскажут про управление инцидентами, правила для пожарной команды и работу с постмортерами (post mortem) и дадут шаблоны, которые вы сможете использовать в своей команде.
Вest practiсe других компаний в организации инцидент-менеджмента.
Решение 2 кейса: зависимость upstream.
Одно дело, когда вы зависите от сервиса с низким SLO. Другое дело, когда ваш сервис является таковым для других частей системы. Так бывает, если критерии оценки не согласованы: например, вы отвечаете на запрос в течение секунды и считаете это успехом, а зависимый сервис ждёт всего 500 мск и уходит с ошибкой.
В кейсе обсудим важность согласования метрик и научимся смотреть на качество глазами клиента.
Решение 3 кейса: проблемы с базой данных.
База данных тоже может быть источником проблем. Например, если не следить за replication relay, то реплика устареет и приложение будет отдавать старые данные. Причём дебажить такие случаи особенно сложно: сейчас данные рассогласованы, а через несколько секунд уже нет, и в чём причина проблемы — непонятно.
Через кейс вы прочувствуете всю боль дебага и узнаете, как предотвращать подобные проблемы.
Практика работы с постмортемами
Практика: Пишем постмортем по предыдущему кейсу и разбираем его со спикерами.
AMA-сессия и ответы на вопросы по предыдущим темам.
Открывается доступ к 3-му теоретическому модулю:
Traffic shielding и канареечные релизы
В третьем модуле мы разберем кейс, посвященный проблеме с окружением, а также поэтапно разберем, как внедрять SRE в компании и узнаем опыт компаний, в которых работают спикеры курса.
Тема 5: Health Checking
Health Check в Kubernetes
Жив ли наш сервис?
Exec probes
InitialDelaySeconds
Secondary Health Port
Sidecar Health Server
Headless Probe
Hardware Probe
Тема 6: Способы деплоймента
Тема 7: SRE онбординг проекта
В крупных компаниях нередко формируют отдельную команду SRE, которая берёт на поддержку сервисы других отделов. Но не каждый сервис готов к тому, чтобы его можно было взять на поддержку. Расскажем, каким требованиям он должен отвечать. А также спикеры поделяться опытом, как у них проходило внедрение SRE и на какие грабли они наступали.
Решение 4 кейса: проблема с окружением, билеты купить невозможно.
Задача Healthcheck — обнаружить неработающий сервис и заблокировать трафик к нему. И если вы думаете, что для этого достаточно сделать рутом запрос к сервису и получить ответ, то вы ошибаетесь: даже если сервис ответит, это не гарантирует его работоспособность — проблемы могут быть в окружении.
Через этот кейс вы научитесь настраивать корректный Healthcheck и не пускать трафик туда, где он не может быть обработан.
Подведение итогов
Подготовка
В процессе решения кейсов вам необходимо будет писать код на Python, если вы кодить не умеете, мы определим вас в команду, где эта экспертиза будет.
Также необходимо знать Linux и иметь навыки работы в кластере Kubernetes.
Курс основан на реальном опыте специалистов из крупных российских и зарубежных компаний. Программа дорабатывалась с каждым последующим интенсивом. Над данным интенсивом работали:
— Спикер Highload++ 2022 — Десятки успешных проектов по подъему нагрузки в США, Европе и России — Серьезный опыт кризис-менеджмента и ведения инцидентов — Регулярный докладчик на конференциях и митах
— Десятки выстроенных инфраструктур и сотни написанных пайплайнов CI/CD — Certified Kubernetes Administrator — Автор нескольких курсов по Kubernetes и DevOps — Регулярный докладчик на Российских и международных IT-конференциях
Процесс оформления: 1. Оставляете заявку и получаете на почту анкету для оформления рассрочки. 2. Банк принимает решение в течение нескольких минут. 3. Заключаете сделку с банком онлайн. 4. Мы отправляем кассовый чек на эл. почту и предоставляем доступ к курсу.
Условия рассрочки: Срок: 4 месяца Первый платеж: от 0 руб. Переплата: 0 руб. Вы оплачиваете только стоимость курса, без процентов. Предоставляется только физическим лицам.
Я пришла на курс по SRE, чтобы посмотреть свежим взглядом на процессы в своей команде, задать вопросы про формирование требований SLO, мониторинг и алертинг по ним. После курса договорились с командой о том, за что отвечает лидер инцидента, немного поменяли структуру постмортемов. Раньше некоторые пункты не расписывали. Во время интенсива парень из команды, в которой работали, скинул свой формат постмортема. Когда я заполняла его по прошедшей практике, некоторые проблемы подсветились очень неожиданно именно в тех пунктах, которые мы в команде не писали. Я его утащила в свою рабочую команду. Еще сейчас мы планируем переосмыслить свои SLO и определить новые качественные метрики, отслеживать по ним error budget.
Валентина, ведущий инженер команды разработки
Интересные докладчики с большим опытом, которые старались отвечать на все вопросы участников. Много практики по разбору инцидентов. Получили много полезной информации и еще раз напомнили себе, что к инцидентам нужно готовиться и регулярно тренироваться. Узнали про выбор SLO, а именно, что это напрямую касается пользователя. SLO — уровень счастья/удовлетворенности клиент от сервиса. Еще один вывод после курса — нужно проводить регулярные ретро по инцидентам. Там же обсуждать задачи по повышению надежности системы. Пошли бы еще раз? Да. Жалко ли потраченного времени? Нет.
Команда ДОДО
Мне было интересно понять эту тему. Хотелось сэкономить время на прочтении и понимании книги. Цели посещения достиг: какие-то практики у нас работали до, что-то заставило задуматься. Метрики были рассказаны интересно, я их уже начал использовать.
Андрей, старший системный администратор
Наверное, около года назад стала задумываться, что хочу узнать, что такое SRE и с чем его едят. До книжки от «Гугла» так и не добралась, потому что свободного времени всегда очень мало, а курс от Slurm самое то. Моей основной задачей было понять, хочу ли я развиваться в сторону SRE или мне достаточно DevOps'а. Также хотела получить более глубокие знания об SRE, узнать, какие методологии используются, увидеть примеры из жизни. Организаторам отдельное спасибо! Я не первый раз уже восхищаюсь организацией в «Слёрме». Заранее было известно примерное расписание каждого дня, спикеры и организаторы придерживались тайминга и практически не вылезали за рамки. В целом интенсив мне понравился: я узнала что-то новое, понравились некоторые методики по мониторингу. Захотелось внедрить несколько решений из курса. И новый взгляд на постмортем. Отлично раскрыли эту тему на курсе, и тоже сразу захотелось внедрить всё на работе.
Юлия, DevOps-инженер
Много говорили про процессы, много опыта получилось от спикера получить, было немного шероховатостей на практике, в целом потрогали технологии. Круто, что можно быстро получить обратную связь от спикера. Сам курс организован профессионально, все по делу и интенсивно. Уже работаем над внедрением мониторинга в команде. Понравились темы про Error budget и Grafana.
Юрий
На курсе дали возможность пощупать и обсудить технологии. Удачно собрали команду — по итогу масса планов на внедрение. Я получила багаж знаний в живой форме и с практикой, дальше с ним можно самостоятельно развиваться.
Спасибо и за проработку начальника и за написание постмортемов и за хитрые уловки с коммитами и задачами на отвлечение внимания. Большое спасибо за продуктивное времяпровождение!
Яна
Отмечу формат, команду и атмосферу. Спикеры огонь. Очень понравилось упражнение про актуальность алертов (левое задание и повторная поломка тем же самым методом) и лекция «Инструменты варрума и alert-менеджмента. В целом очень классная система эмуляции проблем.
Было интересно. Получил кучу инсайтов от коллег. Теперь знаю, как определить SLO и error budget. Хочется больше текстовой информации, потому что самому писать шпаргалки лениво😊
Никита
Понравились спикеры и то, что мы решали проблемы командой. В целом курс понравился, вся команда отлично отработала, было очень интересно и полезно, ни в коем случае не жалею, что попал. Спасибо большое! Оперативность и отзывчивость всей команды
Знания преподавателей / лекторов — сразу видно, что люди с опытом работы в индустрии. Много интересного узнал во время QA сессий. Лекции были отличные, с конкретикой. Очень полезными для меня стали лекции по Agro CD. Хотелось бы больше таких по всем темам. Насчёт практики тоже, в целом понравилось. Команда на практиках подобралось отличная, ментор помогал супер, отдельное спасибо — очень понравилось.
Артём
Если прод горит, компания теряет деньги и хочет срочно стабилизировать ситуацию, хочет получить знания, как все починить и настроить — этот курс подойдет. Я бы также порекомендовал его только для продвинутых разработчиков, админов без хороших знаний здесь сложно выполнять занятия. Курс по Прометею, наверное, нужно было сделать доступ пораньше, чтобы успеть его пройти. Курс помог разобраться с SLO и SLI.
Дмитрий
Отзывы студентов
Я пришла на курс по SRE, чтобы посмотреть свежим взглядом на процессы в своей команде, задать вопросы про формирование требований SLO, мониторинг и алертинг по ним. После курса договорились с командой о том, за что отвечает лидер инцидента, немного поменяли структуру постмортемов. Раньше некоторые пункты не расписывали. Во время интенсива парень из команды, в которой работали, скинул свой формат постмортема. Когда я заполняла его по прошедшей практике, некоторые проблемы подсветились очень неожиданно именно в тех пунктах, которые мы в команде не писали. Я его утащила в свою рабочую команду. Еще сейчас мы планируем переосмыслить свои SLO и определить новые качественные метрики, отслеживать по ним error budget.
Валентина, ведущий инженер команды разработки
Интересные докладчики с большим опытом, которые старались отвечать на все вопросы участников. Много практики по разбору инцидентов. Получили много полезной информации и еще раз напомнили себе, что к инцидентам нужно готовиться и регулярно тренироваться. Узнали про выбор SLO, а именно, что это напрямую касается пользователя. SLO — уровень счастья/удовлетворенности клиент от сервиса. Еще один вывод после курса — нужно проводить регулярные ретро по инцидентам. Там же обсуждать задачи по повышению надежности системы. Пошли бы еще раз? Да. Жалко ли потраченного времени? Нет.
Команда ДОДО
Мне было интересно понять эту тему. Хотелось сэкономить время на прочтении и понимании книги. Цели посещения достиг: какие-то практики у нас работали до, что-то заставило задуматься. Метрики были рассказаны интересно, я их уже начал использовать.
Андрей, старший системный администратор
Наверное, около года назад стала задумываться, что хочу узнать, что такое SRE и с чем его едят. До книжки от «Гугла» так и не добралась, потому что свободного времени всегда очень мало, а курс от Slurm самое то. Моей основной задачей было понять, хочу ли я развиваться в сторону SRE или мне достаточно DevOps'а. Также хотела получить более глубокие знания об SRE, узнать, какие методологии используются, увидеть примеры из жизни.
Организаторам отдельное спасибо! Я не первый раз уже восхищаюсь организацией в «Слёрме». Заранее было известно примерное расписание каждого дня, спикеры и организаторы придерживались тайминга и практически не вылезали за рамки. В целом интенсив мне понравился: я узнала что-то новое, понравились некоторые методики по мониторингу. Захотелось внедрить несколько решений из курса. И новый взгляд на постмортем. Отлично раскрыли эту тему на курсе, и тоже сразу захотелось внедрить всё на работе.
Юлия, DevOps-инженер
Много говорили про процессы, много опыта получилось от спикера получить, было немного шероховатостей на практике, в целом потрогали технологии. Круто, что можно быстро получить обратную связь от спикера. Сам курс организован профессионально, все по делу и интенсивно. Уже работаем над внедрением мониторинга в команде. Понравились темы про Error budget и Grafana.
Юрий
На курсе дали возможность пощупать и обсудить технологии. Удачно собрали команду — по итогу масса планов на внедрение. Я получила багаж знаний в живой форме и с практикой, дальше с ним можно самостоятельно развиваться.
Спасибо и за проработку начальника и за написание постмортемов и за хитрые уловки с коммитами и задачами на отвлечение внимания. Большое спасибо за продуктивное времяпровождение!
Яна
Отмечу формат, команду и атмосферу. Спикеры огонь. Очень понравилось упражнение про актуальность алертов (левое задание и повторная поломка тем же самым методом) и лекция «Инструменты варрума и alert-менеджмента. В целом очень классная система эмуляции проблем.
Было интересно. Получил кучу инсайтов от коллег. Теперь знаю, как определить SLO и error budget. Хочется больше текстовой информации, потому что самому писать шпаргалки лениво😊
Никита
Понравились спикеры и то, что мы решали проблемы командой. В целом курс понравился, вся команда отлично отработала, было очень интересно и полезно, ни в коем случае не жалею, что попал. Спасибо большое! Оперативность и отзывчивость всей команды
Знания преподавателей / лекторов — сразу видно, что люди с опытом работы в индустрии. Много интересного узнал во время QA сессий. Лекции были отличные, с конкретикой. Очень полезными для меня стали лекции по Agro CD. Хотелось бы больше таких по всем темам. Насчёт практики тоже, в целом понравилось. Команда на практиках подобралось отличная, ментор помогал супер, отдельное спасибо — очень понравилось.
Артём
Если прод горит, компания теряет деньги и хочет срочно стабилизировать ситуацию, хочет получить знания, как все починить и настроить — этот курс подойдет. Я бы также порекомендовал его только для продвинутых разработчиков, админов без хороших знаний здесь сложно выполнять занятия. Курс по Прометею, наверное, нужно было сделать доступ пораньше, чтобы успеть его пройти. Курс помог разобраться с SLO и SLI.
Вы можете их задать менеджеру заботы о клиентах Марине Бородаевой с помощью формы
это может быть интересно
Углубленный курс о продвинутых SRE- метриках. Вы узнаете, как выбрать технические метрики оценки надежности для своего сервиса SLO и SLI, научитесь их отслеживать, а также увидите вживую, как они деградируют.