На нашем сайте включены cookies, потому что мы используем услуги Facebook Pixel, Google Analytics и Yandex.Metrika. Вы можете отказаться от них и продолжить пользоваться сайтом.
Ок, не показывать больше
Close
 
На нашем сайте включены cookies, потому что мы используем услуги Facebook Pixel, Google Analytics и Yandex.Metrika. Вы можете отказаться от них и продолжить пользоваться сайтом.
Ок, не показывать больше
Close
Приглашаем на митап "Профессия SRE: практика и мифы", 3 ноября в 19:00
Close
На три дня вы погрузитесь в теорию и практику SRE: разработаете и будете поддерживать сайт, состоящий из нескольких микросервисов.

Научитесь правильно распределять ограниченные ресурсы для обеспечения быстродействия, отказоустойчивости и доступности сайта для максимальной надежности, достаточной, чтобы были довольны пользователи.

SRE

Онлайн-интенсив
ФОРМАТ
онлайн-интенсив
ДАТА
11—13 декабря
Приглашаем на митап
"Профессия SRE: практика и мифы"

Поговорим про SRE, обсудим вопросы:
– Что такое SRE и зачем нужно IT и бизнесу.
– SRE – хайп или проверенный подход .
– Как с этим работать.
– Практики SRE.
– Внедрить у себя.
– Что нужно, чтобы стать SRE-инженером?
На курсе вы будете:
Строить
Сформулируете показатели SLO, SLI, SLA для сайта, состоящего из нескольких
микросервисов, разработаете архитектуру и инфраструктуру, которая их обеспечит,
соберете, протестируете и задеплоите сайт, настроите мониторинг и алертинг.

Ломать
Рассмотрите внутренние и внешние факторы ухудшения SLO: ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки. Разберетесь в устойчивости, error budget, практике тестирования, управлении прерываниями и операционной
нагрузкой.

Чинить
Организуете работу группы по ликвидации аварии в минимальные сроки: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Имитация реальных условий: восстановление работоспособности сервиса в условиях предельно ограниченного времени.

Изучать

Разберете подход к сайту с точки зрения SRE. Проанализируете инциденты (причины возникновения, ход устранения). Примете решение по их дальнейшему предотвращению: улучшить мониторинг, изменить архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируете процессы.
Практика на интенсиве:
Теория и практика применения SLI/SLO/error budget
— формулирование показателей;
— когда «право на ошибку» исчерпано.
Практика проведения разбора полетов (post-mortem)
— ключевые вопросы, на которые стоит ответить;
— разбор инцидента без поиска виноватых (blameless-практики);
— выявление паттернов аварийных сценариев.
Практика эффективной ликвидации
IT-инцидентов
— алгоритм управления стрессом;
— взаимодействие между участниками инцидента;
— подход к коммуникации с пользователями, руководством, маркетингом и коллегами.
Практика построения надежных систем:
— мониторинг и алертинг;
— выбор надежной архитектуры и коммуникаций;
— graceful degradation, failure-injection, capacity planning;
— как справляться с перегрузками и предотвращать cascading failures.
Требования к участникам:
Свободное владение Linux;
Любой язык программирования: уровень Junior;
GitLab: навыки автоматизации;
Prometheus: навыки мониторинга;
Kubernetes: навыки работы в кластере.

Если у вас нет навыков работы в Kubernetes, вы можете принять участие в предстоящих интенсивах База и Мега Kubernetes или пройти видеокурсы Kubernetes.
Спикеры курса
Иван Круглов
Staff Software Engineer в Databricks


Имеет опыт в enterprise компаниях по:
— распределенной доставке и обработке сообщений;
— BigData и web-stack;
— поиску;
— построению внутреннего облака;
— service mesh.


Павел Селиванов
Senior DevOps Engineer в Mail.ru Cloud Solutions

— На счету десятки выстроенных инфраструктур и сотни написанных пайплайнов CI/CD
— Сертифицированный администратор Kubernetes
— Автор нескольких курсов по Kubernetes и DevOps
— Регулярный докладчик на Российских и международных
IT-конференциях

Артём Артемьев
Lead SRE в Inspectorio

Знает, как помочь команде встретиться с SLI и жить дружно
Имеет успешный опыт в:
— Инцидент-менеджменте и мониторинге сложных решений
— Perfomance-тестировании и борьбе за каждый RPS

Программа SRE

Интенсив пройдёт 11—13 декабря 2020. Каждый день начинаем в 10:00, проверка связи в 9:45. По расписанию занятия идут до 19:00 с перерывом на обед.
Программа может незначительно
меняться без потери ценности.
Тема №1: Основные принципы и методы SRE
  • Что нужно чтобы стать SRE?
  • DevOps vs SRE
  • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
  • SLI, SLO и SLA
  • Error budget и его роль в SRE
Тема №2: Дизайн распределенных систем
  • Архитектура и функционал приложения
  • Non-Abstract Large System Design
  • Operability / Design for failure
  • gRPC или REST
  • Версионирование и обратная совместимость
Тема №3: Как принимают проект SRE
  • Лучшие практики от SRE
  • Чек-лист приема проекта
  • Логирование, метрики, трейсинг
  • Забираем CI/CD в свои руки
Тема №4: Проектирование и запуск распределенной системы
  • Обратное проектирование — как работает система?
  • Согласовываем SLI и SLO
  • Практика capacity planning
  • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
  • Запускаем Prometheus, Grafana, Elastic
Тема №5: Monitoring, Observability and Alerting
  • Monitoring vs. Observability
  • Настраиваем мониторинг и алертинг с Prometheus
  • Практический мониторинг SLI и SLO
  • Symptoms vs. Causes
  • Black-Box vs. White-Box Monitoring
  • Распределенный мониторинг доступности приложений и серверов
  • 4 золотых сигнала (обнаружение аномалий)
Тема №6: Практика тестирования надежности систем
  • Работа под давлением
  • Failure-injection
  • Chaos Monkey
Тема №7: Практика incident response
  • Алгоритм управления стрессом
  • Взаимодействие между участниками инцидента
  • Постмортем
  • Knowledge sharing
  • Формирование культуры
  • Контроль неисправностей
  • Проведение blameless разбора полетов
Тема №8: Практика управления нагрузкой
  • Балансировка нагрузки
  • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
  • DDoS (создаем нагрузку) + Cascading Failures
Тема №9: Реагирование на инциденты
  • Разбор полетов
  • Практика On-Call
  • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
  • Протоколы управления инцидентами
Тема №10: Диагностика и решение проблем
  • Журналирование
  • Отладка
  • Практика анализа и отладки на нашем приложении
Тема №11: Тестирование надежности систем
  • Нагрузочное тестирование
  • Тестирование конфигураций
  • Тестирование производительности
  • Canary release
Тема №12: Самостоятельная работа и ревью
  • Реальные кейсы
  • Проверка спикерами
Сколько стоит SRE


В стоимость входит:
— доступ к конференции в Zoom и ее запись,
— доступ в телеграм-канал Слёрма,
— доступ в git Слёрма,
— стенд для практики,
— помощь спикеров и саппортов в выполнении заданий.

Возможна рассрочка.
70 000 руб.
Специальное предложение
Осталось 14 мест из 30

Оставить заявку
90 000 руб.
Полная стоимость интенсива

Даты интенсива:
11–13 декабря 2020
Заявка на участие
Имя и фамилия
Электронная почта
Телефон или логин в telegram
Комментарий
Нажимая кнопку, вы даете согласие на обработку ваших персональных данных и соглашаетесь с политикой конфиденциальности