На интенсиве мы будем настраивать и поддерживать сайт-агрегатор билетов в кино.

Работоспособность такого сайта описывается множеством метрик, а инциденты имеют самую разную природу. Билеты театра «Звездочка» не подгружаются в базу. Постеры фильмов в 0,1% случаев загружаются из хранилища за 10+ секунд. 0,01% заказов резервируют уже зарезервированное место. На 30 секунд отваливается система обработки платежей.

Все многообразие показателей доступности, быстродействия и отказов мы представляем как единый показатель «счастье пользователя» и учимся им управлять, распределяя ограниченные ресурсы.
Слёрм SRE — как управлять счастьем пользователей
3—5 февраля 2020

Организатор
Southbridge

На нашем сайте включены cookies, потому что мы используем услуги Facebook Pixel, Google Analytics и Yandex.Metrika. Вы можете отказаться от них и продолжить пользоваться сайтом.
Ок, не показывать больше
Close
Строим, ломаем, чиним,
изучаем
Строим:
мы начинаем с создания сайта
Наш учебный сайт состоит из нескольких микросервисов. Он агрегирует данные о сеансах, ценах и свободных местах со всех кинотеатров, показывает анонсы фильмов, дает выбрать кинотеатр, сеанс, зал и место, забронировать и оплатить билеты.

Мы сформулируем показатели SLO, SLI, SLA для этого сайта, разработаем архитектуру и инфраструктуру, которая их обеспечит, соберем, протестируем и задеплоим сайт, настроим мониторинг и алертинг.
Ломаем:
внутренние и внешние факторы начинают «портить» SLO
Ошибки разработчиков, отказы инфраструктуры, наплыв посетителей, DoS-атаки приводят к тому, что SLO ухудшаются.

Разбираем устойчивость, error budget, практику тестирования, управление прерываниями и операционной нагрузкой.
Чиним:
incident responce
Произошла авария. Сервис обработки платежей лег. Как действовать, чтобы восстановить работоспособность в минимальные сроки?

Организуем работу группы по ликвидации аварии: подключение коллег, оповещение интересантов (stakeholders), выстраивание приоритетов. Тренируемся работать под давлением в условиях предельно ограниченного времени.
Изучаем:
смотрим на сайт и инциденты с точки зрения SRE
Разбираем подход к сайту с точки зрения SRE. Анализируем инциденты (причины возникновения, ход устранения).

Принимаем решение по их дальнейшему предотвращению: улучшаем мониторинг, меняем архитектуру, подход к разработке и эксплуатации, регламенты. Автоматизируем процессы.
Что вы получите
на Слёрме SRE
Теорию и практику применения
SLI/SLO/error budget
1
Практику проведения разбора полетов
(post-mortem)
— ключевые вопросы, на которые стоит ответить;
— разбор инцидента без поиска виноватых (blameless-практики);
— выявление паттернов аварийных сценариев.
2
Практику эффективной ликвидации
IT-инцидентов
— алгоритм управления стрессом;
— взаимодействие между участниками инцидента;
— подход к коммуникации с пользователями, руководством, маркетингом и коллегами.
3
Практику построения надежных систем:
— мониторинг и алертинг;
— варианты выбора надежной архитектуры;
— надежные коммуникации: retry, timeout, circuit breaker;
— graceful degradation;
— failure-injection;
— capacity planning;
— как справляться с перегрузками;
— предотвращение cascading failures.
4
Спикеры Слёрма
Слёрм ведут опытные SRE-инженеры.
Иван Круглов
Principal Developer в Booking.com (Нидерланды)

С момента прихода в Booking.com в 2013 работал над такими инфраструктурными проектами, как:
— распределенная доставка и обработка сообщений;
— BigData и web-stack;
— поиск.

Сейчас занимается вопросами построения внутреннего облака и Service Mesh.
Бен Тайлер
Principal Developer в Booking.com (США)

Занимается внутренней разработкой платформы Booking.com.

Специализируется на service mesh / service discovery, batch job scheduling, incident response и postmortem process.

Говорит и преподает на русском.
Эдуард Медведев
CTO в Tungsten Labs (Германия)

Работал инженером в StackStorm, отвечал за ChatOps-функционал платформы. Разрабатывал и внедрял ChatOps при автоматизации дата-центров. Спикер на российских и международных конференциях
Евгений Варавва
Разработчик широкого профиля в Google (Сан-Франциско).
Опыт работы от высоконагруженных веб-проектов до исследований в компьютерном зрении и робототехнике.

С 2011 года занимается в Google созданием и эксплуатацией распределенных систем, участвуя в полном жизненном цикле проекта: концептуализация, дизайн и архитектура, запуск, сворачивание и все промежуточные этапы.
Требования к участнику
Свободное владение Linux
GitLab: навыки автоматизации
Prometheus: навыки мониторинга
Kubernetes: навыки работы в кластере
Если у вас нет навыков работы в Kubernetes, вы можете пройти курс Слёрм Базовый (онлайн или Москва 18-22 ноября).
Для прохождения курса вам понадобится:
Программа* Слёрма SRE
* Программа предварительная. Идет активная работа по ее улучшению и дополнению.

Слёрм SRE проходит с 3 по 5 февраля 2020.
Каждый день начинаем в 10:00, регистрация в 9:30.

По расписанию занятия идут до 19:00.
3-5 февраля
Даты проведения
Темы Слёрма SRE
Программа Слёрма SRE активно развивается. Все указанные темы будут освещены. Порядок тем может меняться, а содержание — дополняться.
Тема №1: Основные принципы и методы SRE
  • Что нужно чтобы стать SRE?
  • DevOps vs SRE
  • Почему разработчики ценят SRE и очень грустят, когда в проекте их нет
  • SLI, SLO и SLA
  • Error budget и его роль в SRE
Тема №2: Дизайн распределенных систем
  • Архитектура и функционал приложения
  • Non-Abstract Large System Design
  • Operability / Design for failure
  • gRPC или REST
  • Версионирование и обратная совместимость
Тема №3: Как принимают проект SRE
  • Лучшие практики от SRE
  • Чек-лист приема проекта
  • Логирование, метрики, трейсинг
  • Забираем CI/CD в свои руки
Тема №4: Проектирование и запуск распределенной системы
  • Обратное проектирование — как работает система?
  • Согласовываем SLI и SLO
  • Практика capacity planning
  • Запуск трафика на приложение, наши пользователи начинают им «пользоваться»
  • Запускаем Prometheus, Grafana, Elastic
Тема №5: Monitoring, Observability and Alerting
  • Monitoring vs. Observability
  • Настраиваем мониторинг и алертинг с Prometheus
  • Практический мониторинг SLI и SLO
  • Symptoms vs. Causes
  • Black-Box vs. White-Box Monitoring
  • Распределенный мониторинг доступности приложений и серверов
  • 4 золотых сигнала (обнаружение аномалий)
Тема №6: Практика тестирования надежности систем
  • Работа под давлением
  • Failure-injection
  • Chaos Monkey
Тема №7: Практика incident response
  • Алгоритм управления стрессом
  • Взаимодействие между участниками инцидента
  • Постмортем
  • Knowledge sharing
  • Формирование культуры
  • Контроль неисправностей
  • Проведение blameless разбора полетов
Тема №8: Практика управления нагрузкой
  • Балансировка нагрузки
  • Отказоустойчивость приложений: retry, timeout, failure injection, circuit breaker
  • DDoS (создаем нагрузку) + Cascading Failures
Тема №9: Реагирование на инциденты
  • Разбор полетов
  • Практика On-Call
  • Различные типы аварий (тестирование, изменение конфигурации, сбой оборудования)
  • Протоколы управления инцидентами
Тема №10: Диагностика и решение проблем
  • Журналирование
  • Отладка
  • Практика анализа и отладки на нашем приложении
Тема №11: Тестирование надежности систем
  • Нагрузочное тестирование
  • Тестирование конфигураций
  • Тестирование производительности
  • Canary release
Тема №12: Самостоятельная работа и ревью
Площадка: конференц-зал отеля «Севастополь»
Москва, Большая Юшуньская улица, 1Ак5
Бронирование номеров в корпусе «Модерн» — скидка 10% по промокоду «Слёрм».
Сколько стоит Слёрм SRE
Осталось 55 мест
  • Доступ в зал
  • Обеды и кофе-брейки
  • Записи лекций
  • Доступ в телеграм-канал Слёрма SRE
  • Доступ в git Слёрма SRE
  • Ресурсы для практики
  • Практические задания
  • Помощь спикеров и саппортов в выполнении заданий
Цена
60 000 ₽
Клубная цена
50 000 ₽
Групповая цена (5+ человек от компании)
40 000 ₽
Заявка на участие
Имя
Электронная почта
Телефон
Особая цена
Кто будет оплачивать ваше участие?
Промокод
Я — оформитель, участвовать будут другие люди.
Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь c политикой конфиденциальности.
Практические занятия выполняются на серверах, предоставленных компанией Selectel.

Заказчики не хотят разбираться, как ответственность за сервер делится между провайдером и администратором. От провайдера зависит и репутация, и доходы Southbridge. Когда клиенту нужен сервер, расположенный в России, мы рекомендуем Selectel, потому что считаем его самым надежным и удобным провайдером IT-инфраструктуры. Сейчас мы поддерживаем 58 проектов, размещенных на серверах Selectel.

Спонсор: Selectel
Задать вопрос
Электронная почта
Ваш вопрос
Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь c политикой конфиденциальности.
Контактная информация
Почта: ask@slurm.io
Телефон: +7 (495) 248-05-80
Время работы: 10:00 — 19:00 (Мск)
Получатель платежей:
Номер счёта: 40702810902270002339
Валюта: RUR
Название: Общество с ограниченной ответственностью «Слёрм»
ИНН: 3652901451
КПП: 365201001
Банк: АО «АЛЬФА-БАНК»
БИК: 044525593
Кор. счёт: 30101810200000000593
Юридический адрес компании: улица 40 лет Октября, д. 83б, оф. 4, Воронежская область, р-н Лискинский, г. Лиски

Хотите первыми узнавать новости?
Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь c политикой конфиденциальности.