В 2007 году в дата-центр компании Rackspace врезался внедорожник. Водитель потерял сознание за рулем, и машина вылетела за пределы дорожного полотна. Из-за аварии был поврежден центр энергетической инфраструктуры.
Запасная система энергоснабжения сработала сразу, но основная система охлаждения не запустилась. Оборудование быстро перегрелось, и сотрудникам пришлось отключить все, чтобы система не вышла из строя.
Вот так работает Chaos Engineering на практике.
А вы сталкивались с непредсказуемыми причинами сбоев в системе? Расскажите нам о самом странном из них!
Заполните форму, и мы выберем три случайных истории с помощью рандомайзера. Авторы получат в подарок бесплатныйдоступ к видеокурсу «Chaos Engineering».
Всех остальных участников конкурса ждет скидка 10% на обучение на курсе. Чтобы поделиться своей историей, заполните форму обратной связи. Итоги конкурса проведем 19 апреля в телеграм-канале Слёрм.
В 2007 году в дата-центр компании Rackspace врезался внедорожник. Водитель потерял сознание за рулем, и машина вылетела за пределы дорожного полотна. Из-за аварии был поврежден центр энергетической инфраструктуры.
Запасная система энергоснабжения сработала сразу, но основная система охлаждения не запустилась. Оборудование быстро перегрелось, и сотрудникам пришлось отключить все, чтобы система не вышла из строя.
Вот так работает Chaos Engineering на практике.
Крупные компании ищут сотрудников, которые умеют тестировать системы. А мы запускаем видеокурс, который поможет вам расширить стек технологий и получить новый полезный навык.
Иннотех
Яндекс
Островок.ру
Сбер
Сколько денег вы теряете, если баг будет обнаружен не на этапе тестирования, а в продакшене?
С увеличением количества компонентов и взаимосвязей возрастает сложность систем, а, следовательно, и риск непредвиденного поведения системы. Если баг будет обнаружен не на этапе тестирования, а в про-дакшене, компания столкнется со следующими затратами:
Потери времени и ресурсов на расследование проблемы и выявление причин ее возникновения
Затраты на возмещение ущерба клиентам, если это применимо
Потери прибыли и репутации из-за проблем в работе продукта
Рассчитайте сами
Вы можете воспользоваться формулой экспертов Netflix:
Cost of outages preventable by chaos - Cost of chaos indused harm - Cost of effort doing chaos
Cost of chaos indused harm + Cost of effort doing chaos
ROI =
Или возьмите число инцидентов за определенный период и число потерянных транзакций пользователей. Разберите проблемы, которые были, а затем посчитайте в человекоднях / часах стоимость их проверки при выкатывании новой версии.
Результаты обучения
Понимаю, зачем разбираться в Chaos Engineering и какие эксперименты существуют.
1
4
2
5
Разбираюсь в инструментах реализации экспериментов и знаю, как выбрать подходящий.
Получил навык тестирования нескольких гипотез в рамках нескольких экспериментов.
Понимаю, как генерить гипотезы.
Могу объяснить результаты экспериментов руководству.
Могу научить коллег этому подходу.
3
6
Результаты внедрения Chaos Engineering
С помощью Chaos Engineering компании снижают вероятность крупных сбоев и потерь, что приводит к увеличению прибыли и улучшению репутации.
Проведение тестов и экспериментов улучшает устойчивость систем к различным нештатным ситуациям. Вы сможете обнаружить слабые места в работе системы и проблемы, которые могут привести к крупным сбоям. Это позволит компании принять меры заранее и предотвратить возможные проблемы.
Снизите риски
Повысите надёжность
Работая с Chaos Engineering вы будете лучше понимать свой продукт и быстрее реагировать в нестандартных ситуациях.
Ваша система станет более устойчивой к инцидентам по сравнению с другими игроками рынка.
Повысите скиллы сотрудников
Повысите конкурентоспособность
Программа
Overview технологии Chaos Engineering: Разбираем каждую из проблем (деградация сети, забивание диска логами и др.). Почему именно эта проблема может случиться, и каким видом эксперимента мы можем это повторить. Определяем ожидаемый результат и думаем, как проверить, что он трастовый.
Практика: Закрепление теоретических знаний
Результат: Узнаем историю появления методологии Chaos Engineering-а, познакомимся с основными этапами при внедрении, формализуем эксперименты
Знакомимся с инструментами. Практика по Chaos Blade. Знакомство с системой, первоначальная настройка, запуск. Обзор тулзов gremlin.com, netflix.
Практика Пулим докер образ приложения. Настраиваем первый эксперимент, изучаем команды запуска, остановки эксперимента и др.
Запускаем несколько экспериментов на тестовом микросервисном приложении: проводим эксперименты на сетевом уровне, устроим недоступность сервисов, баг в приложении и различные ресурсные эксперименты, (высокая нагрузка на CPU, OutOfMemory и др.).
Работа с Cloud native приложениями. По каждому типу уязвимостей вырабатываем гипотезу, проводим эксперимент и делаем выводы.
Денис Воронов
Руководитель группы инженеров платформы разработки/DevOps Опыт 15+ лет ИТ (инфраструктура, администрирование, devops, ит-процессы)
Развивает корпоративную платформу разработки, внедряет новые практики, технологии и процессы для ИТ
Все это под руководством опытного наставника
Кому подойдет курс
специалистам по надёжности (SRE) и мониторингу
middle, senior / senior+ разработчикам
тимлидам и техлидам
инженерам инфраструктур-ных платформ
архитекторам
Как настроить и провести первые эксперименты Chaos Engineering
Купить курс
видеокурс
Chaos Engineering
7 500 ₽/мес
прирассрочкеот 4 месяцев или 30 000 ₽ единовременно
Углубленный курс о продвинутых SRE- метриках. Вы узнаете, как выбрать технические метрики оценки надежности для своего сервиса SLO и SLI, научитесь их отслеживать, а также увидите вживую, как они деградируют.
В результате обучения на курсе вы сможете составить план действий по внедрению SRE в своей компании, поймёте, как коммуницировать с бизнесом и коллегами в случае аварии, как принимать сервисы на поддержку.