Говорят, что читать полезно. Что ж, предлагаем удвоить пользу с помощью подборки статей о Site reliability engineering. В материалах ниже вы найдете информацию о внедрении SRE, вариантах применения отдельных практик, а также полезные кейсы от нескольких компаний.
Slack для автоматического управления инцидентами
О том, как Airbnb автоматизировала управление инцидентами в своём сложном и быстроразвивающемся скоплении микросервисов с помощью Slack. Теперь на оповещение об уязвимостях они тратят несколько минут вместо нескольких часов. Читать: https://habr.com/ru/company/southbridge/blog/525 176/
«Цель SRE — надёжная система». Обзор основных метрик SRE
Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году. Читать: https://habr.com/ru/company/southbridge/blog/525 176/
Как внедрить Site Reliability Engineering (SRE) в компании
В статье разбираемся, зачем компании Site Reliability Engineering (SRE) и когда его применять. Также здесь расписаны шаги, которые помогут обычному инженеру или разработчику внедрить SRE в своей компании. Читать: https://habr.com/ru/company/southbridge/blog/673 854/
А ваша организация задумывается о надежности? Уроки Google SRE
Еще один полезный материал от Google. Там много думают о надёжности продуктов, и некоторые аспекты этой философии хорошо изучены. Например, принципы проектирования продукта или системы. При этом мало кто задумывается о том, как влияют на надёжность продукта культура и менталитет в организации. В этой статье SRE-инженеры компании расскажут о том, как оценить культуру надёжности в вашей организации и какой она должна быть. Читать: https://habr.com/ru/company/southbridge/blog/697 124/
Внедрять или не внедрять. Развеиваем главные мифы о SRE
Полезная статья для тех, кто находится только на старте внедрения SRE или сомневается в его необходимости. Мы собрали самые часто встречаемые мифы и вопросы о внедрении SRE и обучении его инструментам. Ответить на них нам помог Максим Гусев, Tech Lead SRE, на счету которого тысячи выстроенных пайплайнов CI/CD и более 100 инсталляций Kubernetes в продакшен. Читать: https://habr.com/ru/company/southbridge/blog/691 320/
Как мониторить золотые сигналы SRE
Принципы Site Reliability Engineering (SRE) в последнее время очень популярны, отчасти благодаря знаменитой книге о SRE в Google, где говорится о золотых сигналах, за которыми нужно следить, чтобы наши системы работали быстро и безотказно в любых масштабах. Все понимают, что это важные сигналы, но не все знают, как их отслеживать. Об этом мало где пишут. А между тем собирать эти сигналы гораздо сложнее, чем традиционные данные по ЦП и ОЗУ. У каждого сервиса и ресурса свои метрики, определения и, особенно, инструменты. Читать: https://habr.com/ru/company/southbridge/blog/688 082/
Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженеры
Статья от команды Google. В материале приводятся рекомендации для команд, которые будут определять потенциальные риски для приложения. Определив риски, вы сможете проанализировать их и расставить приоритеты. Читать: https://habr.com/ru/company/southbridge/blog/699 414/
Пять инструментов Site Reliability Engineering
Требования бизнеса к надежности ПО были и остаются неизменными, поскольку люди хотели и хотят пользоваться стабильным продуктом. Однако, за все время существенным изменениям подверглись именно способы обеспечения надежности. Пройден путь от разрозненных действий, когда админы и программисты находились по разные стороны баррикад, до объединивших их DevOps. Следующим шагом стала роль SRE-инженера, задача которого обеспечить надежность и масштабируемость системы. В этой статье пойдет речь о главных инструментах SRE и о том, как они влияют на повышение надежности систем. Читать: https://habr.com/ru/company/southbridge/blog/690 590/