Подборка полезных материалов о внедрении SRE

Говорят, что читать полезно. Что ж, предлагаем удвоить пользу с помощью подборки статей о Site reliability engineering. В материалах ниже вы найдете информацию о внедрении SRE, вариантах применения отдельных практик, а также полезные кейсы от нескольких компаний.

Slack для автоматического управления инцидентами

О том, как Airbnb автоматизировала управление инцидентами в своём сложном и быстроразвивающемся скоплении микросервисов с помощью Slack. Теперь на оповещение об уязвимостях они тратят несколько минут вместо нескольких часов.
Читать: https://habr.com/ru/company/southbridge/blog/525 176/

«Цель SRE — надёжная система». Обзор основных метрик SRE

Site Reliability Engineering (SRE) — это одна из форм реализации DevOps. SRE-подход возник в Google и стал популярен в среде продуктовых IT-компаний после выхода одноимённой книги в 2016 году.
Читать: https://habr.com/ru/company/southbridge/blog/525 176/

Как внедрить Site Reliability Engineering (SRE) в компании

В статье разбираемся, зачем компании Site Reliability Engineering (SRE) и когда его применять. Также здесь расписаны шаги, которые помогут обычному инженеру или разработчику внедрить SRE в своей компании.
Читать: https://habr.com/ru/company/southbridge/blog/673 854/

А ваша организация задумывается о надежности? Уроки Google SRE

Еще один полезный материал от Google. Там много думают о надёжности продуктов, и некоторые аспекты этой философии хорошо изучены. Например, принципы проектирования продукта или системы. При этом мало кто задумывается о том, как влияют на надёжность продукта культура и менталитет в организации. В этой статье SRE-инженеры компании расскажут о том, как оценить культуру надёжности в вашей организации и какой она должна быть.
Читать: https://habr.com/ru/company/southbridge/blog/697 124/

Внедрять или не внедрять. Развеиваем главные мифы о SRE

Полезная статья для тех, кто находится только на старте внедрения SRE или сомневается в его необходимости. Мы собрали самые часто встречаемые мифы и вопросы о внедрении SRE и обучении его инструментам. Ответить на них нам помог Максим Гусев, Tech Lead SRE, на счету которого тысячи выстроенных пайплайнов CI/CD и более 100 инсталляций Kubernetes в продакшен.
Читать: https://habr.com/ru/company/southbridge/blog/691 320/

Как мониторить золотые сигналы SRE

Принципы Site Reliability Engineering (SRE) в последнее время очень популярны, отчасти благодаря знаменитой книге о SRE в Google, где говорится о золотых сигналах, за которыми нужно следить, чтобы наши системы работали быстро и безотказно в любых масштабах. Все понимают, что это важные сигналы, но не все знают, как их отслеживать. Об этом мало где пишут. А между тем собирать эти сигналы гораздо сложнее, чем традиционные данные по ЦП и ОЗУ. У каждого сервиса и ресурса свои метрики, определения и, особенно, инструменты.
Читать: https://habr.com/ru/company/southbridge/blog/688 082/

Проверяем реалистичность SLO и анализируем риски, как настоящие SRE-инженеры

Статья от команды Google. В материале приводятся рекомендации для команд, которые будут определять потенциальные риски для приложения. Определив риски, вы сможете проанализировать их и расставить приоритеты.
Читать: https://habr.com/ru/company/southbridge/blog/699 414/

Пять инструментов Site Reliability Engineering

Требования бизнеса к надежности ПО были и остаются неизменными, поскольку люди хотели и хотят пользоваться стабильным продуктом. Однако, за все время существенным изменениям подверглись именно способы обеспечения надежности. Пройден путь от разрозненных действий, когда админы и программисты находились по разные стороны баррикад, до объединивших их DevOps. Следующим шагом стала роль SRE-инженера, задача которого обеспечить надежность и масштабируемость системы. В этой статье пойдет речь о главных инструментах SRE и о том, как они влияют на повышение надежности систем.
Читать: https://habr.com/ru/company/southbridge/blog/690 590/