SRE — это не просто человек, который тушит пожары в проде. Это тот, кто строит системы так, чтобы пожаров было меньше. И для этого у него есть свой «набор выживальщика» — инструменты, которые помогают держать инфраструктуру под контролем.
- Prometheus + Grafana — классика. Метрики, дашборды, алерты. Без них вы как пилот без приборной панели.
- VictoriaMetrics — альтернатива Prometheus, потребляет меньше ресурсов.
- Thanos / Mimir — для хранения исторических метрик и федерации Prometheus.
- Alertmanager — помогает не сойти с ума от 1000+ алертов в день.
- Terraform — инфраструктура как код, автоматизация всего и вся.
- Ansible — настройка серверов без боли и слёз.
- Kubernetes (k8s) — сердце контейнеризированной инфраструктуры.
- Helm — пакетный менеджер для Kubernetes, без него деплои — ад.
- Loki + Grafana — быстрый модно-молодëжный лог-менеджер.
- ELK (Elasticsearch + Logstash + Kibana) — мощный стек для логов, но может потреблять ресурсы как ненасытный демон.
- Jaeger / OpenTelemetry — трассировка запросов, чтобы понимать, где сервисы тормозят.
- NGINX / Envoy / Traefik — балансировка нагрузки и маршрутизация запросов.
- Istio / Linkerd — сервис-меши для сложных микросервисных систем.
- Litmus / Gremlin — chaos engineering, искусственное создание сбоев, чтобы быть готовым к реальным.
- Vault — защищённое хранение секретов (пароли, API-ключи).
- Keycloak / Auth0 — управление аутентификацией и авторизацией.
- Falco — мониторинг безопасности в Kubernetes.
- GitHub Actions / GitLab CI / Jenkins / ArgoCD — автоматические пайплайны деплоя.
- FluxCD / ArgoCD — GitOps-подход к управлению инфраструктурой.
Конечно, вам не придется работать со всеми инструментами сразу в одном проекте. Но чем больше инструментов вы освоите, тем проще вам строить надёжные, самовосстанавливающиеся системы.
Подробнее объясняем на курсе: «SRE: data-driven подход к управлению надёжностью систем». Познакомиться с программой и условиями можно по ссылке.
- Мониторинг и алертинг
- Prometheus + Grafana — классика. Метрики, дашборды, алерты. Без них вы как пилот без приборной панели.
- VictoriaMetrics — альтернатива Prometheus, потребляет меньше ресурсов.
- Thanos / Mimir — для хранения исторических метрик и федерации Prometheus.
- Alertmanager — помогает не сойти с ума от 1000+ алертов в день.
- Управление инфраструктурой
- Terraform — инфраструктура как код, автоматизация всего и вся.
- Ansible — настройка серверов без боли и слёз.
- Kubernetes (k8s) — сердце контейнеризированной инфраструктуры.
- Helm — пакетный менеджер для Kubernetes, без него деплои — ад.
- Логи и трассировка
- Loki + Grafana — быстрый модно-молодëжный лог-менеджер.
- ELK (Elasticsearch + Logstash + Kibana) — мощный стек для логов, но может потреблять ресурсы как ненасытный демон.
- Jaeger / OpenTelemetry — трассировка запросов, чтобы понимать, где сервисы тормозят.
- Управление трафиком и отказоустойчивость
- NGINX / Envoy / Traefik — балансировка нагрузки и маршрутизация запросов.
- Istio / Linkerd — сервис-меши для сложных микросервисных систем.
- Litmus / Gremlin — chaos engineering, искусственное создание сбоев, чтобы быть готовым к реальным.
- Безопасность и управление доступом
- Vault — защищённое хранение секретов (пароли, API-ключи).
- Keycloak / Auth0 — управление аутентификацией и авторизацией.
- Falco — мониторинг безопасности в Kubernetes.
- Автоматизация и CI/CD
- GitHub Actions / GitLab CI / Jenkins / ArgoCD — автоматические пайплайны деплоя.
- FluxCD / ArgoCD — GitOps-подход к управлению инфраструктурой.
Конечно, вам не придется работать со всеми инструментами сразу в одном проекте. Но чем больше инструментов вы освоите, тем проще вам строить надёжные, самовосстанавливающиеся системы.
Подробнее объясняем на курсе: «SRE: data-driven подход к управлению надёжностью систем». Познакомиться с программой и условиями можно по ссылке.