SRE — это не просто человек, который тушит пожары в проде. Это тот, кто строит системы так, чтобы пожаров было меньше. И для этого у него есть свой «набор выживальщика» — инструменты, которые помогают держать инфраструктуру под контролем.
Мониторинг и алертинг
- Prometheus + Grafana — классика. Метрики, дашборды, алерты. Без них вы как пилот без приборной панели.
- VictoriaMetrics — альтернатива Prometheus, потребляет меньше ресурсов.
- Thanos / Mimir — для хранения исторических метрик и федерации Prometheus.
- Alertmanager — помогает не сойти с ума от 1000+ алертов в день.
Управление инфраструктурой
- Terraform — инфраструктура как код, автоматизация всего и вся.
- FluxCD / ArgoCD — GitOps-подход к управлению инфраструктурой.
Конечно, вам не придется работать со всеми инструментами сразу в одном проекте. Но чем больше инструментов вы освоите, тем проще вам строить надёжные, самовосстанавливающиеся системы.