Подписка на курсы Слёрма: 21 курс в полном доступе
Блог Слёрм

Какие скиллы нужны SRE?

Кирилл Борисов, автор канала «Путь SRE». подготовил чек-лист «жёстких навыков», необходимых для работы SRE.

1️⃣ Знания в области системного администрирования и инфраструктуры

  • Сетевые технологии:
  • Понимание того, как работают протоколы, маршрутизация, балансировка нагрузки и другие сетевые элементы, — это основа для успешного мониторинга и масштабирования систем.
  • Работа с серверной инфраструктурой:
  • Знания по настройке и поддержке операционных систем (особенно Linux), управления ресурсами, работы с файловыми системами и системами хранения данных.

2️⃣ Опыт работы с контейнерами и оркестрацией

  • Docker & Kubernetes:
  • Понимание основ контейнеризации и опыт работы с инструментами для оркестрации контейнеров. Kubernetes — это практически стандарт для большинства SRE-команд, и знание его принципов является обязательным.
  • Helm:
  • Знание Helm для упрощения управления приложениями на Kubernetes и автоматизации процессов деплоя.

3️⃣ Знания по автоматизации и инфраструктуре как код

  • Terraform, CloudFormation, Ansible:
  • Опыт написания инфраструктуры как код (IaC), автоматизация процессов развертывания и конфигурации.
  • CI/CD:
  • Навыки настройки и поддержки процессов непрерывной интеграции и доставки с использованием таких инструментов как Jenkins, GitLab CI или CircleCI. Это ключевое для достижения быстрого и безопасного деплоя.

4️⃣ Системы мониторинга и алерты

  • Prometheus & Grafana:
  • Навыки мониторинга инфраструктуры с использованием таких инструментов, как Prometheus (для сбора метрик) и Grafana (для визуализации). Умение настраивать алерты для своевременного реагирования на инциденты.
  • ELK Stack (Elasticsearch, Logstash, Kibana):
  • Умение работать с логами и проводить анализ с помощью инструментов из ELK стека.

Как построить нормальный мониторинг и перестать гадать на кофейной гуще — читайте тут.

5️⃣ Навыки в области высоконадежных систем

  • High Availability (HA) и Fault Tolerance:
  • Умение проектировать и поддерживать отказоустойчивые системы. Понимание принципов избыточности, автоматического восстановления и распределенных систем.
  • Disaster Recovery:
  • Опыт планирования и внедрения стратегий восстановления данных и сервисов после катастроф. Важно уметь быстро восстанавливать систему после сбоев.

6️⃣ Разработка и скриптование

  • Python, Go, Bash:
  • Знание языков программирования, таких как Python и Go, для автоматизации задач и решения проблем, а также уверенное владение Bash для написания скриптов для обработки данных и выполнения команд.
  • CI/CD скрипты:
  • Опыт написания скриптов для автоматизации деплоя, тестирования и мониторинга.

7️⃣ Разработка системы безопасности и защита данных

  • Security Best Practices:
  • Понимание принципов безопасной разработки и администрирования, включая управление доступом, шифрование данных и управление уязвимостями.
  • OAuth, OpenID, и другие протоколы аутентификации:
  • Опыт работы с системами аутентификации и защиты данных.

8️⃣ Набор инструментов для работы с инцидентами

  • PagerDuty, Opsgenie, VictorOps:
  • Опыт использования платформ для управления инцидентами и уведомлений, включая настройку и обработку алертов.
  • Root Cause Analysis (RCA):
  • Умение проводить анализ корневой причины для изучения инцидентов и внедрения мер по предотвращению их повторений.

Некоторые из этих навыков можно освоить на курсе «SRE: Observability».

Изучить программу и занять место на курсе — по ссылке.

Больше полезных материалов — в канале «Путь SRE».
SRE