Я пришла на курс по SRE, чтобы посмотреть свежим взглядом на процессы в своей команде, задать вопросы про формирование требований SLO, мониторинг и алертинг по ним. После курса договорились с командой о том, за что отвечает лидер инцидента, немного поменяли структуру постмортемов. Раньше некоторые пункты не расписывали. Во время интенсива парень из команды, в которой работали, скинул свой формат постмортема. Когда я заполняла его по прошедшей практике, некоторые проблемы подсветились очень неожиданно именно в тех пунктах, которые мы в команде не писали. Я его утащила в свою рабочую команду. Еще сейчас мы планируем переосмыслить свои SLO и определить новые качественные метрики, отслеживать по ним error budget.
Валентина, ведущий инженер команды разработки