Митап страшных историй и факапов в АйТи

Жесть!

На митапе были:
  • Виктор Попов
    Техлид DevOps в X5 Group
  • Тимофей Ларкин
    Ведущий инженер в X5 Group
  • Алексей Кузнецов
    Системный архитектор
  • Иван Чувашов
    Администратор баз данных в Southbridge. Ведущий инженер в Okko
  • I значит Incognito
  • Александр Волочнев
    Developer Advocate Lead в Datastax Inc
И рассказывали истории, например, такие:
История о том, как чёрной-чёрной ночью приходит ОММ киллер и прибивает инстанс
Сервер СУБД PostgreSQL, большой жирный сервер. Но один запрос повисает и всё. По таблице, на которой висит запрос, нельзя посчитать количество записей — повисает. Да Бог бы с ним, но эти запросы висят сутками и память утекает. В какой-то момент приходит ОММ киллер и прибивает инстанс PostgreSQL. И, как назло, делает он это ночью...
Как стынет кровь и карма уходит за пределы int32
Четыре часа ночи, я завершаю процесс миграции, вижу, что некоторые примонтированные диски «задублировались» в LVM, удаляю копию, и в тот момент, когда я уже нажимаю enter в консоли виртуализации, я понимаю...
О чудовище, кое порождает х20 журналов предзаписи для логической репликации
Сервер баз данных. Высоконагруженный: примерно 40 тыс. запросов в секунду. Есть таблица, которая содержит 2 млрд строк, нужно удалить 1,5 млрд строк без простоя системы. Мы пишем запрос на sql, который по 10 тыс. записей удаляет строки. Запускаем, всё хорошо работает примерно 1 час. Потом система умирает. Вообще. Явных факапов нет. Явных проблем нет...
История об обновлении кластера стодневного возраста
...я прокатываю обновление по первому хосту, кубелет и контролплейн компоненты перезагружаются и сыпят ворнингами. Ожидаемое поведение. Вот только веб-морда ранчера почему-то показывает не форму логина, а ошибку 401. Ну, ничего, там тесная интеграция с апи куба, закончим обновлять, всё вернётся в норму. Ведь вернётся?..
История о том, как однажды утром пользователи включили компьютеры и увидели незнакомый рабочий стол
Экспериментировал я как-то с автоматизированной установкой винды через PXE. Был у меня стенд из псевдо-сервера и клиента, на сервере я настройки правил, с клиента грузился и проверял. А по умолчанию там надо было успеть нажать какую-то кнопку, чтобы пошла PXE загрузка, и т.к. на момент перезагрузки клиента я порой отвлекался на что-то другое...

Записаться