Хардовый инструмент на стыке SRE, Data-инжиниринга, ML, SQL-алхимии и потребностей бизнеса. Дадим доступы к базе данных с подготовленными данными и покажем практики по выявлению аномалий на примере 5 подходов.
+ прогнозирование отказа системы / проседания важных метрик
+ подготовка данных для А/Б-тестов / предиктивных событий
+ 100 к карме вас как сотрудника
Anomaly detection даёт
Выявление аномалий |
Простой анализ логов на примере посещаемости
Избавление от выбросов в данных
Поработаем с логами сайта и попытаемся выявить аномалии в посещаемости сайта / API. Вы можете взять логи вашего собственного веб-сервера Apache/Nginx, но в заготовленных нами данных будут наши логи.
Попробуем найти ситуации, когда часть пользователей находится на определённых страницах сайта сильно дольше обычного, что может сигнализировать о проблемах с версткой, проблемах с адаптацией сайта (и потому вам нужно развернуть CDN или адаптировать сайт под определенное разрешение экрана и т. д.)
Научим избавляться от выбросов в данных об объемах продаж — например, если мы хотим оптимизировать количество товара на складе, то нам обязательно нужно избавиться от так называемых «выбросов» для дальнейшей работы с данными.
Фильтрация неподходящих для анализа данных
Выявим аномалии в данных о звонках (для этого в подготовленной нами базе данных есть выгрузка из телефонии) — ведь бывают очень длинные, либо очень короткие звонки и их нужно уметь отфильтровывать.
Дополнительное задание: на примере предоставленных данных найти аномалии в звонках с учетом их типа — часто, например, надо разделить звонки на целевые/нецелевые звонки — и если для нецелевых звонков короткие звонки это нормально, то для целевых звонков важно отследить слишком короткие.
Аномалии как симптомы неисправности инфраструктуры
Инженерная задача — следим за собственной инфраструктурой: мы разберём аномалии в логах выполнения DAG’ов в Airflow.
Мы предоставим бекап PostgreSQL, в котором хранятся данные по выполнению дагов и научим находить аномалии во времени выполнения этих дагов — большое или растущее время выполнения может говорить о неисправности в вашей инфраструктуре.
Мы рассмотрим 4 кейса
Выбросы — это ситуации, когда есть данные о продажах определенного товара, но при этом в какие-то дни этот товар продался сильно больше обычного, потому что, например, случались крупные корпоративные заказы.
Выдаём доступы к базе данных с подготовленными данными и покажем практики по выявлению аномалий на примере 5 подходов
Программа
Обзор аномалий в данных и их важность
Подготовка окружения: установка Python и необходимых библиотек
Выборка данных с использованием SQLAlchemy и сохранение в DataFrame
Визуализация полученных данных, поиск пустых значений, построение гистограммы данных
Методы на основе статистики: z-оценка, MAD (median absolute deviation), ККШ
Обзор методов машинного обучения для поиска аномалий: One-Class SVM, Isolation Forest
Выдаём доступы к базе данных с подготовленными данными, указываем таблицы, к которым можно обратиться, чтобы студенты сами попробовали реализовать поиск аномалий
Спикер курса
Data Engineer в ООО "ПерилаГлавСнаб"
Работает с базами данных (в основном MSSQL) 10 лет (из них 2 на фрилансе и 8 в компании ПГС). Стек: TSQL/PSQL/Python/C++. Последние 5 лет разрабатывает микросервисную архитектуру и занимается аналитикой данных. Успешно помогает бизнесу решать проблемы, связанные с медленной работой баз и с аналитикой больших данных.