Интенсив по Anomaly Detection

Прошёл 23-24 сентября

Хардовый инструмент на стыке SRE, Data-инжиниринга, ML, SQL-алхимии и потребностей бизнеса. Дадим доступы к базе данных с подготовленными данными и покажем практики по выявлению аномалий на примере 5 подходов.

+ выявление узких мест в инфраструктуре
+ прогнозирование отказа системы / проседания важных метрик
+ подготовка данных для А/Б-тестов / предиктивных событий
+ 100 к карме вас как сотрудника
Anomaly detection даёт

Выявление аномалий |

Простой анализ логов на примере посещаемости

Избавление от выбросов в данных

Поработаем с логами сайта и попытаемся выявить аномалии в посещаемости сайта / API. Вы можете взять логи вашего собственного веб-сервера Apache/Nginx, но в заготовленных нами данных будут наши логи.

Попробуем найти ситуации, когда часть пользователей находится на определённых страницах сайта сильно дольше обычного, что может сигнализировать о проблемах с версткой, проблемах с адаптацией сайта (и потому вам нужно развернуть CDN или адаптировать сайт под определенное разрешение экрана и т. д.)
Научим избавляться от выбросов в данных об объемах продаж — например, если мы хотим оптимизировать количество товара на складе, то нам обязательно нужно избавиться от так называемых «выбросов» для дальнейшей работы с данными.

Фильтрация неподходящих для анализа данных

Выявим аномалии в данных о звонках (для этого в подготовленной нами базе данных есть выгрузка из телефонии) — ведь бывают очень длинные, либо очень короткие звонки и их нужно уметь отфильтровывать.

Дополнительное задание: на примере предоставленных данных найти аномалии в звонках с учетом их типа — часто, например, надо разделить звонки на целевые/нецелевые звонки — и если для нецелевых звонков короткие звонки это нормально, то для целевых звонков важно отследить слишком короткие.

Аномалии как симптомы неисправности инфраструктуры

Инженерная задача — следим за собственной инфраструктурой: мы разберём аномалии в логах выполнения DAG’ов в Airflow.

Мы предоставим бекап PostgreSQL, в котором хранятся данные по выполнению дагов и научим находить аномалии во времени выполнения этих дагов — большое или растущее время выполнения может говорить о неисправности в вашей инфраструктуре.

Мы рассмотрим 4 кейса

Выбросы — это ситуации, когда есть данные о продажах определенного товара, но при этом в какие-то дни этот товар продался сильно больше обычного, потому что, например, случались крупные корпоративные заказы.
z-оценка
MAD (median absolute deviation)
ККШ
One-Class SVM
Isolation Forest
алгоритмы
ML-модели

Выдаём доступы к базе данных с подготовленными данными и покажем практики по выявлению аномалий на примере 5 подходов

Программа

Спикер курса
Data Engineer в ООО "ПерилаГлавСнаб"
Работает с базами данных (в основном MSSQL) 10 лет (из них 2 на фрилансе и 8 в компании ПГС). Стек: TSQL/PSQL/Python/C++. Последние 5 лет разрабатывает микросервисную архитектуру и занимается аналитикой данных. Успешно помогает бизнесу решать проблемы, связанные с медленной работой баз и с аналитикой больших данных.
Андрей Вильмов
Нужна консультация?
задайте нам свой вопрос