Учим начинающих дата-сайентистов ориентироваться в ML для решения рабочих задач
поток: старт 30 сентября
Data Science:
введение в машинное обучение
длительность: 4 месяца
4 месяца
Длительность курса
25 минут
Среднее время лекций
132 часа
Нетривиальной практики с реальными датасетами
Без углубления
В математику
На курсе мы разбираем
Основные алгоритмы и задачи классического машинного обучения
Базовые подходы для построения нейронных сетей, фреймворк PyTorch для их написания
Основные библиотеки для анализа данных: numpy, scipy, pandas, matplotlib, scikit-learn
Применение машинного обучения в бизнес-задачах
На курсе вас ждёт финальный проект на выбор
Модель, прогнозирующая потребление электроэнергии
Модель кредитного скоринга, предсказывающая, вернёт ли клиент банка кредит
Свой проект, если спикеры подтвердят, что его можно реализовать в рамках курса
Почему наш курс?
Разбираемся в математике, но не закапываемся в ней. Освоим уровень, нужный для понимания принципов решения ML-задач
Нетривиальная практика, основанная на бизнес-кейсах. Никаких надоевших задач про Титаник, только новые дата-сеты
Вопросы с собеседований. Даём такой материал, что после курса студент сможет претендовать на должность Junior Data Scientist
Нарастающая сложность. Делаем всё, чтобы процесс обучения был посильным для каждого
Короткие лекции с текстовыми расшифровками. Чтобы можно было с пользой проводить время за завтраком или в транспорте
Кому будет полезен курс?
Тем, кто хочет применять Data Science в текущих рабочих задачах
Тем, кто хочет получить профессию Data-сайентиста
Тем, кто работает в ML-команде, но не понимает на каком языке общаются коллеги
Что нужно, чтобы начать учиться?
Владение Python или другим высокоуровневым языком: настройка рабочего окружения, базовый синтаксис, циклы, условия, основные структуры данных
После курса вы сможете
Оценивать качество моделей с использованием метрик для задач регрессии и классификации, а также выбирать подходящие методы оценки для конкретных задач
Преобразовывать бизнес-задачи в задачи машинного обучения и выбирать алгоритмы для их решения
Работать с пропущенными данными и данными различных типов, применяя соответствующие методы обработки
Обучать и оптимизировать ML-модели с использованием Scikit-learn, XGBoost, LightGBM и CatBoost
Строить графики и визуальные представления данных для принятия решений
Применять алгоритмы kNN, Linear Regression, Logistic Regression, Clustering, Decision Trees, Gradient Boosting
Анализировать и визуализировать большие объёмы данных с помощью JupyterLab, NumPy, SciPy, Pandas, и Matplotlib
Решаем бизнес-кейсы по построению моделей предсказания:
Стоимости продажи дома
Времени доставки еды
Спроса на товары в e-com
Какие инструменты освоите?
Библиотеки
Алгоритмы
Pandas
Numpy
Matplotlib
Scikit-learn
Xgboost
Lightgbm
Catboost
Hyperopt
KNN
Linear Regression
Logistic Regression
Clusterization
Decision Tree
Gradient Boosting
Начни учиться бесплатно
Познакомьтесь с материалами и спикерами курса. Демо-курс доступен 3 дня.
Спикеры курса
Иван Аникин
Team Lead Yandex.Edadeal
  • Суммарный опыт в области DS более 6 лет
  • Отвечал за разработку и запуск ML-проектов в Yandex, Sber, SberDevices, Лента
Владимир Бугаевский
Team Lead Купер
  • Опыт в индустрии: 6+ лет
Подробнее о спикере
Подробнее о спикере
  • Консультировал стартапы и крупные компании по разработке и использованию ML-based-сервисов
  • Главный виновник расширения зоопарка технологий, а также подхода «Давайте попробуем вон ту штуку»
  • До этого разрабатывал рекомендательную систему VK Пульс
  • Сейчас руководит командой Поиска в Купер
  • Преподаватель курсов по ML и Python в МГУ, ВШЭ, VK Образование, OzonMasters, AI Masters
Реализовал IaC для AWX в enterprise
Иван Аникин
Team Lead Yandex.Edadeal
  • Суммарный опыт в области DS более 6 лет
  • Отвечал за разработку и запуск ML-проектов в Yandex, Sber, SberDevices, Лента
  • Консультировал стартапы и крупные компании по разработке и использованию ML-based-сервисов
  • Главный виновник расширения зоопарка технологий, а также подхода «Давайте попробуем вон ту штуку»
Владимир Бугаевский
Team Lead СберМаркет
  • Опыт в индустрии: 6+ лет
  • До этого разрабатывал рекомендательную систему VK Пульс
  • Сейчас руководит командой Поиска в СберМаркете
  • Преподаватель курсов по ML и Python в МГУ, ВШЭ, VK Образование, OzonMasters, AI Masters
Программа
3–6 часов теории
3 встречи со спикерами
5
2
онлайн встреч
недели
1 финальная
на сдачу домашней работы
132 часа практики
201
час всего
69 часов теории
~13
часов в неделю
6–9 часов практики
1 установочная
Шаг 1
Смотрим видео с теорией
Шаг 2
Шаг 3
Шаг 4
Шаг 5
Делаем практические задания на стендах в личном кабинете
Обсуждаем задания в чате с другими участниками
Встречаемся со спикерами и задаём вопросы
Защищаем итоговый проект
1.1. Введение. Структура курса
1.2. Инструкции по работе с практическими заданиями
1.3. Цикл разработки модели и специалисты в сфере анализа данных
1.4. Настройка рабочего окружения
1.5. Библиотека NumPy
1.6. Библиотека Pandas
1.7. Итоги
Установочная встреча в 19:00
встреча
2.1. Введение
2.2. Качество данных и типы данных
2.3. Приемы анализа данных - сводные показатели
2.4. Приемы анализа данных - визуализация
2.5. Итоги
2.6. Практика
3.1. Введение
3.2. Постановка задачи машинного обучения
3.3. Алгоритм k-ближайших соседей
3.4. Взвешенный алгоритм k-ближайших соседей
3.5. Виды расстояний и проблемы метода k-ближайших соседей
3.6. Итоги
3.7. Практика
Установочная встреча в 19:00 по темам 1−3
встреча
4.1. Введение
4.2. Валидация модели
4.3. Подготовка данных. Пропущенные значения
4.4. Подготовка данных. Категориальные признаки
4.5. Подготовка данных. Численные признаки
4.6. Итоги
4.7. Практика
5.1. Введение
5.2. Линейная регрессия
5.3. Аналитическое решение
5.4. Алгоритм градиентного спуска
5.5. Регуляризация линейных моделей
5.6. Метрики качества регрессии
5.7. Итоги
5.8. Практика
6.1. Логистическая регрессия
6.2. Метрики качества классификации
6.3. Многоклассовая классификация
6.4. Итоги
6.5. Практика
Установочная встреча в 19:00 по темам 4−6
встреча
7.1. Введение
7.2. Деревья решений
7.3. Ансамблирование алгоритмов. Bagging. Random Forest
7.4. Бустинг
7.5. Итоги
7.6. Практика
8.1. Задача кластеризации
8.2. Задача понижения размерности
8.3. Быстрый поиск ближайших соседей
8.4. Итоги
8.5. Практика
9.1. Введение
9.2.Target encoding
9.3. Метамодели
9.4. Оптимизация гиперпараметров
9.5. ML Pipeline
9.6. Итоги
9.7. Практика
Установочная встреча в 19:00 по темам 7−9 + объяснения итогового проекта
встреча
10.1. Введение
10.2. Задание
10.3 Защита проектов
Дополнительные модули
11.1. Введение
11.2. Deep Learning. Математическая модель нейрона. Нейронная сеть
11.3. Обучение нейронных сетей. Оптимизаторы.
11.4. Нейронные сети на PyTorch
11.5. Computer vision. Машинное представление изображения. Операции с изображениями
11.6. Сверточная нейронная сеть (CNN)
11.7. Imagenet. Alexnet, VGG.
11.8. Глубокие сверточные сети, ResNet. Эффективные свертки, Inception
11.9. Сверточные нейронные сети в PyTorch. Transfer learning & fine-tuning
11.10. Итоги
12.1. Примеры задач, решаемые NLP подходами
12.2. Классические методы NLP
12.3. Предобработка текстов
12.4. Word2Vec и FastText
12.5. Языковые модели
12.6. Машинный перевод
12.7. Transfer Learning при работе с текстами
12.8. Классификация текстов
12.9. Итоги
13.1. Введение
13.2. Примеры рекомендательных систем
13.3. Постановка задач рекомендательных систем
13.4. Коллаборативная фильтрация. Memory based подход
13.5. Коллаборативная фильтрация. Матричные факторизации
13.6. Коллаборативная фильтрация. Линейные модели
13.7. Коллаборативная фильтрация. Нейросетевые модели
13.8. Итоги
14.1. Введение
14.2. ML-проект
14.3. ML System Design
14.4. Пример дизайна - оптимизация маркетинга
14.5. Пример дизайна - прогноз спроса
14.6. Итоги
Встреча по дополнительному модулю + защита проектов
встреча
Проект (опционально)
тема 15
Сертификат
Каждому студенту, который пройдёт 80% курса, вручим свидетельство об окончании. А тот, кто успешно выполнит более 80% практических заданий и защитит итоговый проект — получит номерной сертификат.