Найдите свою сладкую парочку
Найдите свою сладкую парочку
Найдите свою сладкую парочку
Во время курса вы будете: строить дата-пайплайны, выстраивать эффективную работу дата-архитектуры, разбираться в инструментах для управления данными
поток: старт в 2025 году
Data-инженер
научим вас профессии
Объем программы 120 часов
88 часов практики
Результат
Систематизация знаний и востребованные навыки
5 встреч со спикерами
Онлайн-встречи в формате
«вопрос-ответ»
Сертификация
При выполнении от 80 процентов практических заданий и проекта
32 часа теории
Где нужен дата-инженер?
Транспорт и логистика
Data Engineer помогает в создании систем для сбора и анализа данных о движении транспортных средств, маршрутах, пробках и т. д., что позволяет оптимизировать планирование и управление транспортной логистикой
Здравоохранение
Data Engineer помогает в создании систем для анализа медицинских данных, таких как истории болезни, рентгеновские снимки, генетические данные и т. д., что может привести к более эффективной медицинской диагностике и лечению
Маркетинг и реклама
Data Engineer помогает в создании платформ для сбора, хранения и анализа данных о клиентах и поведении пользователей, позволяя маркетологам принимать более обоснованные решения и оптимизировать свои маркетинговые стратегии
IT и технологии
Data Engineer играет ключевую роль в создании и поддержке инфраструктуры данных, таких как базы данных, хранилища данных, облачные системы хранения и инструменты для обработки и анализа данных
Финансы
Data Engineer помогает в разработке и реализации систем оптимизации и анализа данных для финансовых институтов, позволяя им лучше понимать и управлять своими данными
Это только некоторые примеры областей, где Data Engineer может проявить себя. В конечном счете, их роль в проектировании и управлении данными может быть востребована практически в любой отрасли, где нужно обрабатывать и анализировать большие объемы данных
Data Engineer помогает в создании систем для сбора и анализа данных о движении транспортных средств, маршрутах, пробках и т. д., что позволяет оптимизировать планирование и управление транспортной логистикой
Data Engineer помогает в создании систем для анализа медицинских данных, таких как истории болезни, рентгеновские снимки, генетические данные и т. д., что может привести к более эффективной медицинской диагностике и лечению
Data Engineer помогает в создании платформ для сбора, хранения и анализа данных о клиентах и поведении пользователей, позволяя маркетологам принимать более обоснованные решения и оптимизировать свои маркетинговые стратегии
Data Engineer играет ключевую роль в создании и поддержке инфраструктуры данных, таких как базы данных, хранилища данных, облачные системы хранения и инструменты для обработки и анализа данных
Data Engineer помогает в разработке и реализации систем оптимизации и анализа данных для финансовых институтов, позволяя им лучше понимать и управлять своими данными
Во время обучения вы научитесь
  • Освоите работу с Apache Airflow для автоматизации ETL-задач
Визуализации и отчетности
  • Изучите возможности Metabase для визуализации данных
  • Освоите MapReduce и разложите данные в HDFS c использованием Hadoop или Spark
Обработке и хранению данных
  • Построите витрину данных с агрегатами по основным показателям
  • Научитесь строить витрину в ClickHouse на основе данных из PostgreSQL
  • Познакомитесь с возможностями dbt и создадите полноценный dbt-проект
  • Научитесь выгружать данные из REST API с учетом различных ограничений
Интеграции данных
  • Реализуете обработку потока в NiFi с интеграцией данных из разных источников
  • Научитесь работать с потоками данных в Apache Kafka
Вы освоите эти инструменты
Python
SQL
PostgreSQL
Clickhouse
MongoDB
HDFS
Hadoop
Spark
Kafka
Redis
Airflow
NiFi
dbt
Metabase
Кому будет полезен курс?
На курсе мы рассказываем, как собирать, хранить и обрабатывать большие данные, наглядно показываем, как работают инструменты и технологии для разработки и поддержки систем аналитики и обработки данных
Мы учим профессии
Освоите смежные навыки и начнете управлять данными на новом уровне
Администраторам баз данных
Улучшите навыки по очистке и соединению данных из разных источников и освоите новые инструменты под разные сценарии использования данных
Аналитикам данных
Освоите дополнительную профессию и добавите навыки работы с данными к своему скиллсету
Разработчикам
Начни учиться бесплатно
Познакомьтесь с материалами и спикерами в демо-курсе. Доступ на 3 дня.
Почему наш курс?
После коротких видеоуроков вы решаете практические задания и тесты, чтобы сразу закрепить теорию. В заданиях разворачиваем стенды, и вы мощно отрабатываете учебный материал на практике
Собираем студентов в одном чате в Telegram: здесь будем делиться инсайтами, задавать вопросы кураторам и экспертам курса
Вы можете задать любой вопрос спикерам по учебной программе. Встречи проходят после каждого тематического блока
Его вы можете выполнить как на своих данных, так и на информации из открытых источников. По финальному заданию вы получаете подробную обратную связь от экспертов. Собственным проектом вы усилите свое портфолио
Видеолекции
Работа в групповом чате
Встречи с экспертами
Финальный проект
Практические задания
В личном кабинете есть практические задания, вы сможете запускать учебные стенды. Вы решаете задачи после каждого модуля, а эксперты проводят ревью — проверяют несколько этапов учебного проекта. Целых 88 часов практики
Сертификат
Каждому студенту, который пройдёт 80% курса, вручим свидетельство об окончании. А тот, кто успешно выполнит более 80% практических заданий и защитит итоговый проект — получит номерной сертификат.
Развернутое описание курса, которое можно отправить коллегам или руководителю
Презентация курса
Эксперты курса подготовили для вас подробный роадмап
Какими знаниями должен обладать Data-инженер
Программа
3 встречи со спикерами
5
2
онлайн встреч
недели
1 финальная
на сдачу домашней работы
88 часов практики
120
часов всего
69 часов теории
~7
часов в неделю
1 установочная
Шаг 1
Смотрим видео с теорией
Шаг 2
Шаг 3
Шаг 4
Шаг 5
Делаем практические задания на стендах в личном кабинете
Обсуждаем задания в чате с другими участниками
Встречаемся со спикерами и задаём вопросы
Защищаем итоговый проект
Мягкий онбординг в курс, где мы объясним, как учиться онлайн, как сдавать практические работы, как работать со стендами, а также расскажем, в чем заключается профессия инженера данных.
  • Введение в тему
Практика: реализовать первый этап работы с данными — их выгрузку из источника, представленного в виде API.
  • Инструменты экосистемы Python для работы с данными
  • Параллельность и асинхронность в Python
  • Web серверы, создание API
  • Linux терминал для задач DE
  • Задание по проекту
  • Итоги
Вы узнаете подходы и способы решения ежедневных задач дата-инжиниринга с помощью базовых инструментов в лице Python и утилит командной строки.
На установочной встрече вы познакомитесь с командой спикеров и куратором. Мы расскажем о том, как устроен курс и ответим на вопросы к началу обучения.
  • Введение
  • Экосистема Hadoop — краткий обзор и возможности
  • Технология Map-Reduce
  • Задание по проекту
  • Итоги
Практика: обогатить данные из источника расшифровкой кодов и сгенерировать агрегированное представление.
Вы узнаете подходы и способы решения ежедневных задач дата-инжиниринга с помощью базовых инструментов в лице Python и утилит командной строки.
  • Введение
Практика: построить витрину торговых партнеров как по импорту, так и по экспорту по каждому из представленных в данных временных диапазонов.
  • Что такое Spark и зачем он нужен DE. Введение в Resilient Distributed Datasets
  • Dataframe’ы и преобразования
  • Партицирование, репартицирование Spark Streaming
  • Задание по проекту
  • Итоги
Вы узнаете, как устроен один из самых популярных инструментов для распределенной обработки данных и научитесь его применять как для пакетных, так и для потоковых задач.
Спикер Николай Марков ответит на ваши вопросы по пройденным темам.
  • Введение в тему
Практика: построить витрину данных, представляющую собой набор агрегатов по месяцам на основе лога таможни
  • Реляционные базы данных. Введение
  • SQL. Принципы ACID
  • База данных глазами Data Engineer’а
  • ORM, события и история
  • Задание по проекту
  • Итоги
Вы получите базовое понимание принципов организации данных в реляционных базах данных, а также узнаете пару инструментов и подходов для решения задач DE с применением SQL.
  • Введение
Практика: получить данные из PostgreSQL в Clickhouse и построить витрину данных, представляющую собой набор агрегаций по месяцам.
  • Знакомство с NoSQL. Виды и применение
  • Практика работы с NoSQL — Clickhouse, Neo4j и Mongo
  • Партицирование, репартицирование Spark Streaming
  • Задание по проекту
  • Итоги
Вы увидите отличие NoSQL-баз как вида, так и разных их вариаций для решения соответствующих задач, используете на практическом задании различные базы данных.
  • Введение
  • Процессы ETL и ELT
  • Пайплайны. Оркестрация данных. Обзор ETL-инструментов
  • Итоги
Вы узнаете отличия между ETL и ELT и увидите, какие последствия для инфраструктуры несет внедрение того или иного подхода. Дадим список критериев, по которым можно оценивать то или иное решение для перекладки данных.
  • Введение в тему
Цель: освоить работу с Apache AIrflow для автоматизации задач.ка: построить витрину данных, представляющую собой набор агрегатов по месяцам на основе лога таможни.
  • Airflow — знакомство и практические задачи
  • Создание и работа с DAG
  • Работа с компонентами Airflow
  • Настройка конфигурации оркестратора и мониторинг
  • Задание по проекту
  • Итоги
Вы приобретете опыт работы с Apache AirFlow, изучите сильные стороны инструмента и узнаете, как его конфигурировать. У вас также будет некоторое понимание архитектуры, как устроен Airflow и как настраивать компоненты.
Спикеры Николай Марков и Ася Гайламазян ответят на ваши вопросы по пройденным темам.
  • Введение
Цель: научиться обрабатывать большие файлы в стриминговом потоке Kafka. Задача в загрузке файла для его дальнейшего использования.
  • Примеры задач стриминга
  • Kafka — знакомство и архитектура
  • Практическая работа с Kafka
  • Задание по проекту
  • Итоги
Вы изучите разные способы настройки Kafka для решения задач батчинга и стриминга, поработаете с компонентами.
  • Введение
Цель: получить навык работы со стриминговыми данными в NiFi с использованием распределённого программного брокера сообщений Apache Kafka.
  • Архитектура, термины, интерфейс и базовый функционал
  • Расширенный функционал NiFi
  • Построение потока
  • Итоговый тест по модулю
  • Задание по проекту
Вы поймете, как использовать Apache NiFi для управления и преобразования потоков данных в проектах и задачах обработки информации.
  • Итоги
  • Введение
Практика: познакомиться с возможностями dbt и создать полноценный dbt-проект.
  • Традиционная архитектура хранилищ данных
  • Облачные хранилища, Modern Data Stack
  • Частые проблемы при построении архитектуры и подходы к их решению
  • Задание по проекту
  • Итоги
Вы познакомитесь с современными методиками проектирования хранилищ, узнаете о типичных проблемах и потенциальных решениях, возникающих в процессе эксплуатации инфраструктуры по работе с данными.
  • Введение
Цель: изучить возможности Metabase для визуализации данных.
  • Задачи аналитики
  • BI-инструментарий аналитиков — Apache Superset, Tableau, PowerBI, Looker etc
  • Задание по проекту
  • Итоги
Вы покажете на практике сопровождение данных на всех этапах жизненного цикла, сможете сделать проект на собственных данных. Также затронем вопрос улучшения data quality.
Спикеры Николай Марков, Ася Гайламазян, Николай Акимов ответят на ваши вопросы по пройденным темам.