Научитесь проектировать архитектуру хранилищ данных под разные задачи и условия. Узнаете основные принципы построения систем потоковой аналитики. Получите представление о существующих облачных и on-premise решениях.
Научитесь проводить обследование перед стартом нового проекта и определять «информационную зрелость» заказчика. Поймёте, что нужно знать перед проектированием архитектуры хранилища данных в новом проекте.
Получите базовые знания Apache Spark для Дата-инженера. Научитесь использовать DataFrame API и Spark Streaming API для исследования, извлечения, преобразования и хранения данных.
Научитесь создавать пайплайны обработки данных с использованием opensource ETL-инструментов. Научитесь работать с основными инструментами Дата-инженера.
Узнаете принцип работы технологий, упрощающих жизнь DE при работе с RDBMS. Научитесь оптимизировать запросы под нужды дата-инженера.
Узнаете принципы работы и применимость разных видов NOSQL БД. Научитесь работать с колоночными БД на примере HDFS.
Научитесь проектировать хранилища данных в условиях изменчивости первичных данных
Научитесь оценивать качество данных и узнаете способы устранения проблем с data quality
Научитесь работать с базовыми инструментами получения данных от граничных устройств в облако