Ранние цены! Купите курс до 30 сентября со скидкой 15%
ИДЁТ НАБОР
СТАРТ: ноябрь
Spark-инженер
Продвинутый курс по самым мощным инструментам обработки больших данных Big Data и искусственного интеллекта, Artificial Intelligence
Рабочий код и скрипты для deploy
7 модулей
29 занятий
82 часа теории и практики
Диплом о переквалификации
Для кого обучение
Devops
кто хочет решать определенные вопросы в бизнесе: антифрод, оповещения, олап-система, репортинг. И для тех, кто хочет работать в большой компании, увеличивать свою зону ответственности и брать новые задачи.
ETL-инженер
Data Warehouse Engineer
Всем
Backend
Что вы будете уметь после курса
Вы сможете уверенно пользоваться API PySpark и Spark Scala, без предварительных знаний Python Scala. После курса научитесь автоматизировать рутинные задачи, такие как сборка, конфигурация, парсинг и генерация на Scala. На практическом занятии вы сможете осуществить первый deploy приложения на Spark на кластер, который входит в стоимость курса и будет доступен на протяжении всего обучения
Вы будете готовы загружать терабайты данных с помощью ключевых фич загрузки данных Spark, таких, как партицонирование, бакетирование, Z-ordering и т.д. из любых источников. Рассмотрите плюсы и минусы распределенных хранилищ данных, таких как Object Storage или HDFS. А также поработаете с форматами Orc, Parquet и Delta
Вы сможете уверенно работать с пакетной (batch) и потоковой (streaming) API в Spark для обработки табличных, потоковых, гео-данных и графов
На основе наборов данных объемом от 100 ГБ до 1+ ТБ будут рассмотрены и решены пять основных проблем с производительностью Apache Spark
Кроме того научитесь оркестровать и мониторить Spark-приложения с помощью Airflow, подключать мониторинг и логирование для Spark-приложений, а также строить непрерывную интеграцию и доставку для Spark приложений
Все готовы к курсу?
Проверить себя
Какое ключевое слово SQL используется для чтения данных из базы данных?
Правильно!
Неправильно( Для чтения данных из базы данных используется SELECT
Неправильно( Для чтения данных из базы данных используется SELECT
Неправильно( Для чтения данных из базы данных используется SELECT
Дальше
Проверить
Узнать результат
Для чего в SQL нужен GROUP BY?
Не тот ответ :(
Не тот ответ :(
И это верно!
Не тот ответ :(
Дальше
Проверить
Узнать результат
Какая SQL-функция используется для подсчета общего количества строк в таблице?
Увы, для подсчета используют COUNT()
Ого, вы неплохо начали!
Увы, для подсчета используют COUNT()
Увы, для подсчета используют COUNT()
Дальше
Проверить
Узнать результат
Какого типа JOIN нет в SQL?
Неверно! В SQL нет GOLD JOIN
Неверно! В SQL нет GOLD JOIN
Супер, вы правы!
Неверно! В SQL нет GOLD JOIN
Дальше
Проверить
Узнать результат
Какие SQL-операторы используются для указания нескольких условий в фильтре WHERE?
Верно! Используется оператор AND и OR!
Неправильно :( Используется оператор AND и OR
Верно! Используется оператор AND и OR!
Неправильно :( Используется оператор AND и OR
Дальше
Проверить
Узнать результат
Какой SQL-оператор используется для удаления строк из таблицы базы данных?
А вы явно знаете толк в SQL!
Неверно :(
Неверно :(
Неверно :(
Дальше
Проверить
Узнать результат
Для чего в SQL нужен ORDER BY?
Нет, ORDER BY нужен для сортировки результата опроса
Нет, ORDER BY нужен для сортировки результата опроса
Да, все верно!
Нет, ORDER BY нужен для сортировки результата опроса
Дальше
Проверить
Узнать результат
Какая SQL-функция используется для поиска наибольшего значения в столбце?
Нет, для этого используют MAX()
Нет, для этого используют MAX()
Вы абсолютно правы!
Нет, для этого используют MAX()
Дальше
Проверить
Узнать результат
Какая операция выполняется в стадии «Трансформация» (Transformation) процесса ETL?
Все верно, так держать!
Все верно, так держать!
Нет, это неверный ответ(
Нет, это неверный ответ(
Дальше
Проверить
Узнать результат
Какая операция выполняется в стадии «Загрузка» (Load) процесса ETL?
Нет, в этом случае выполняется загрузка данных в целевую систему 
Нет, в этом случае выполняется загрузка данных в целевую систему 
И это правильный ответ!
Нет, в этом случае выполняется загрузка данных в целевую систему 
Дальше
Проверить
Узнать результат
Какая команда в linux выведет список файлов и папок?
Класс! Кажется, вам точно нужно на наш курс!
Неверно :( Правильным ответом будет ls
Неверно :( Правильным ответом будет ls
Неверно :( Правильным ответом будет ls
Дальше
Проверить
Узнать результат
Пока для курса рановато
Курс может оказаться сложным, поэтому рекомендуем немного поучиться по теме :)
Еще раз
Вы можете попытать удачу
Похоже, вы неплохо разбираетесь в теме, но на курсе придется потрудиться
Еще раз
На курсе вам не будет равных!
Вау, а вы похоже были созданы для этого курса. Уже ждем вас на обучении!
Еще раз
Что будем делать на курсе
Поговорим об отличиях NoSQL-баз как вида, так и разных их вариаций для решения соответствующих задач
Познакомимся с инструментами для представления данных заказчику, начнем говорить с бизнесом на одном языке
Узнаем классические подходы к задачам распределённого вычисления, сможем перечислить преимущества HDFS и начнем решать простые задачи по этому подходу
Определим разные способы настройки Kafka для решения пакетной (batch) и потоковой (streaming) обработки данных
Найдем отличия между ETL и ELT и какие последствия для инфраструктуры несет внедрение того или иного подхода. Вы получите список критериев, по которым можно оценивать то или иное решение для обработки данных
Изучим практики применения Python к задачам по Data engineering
01
03
05
02
04
06
Как будем обучаться
Видеолекции
Сильное комьюнити
Каждую тему спикеры будут рассматривать в понятных видеоуроках. После них вам будут доступны практические занятия для закрепления теории.
Курс объединяет самых разных специалистов — от ETL-разработчика до DevOps’а. В чате в Telegram вы сможете познакомиться с остальными студентами, поделиться друг с другом своим опытом и узнать, что происходит в разных сферах.
Онлайн-встречи с практиками
После модулей спикеры курса встретятся с вами и разберут домашние задания в формате вебинара. Вы сможете обсудить не только сложности, которые у вас возникли, но задачи по deploy.
Финальный проект
Работаете над проектом, в основе которого — рабочий код с интересными примерами, в том числе тот код, который вы напишите самостоятельно.
Программа
Спикеры
2019-2021: MSc in Big Data Systems, Higher School of Economy, Moscow
Databricks (Spark SQL, Spark Streaming, Delta Lake House)
Senior Data Engineer с опытом 5+ и образованием в области больших данных.
Алмаз Мурзабеков
Образование: ФРТК МФТИ 2012 г., магистр прикладных математики и физики; аспирантура ИППИ РАН.
Автор статей в научных журналах и выступлений на конференциях по анализу данных.
Разрабатывал и тестировал пайплайны для компаний Почта России и Люксофт с входной нагрузкой более 700 миллионов событий в день.
Senior Data Engineer c опытом 7+ лет
Алексей Бедринцев
Применить инструмент Spark к рабочим и учебным задачам по обработке данных.
Получить базовое понимание принципов организации данных в реляционных баз данных, а также узнать инструменты и подходы для решения задач DE с применением SQL.
Увидеть отличие NoSQL-баз как вида, так и разных их вариаций для решения соответствующих задач. Практически использовать разные базы данные.
Понять на практике сопровождение данных на всех этапах жизненного цикла. И сделать проект на собственных данных.
Приобрести полноценный опыт работы с Apache Airflow, изучить сильные стороны этого инструмента, и понять, как его конфигурировать.
Курс помогает
Тариф
Ноябрь 2023
Поток
Сертификат
Общение со спикером в чате
Онлайн-встречи, запись на 2 года
76 500
90 000
Вы можете их задать менеджеру заботы о клиентах Марине Бородаевой с помощью формы
Остались вопросы?
или по телефону +7 (995) 053-11-06
и в Telegram mborodaeva