Подробнее о курсе
Краткое описание курса
На курсе вы изучите следующие основные темы:
- Hadoop (основные компоненты, дистрибутивы вендоров)
- Архитектура HDFS
- Архитектура YARN
- Форматы данных
- Spark
- Spark Streaming и Flink
- Hive
- Оркестрация, Мониторинг и CI/CD
Целевая аудитория курса
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive
Получаемые знания и навыки
- Использовать Hadoop для обработки данных
- Взаимодействовать с его компонентами через консольные клиенты и API
- Работать со слабоструктурированными данными в Hive
- Писать и оптимизировать приложения на Spark
- Писать тесты для Spark-приложений
- Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
- Настраивать CI и мониторинг Spark-приложений
Необходимая предварительная подготовка
- Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala
- Базовое знание SQL и опыт работы с любой реляционной базой данных