Фоновый баннер
Заполнитель

Экосистема Hadoop, Spark, Hive

Подробнее о курсе

Краткое описание курса
На курсе вы изучите следующие основные темы:

  • Hadoop (основные компоненты, дистрибутивы вендоров)
  • Архитектура HDFS
  • Архитектура YARN
  • Форматы данных
  • Spark
  • Spark Streaming и Flink
  • Hive
  • Оркестрация, Мониторинг и CI/CD

Целевая аудитория курса
Курс рассчитан на Data инженеров, желающих глубже изучить Spark, а попутно также Hadoop и Hive

Получаемые знания и навыки

  • Использовать Hadoop для обработки данных
  • Взаимодействовать с его компонентами через консольные клиенты и API
  • Работать со слабоструктурированными данными в Hive
  • Писать и оптимизировать приложения на Spark
  • Писать тесты для Spark-приложений
  • Использовать Spark для обработки табличных, потоковых, гео-данных и даже графов
  • Настраивать CI и мониторинг Spark-приложений

Необходимая предварительная подготовка

  • Опыт написания кода хотя бы на одном из следующих языков: Python, Java, Scala
  • Базовое знание SQL и опыт работы с любой реляционной базой данных

Программа курса
М
одуль 1. Scala

  • Основы Scala
  •  Сборка проектов на Scala

Модуль 2. Hadoop

  • Hadoop
  • HDFS
  • YARN
  • Форматы данных

Модуль 3. Spark

  • Архитектура приложения Spark
  • RDD/Dataframe/Dataset
  • Методы оптимизации приложений Spark
  • Написание коннекторов для Spark
  • Тестирование приложений Spark
  • Spark ML

Модуль 4. Streaming

  • Kafka
  • Spark Streaming
  • Structured Streaming
  • Flink — часть 1
  • Flink — часть 2

Модуль 5. Apache Hive

  • Обзор Hive
  • HiveQL

Модуль 6. Обслуживающие системы

  • Оркестрация процессов обработки данных
  • Мониторинг и логирование для Sparkприложений
  • CI/CD для Spark и Hive

Модуль 7. Проектная работа

  • Выбор темы и организация проектной работы
  • Консультация по проектам и домашним заданиям
  • Защита проектных работ

 


Отзывы по курсу