Фоновый баннер

Основы Apache Hadoop

Подробнее о курсе

Краткое описание курса
На курсе рассказывается об основах функционирования Apache Hadoop, и архитектуре приложений обработки данных базирующихся на нём. Цель курса – рассмотреть работу с распределенной файловой системой Hadoop (HDFS), созданной для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечивающей высокую скорость доступа к этой информации

Целевая аудитория курса
  • Разработчики программного обеспечения
Получаемые знания и навыки
По окончании курса слушатели научатся

  • Настраивать виртуальные машины для запуска Hadoop приложений
  • Работать с файловой системой HDFS
  • Создавать распределенное приложение, работающее на узлах кластера Hadoop
Необходимая предварительная подготовка
  • начальные знания Oracle SQL и PL/SQL
  • умение работать в командной строке Bash
  • начальные знания операционной системы Windows X.X, или Linux
  • основы процедурного и объектно-ориентированного программирования

Предварительно рекомендуется прослушать курс(ы)

Краткое содержание курса
Моду
ль 1Архитектура Hadoop

  • Создание и конфигурирование виртуальных машин

Модуль 2Распределенная файловая система HDFS

  • Работа с HDFS: реплицирование, чтение и запись данных, команды HDFS

Модуль 3Модель распределённый вычислений MapReduce, форматы данных для MapReduce

  • Управление приложением и ресурсами

Модуль 4Архитектура YARN

  • Управление ресурсами кластера

Модуль 5Выполнение задач в приложении MapReduce и YARN

  • Использование распределенного кэша

Модуль 6Использование потоковой обработки (Hadoop Streaming)
Модуль 7
Компоненты экосистемы Hadoop

  • Введение в Pig (высокоуровневая абстракция обработки данных):
    • Ведение в Hive (СУБД на основе Hadoop, язык HiveQL)
    • Введение в Sqoop (взаимодействие с классическими реляционными базами)

Отзывы по курсу