Краткое описание курса
На курсе рассказывается об основах функционирования Apache Hadoop, и архитектуре приложений обработки данных базирующихся на нём. Цель курса – рассмотреть работу с распределенной файловой системой Hadoop (HDFS), созданной для хранения очень большого объема информации (терабайт или даже петабайт) и обеспечивающей высокую скорость доступа к этой информации

Целевая аудитория курса

Разработчики программного обеспечения

Получаемые знания и навыки
По окончании курса слушатели научатся

Настраивать виртуальные машины для запуска Hadoop приложений
Работать с файловой системой HDFS
Создавать распределенное приложение, работающее на узлах кластера Hadoop

Необходимая предварительная подготовка

начальные знания Oracle SQL и PL/SQL
умение работать в командной строке Bash
начальные знания операционной системы Windows X.X, или Linux
основы процедурного и объектно-ориентированного программирования

Предварительно рекомендуется прослушать курс(ы)

Краткое содержание курса
Модуль 1 — Архитектура Hadoop

Создание и конфигурирование виртуальных машин

Модуль 2 — Распределенная файловая система HDFS

Работа с HDFS: реплицирование, чтение и запись данных, команды HDFS

Модуль 3 — Модель распределённый вычислений MapReduce, форматы данных для MapReduce

Управление приложением и ресурсами

Модуль 4 — Архитектура YARN

Управление ресурсами кластера

Модуль 5 — Выполнение задач в приложении MapReduce и YARN

Использование распределенного кэша

Модуль 6 — Использование потоковой обработки (Hadoop Streaming)
Модуль 7 — Компоненты экосистемы Hadoop

Введение в Pig (высокоуровневая абстракция обработки данных):
- Ведение в Hive (СУБД на основе Hadoop, язык HiveQL)
- Введение в Sqoop (взаимодействие с классическими реляционными базами)

Основы Apache Hadoop

Подробнее о курсе

Отзывы по курсу