Фоновый баннер

DATA Engineering

Подробнее о курсе

Краткое описание курса
На курсе Вы выполните проект из практики дата-инженера и автоматизируете процесс очистки и сбора данных.

Цель курса
Узнать и освоить самое важное о Data Engineering, что нужно знать инженеру данных.

Целевая аудитория курса
Аналитики

Получаемые знания и навыки

  • Объяснять архитектуру и структуру базы данных
  • Создавать процессы обработки данных
  • Работать с основными инструментами обработки больших данных
  • Обрабатывать события в режиме реального времени
  • Разовьёте навык data literacy
  • Строить работающий пайплайн в облачной среде

Необходимая предварительная подготовка
базовые знания языка Python

Программа курса

  • Введение в специальность, роль и функции DATA инженера, практический linux (работа с командной строкой),
  • Современные хранилища данных: архитектура хранилища данных ан примере lambda architecture, kappa architecture. Сравнение баз данных data warehouse и data lake)
  • Экосистема Hadoop: базис Hadoop (hdfs, yarn, map, reduce) дистрибутивы
  • Практическое задание: отработка hive, zookeeper, hue
  • Источники данных и работа с ними: Oracle, MS SQL, выгрузка данных с помощью SQL, работа с Postgre
  • Aайлы как источники данных: XML, JSON, текст.
  • Изучение корпоративного каталога данных на примере Apache Atlas
  • Управление доступом на примере Apache Ranger
  • Apache Spark и обработка данных
  • Практические задания по работе с core Spark, Spark SQL и Spark Stuctured Streaming
  • Построение конвейеров обработки данных (data pipelines)
  • Изучение основных сущностей Apache Airflow. Работа с Airfow — Spark и Airflow – Livy
  • Обзор облачных хранилищ: Google, Amazon, Azure
  • Итоговое практическое задание: проект по настройке пайплайнов и хранилища данных
    Machine Learning и Deep Learning
  • Введение в машинное Обучение: основные задачи и методы machine learning
  • Практические кейсы и применение базового алгоритма работы над ml-проектом
  • Методы предобработки данных: изучение типов данных, очищение и обогащение данных, использование визуализации для предобработки и освоение feature engineering
  • Регрессия (освоение линейной и логистической регрессии, изучение границы применимости, аналитический вывод и регуляризация)
  • Изучение модели регрессии
  • Кластеризация (освоение обучения без учителя, практическое задание по работе с текстами средствами ML)
  • Tree-based алгоритмы: введение в деревья. Работа с решающими деревьями и их свойствами, освоение деревьев из библиотеки sklearn и использования деревьев для решения задачи регрессии
  • Tree-based алгоритмы: ансамбли: особенности ансамблей деревьев, практические задания в бустинге, использование ансамбля для построения логистической регрессии
  • Участие в соревновании на kaggle по обучению
  • Оценка качества алгоритмов
  • Изучение принципов разбиения выборки, недо- и переобучение
  • Оценка модели по различным метрикам качества, визуализация процесса обучения
  • Практическая задача по оценке качества нескольких моделей ML
  • Временные ряды в машинном обучении
  • Знакомимся с анализом временных рядов в ML
  • Освоение линейных моделей и XGBoost, решение практической задач на изучение принципов кросс-валидации и подбора параметров
  • Рекомендательные системы: изучение методов построения рекомендательных систем, решение задачи на освоение SVD-алгоритма, оценки качества рекомендаций обученной модели
  • Итоговое задание: применение всех изученных методов для получения максимальной точности предсказаний модели на kaggle
  • Введение в искусственные нейронные сети: создание нейронной сети для распознавания рукописных цифр на языке Python
  • Создание модели распознавания изображений на базе датасета FashionMNIST и фреймворка Keras
  • Сверточные нейронные сети: распознавание изображения в датасете CIFAR-10 с помощью сверточной нейронной сети
  • Оптимизация нейронной сети (улучшение скорости и производительности сетей для кейса предыдущего модуля)
  • Работа с Transfer learning & Fine-tuning. Дообучение нейронной сети ImageNET для решения задачи классификации изображений
  • Сегментация изображений. Проектирование нейронной сети для сегментации людей в датасете COCO
  • Детектирование объектов: обучение нейросети решать задачу детекции на примере датасета с логотипами брендов
  • Введение в NLP и Word Embeddings: создание нейросети для работы с естественным языком
  • Рекуррентные нейронные сети: создание чат-бота на базе рекуррентной нейросети
  • Reinforcement Learning (обучение с подкреплением) — создаие агента на основе DQN алгоритма
  • Различные области применения нейросетей. Создание нейросеть GAN для генерации изображений
  • Итоговое практическое задание по материалам курса

Отзывы по курсу