DATA Engineering

Москва

Дата: 7.10.2024

Цена: 44000 руб.

Записаться на курс

Описание

Подробнее о курсе

Краткое описание курса
На курсе Вы выполните проект из практики дата-инженера и автоматизируете процесс очистки и сбора данных.

Цель курса
Узнать и освоить самое важное о Data Engineering, что нужно знать инженеру данных.

Целевая аудитория курса
Аналитики

Получаемые знания и навыки

Объяснять архитектуру и структуру базы данных
Создавать процессы обработки данных
Работать с основными инструментами обработки больших данных
Обрабатывать события в режиме реального времени
Разовьёте навык data literacy
Строить работающий пайплайн в облачной среде

Необходимая предварительная подготовка
базовые знания языка Python

Программа курса

Введение в специальность, роль и функции DATA инженера, практический linux (работа с командной строкой),
Современные хранилища данных: архитектура хранилища данных ан примере lambda architecture, kappa architecture. Сравнение баз данных data warehouse и data lake)
Экосистема Hadoop: базис Hadoop (hdfs, yarn, map, reduce) дистрибутивы
Практическое задание: отработка hive, zookeeper, hue
Источники данных и работа с ними: Oracle, MS SQL, выгрузка данных с помощью SQL, работа с Postgre
Aайлы как источники данных: XML, JSON, текст.
Изучение корпоративного каталога данных на примере Apache Atlas
Управление доступом на примере Apache Ranger
Apache Spark и обработка данных
Практические задания по работе с core Spark, Spark SQL и Spark Stuctured Streaming
Построение конвейеров обработки данных (data pipelines)
Изучение основных сущностей Apache Airflow. Работа с Airfow — Spark и Airflow – Livy
Обзор облачных хранилищ: Google, Amazon, Azure
Итоговое практическое задание: проект по настройке пайплайнов и хранилища данных
Machine Learning и Deep Learning
Введение в машинное Обучение: основные задачи и методы machine learning
Практические кейсы и применение базового алгоритма работы над ml-проектом
Методы предобработки данных: изучение типов данных, очищение и обогащение данных, использование визуализации для предобработки и освоение feature engineering
Регрессия (освоение линейной и логистической регрессии, изучение границы применимости, аналитический вывод и регуляризация)
Изучение модели регрессии
Кластеризация (освоение обучения без учителя, практическое задание по работе с текстами средствами ML)
Tree-based алгоритмы: введение в деревья. Работа с решающими деревьями и их свойствами, освоение деревьев из библиотеки sklearn и использования деревьев для решения задачи регрессии
Tree-based алгоритмы: ансамбли: особенности ансамблей деревьев, практические задания в бустинге, использование ансамбля для построения логистической регрессии
Участие в соревновании на kaggle по обучению
Оценка качества алгоритмов
Изучение принципов разбиения выборки, недо- и переобучение
Оценка модели по различным метрикам качества, визуализация процесса обучения
Практическая задача по оценке качества нескольких моделей ML
Временные ряды в машинном обучении
Знакомимся с анализом временных рядов в ML
Освоение линейных моделей и XGBoost, решение практической задач на изучение принципов кросс-валидации и подбора параметров
Рекомендательные системы: изучение методов построения рекомендательных систем, решение задачи на освоение SVD-алгоритма, оценки качества рекомендаций обученной модели
Итоговое задание: применение всех изученных методов для получения максимальной точности предсказаний модели на kaggle
Введение в искусственные нейронные сети: создание нейронной сети для распознавания рукописных цифр на языке Python
Создание модели распознавания изображений на базе датасета FashionMNIST и фреймворка Keras
Сверточные нейронные сети: распознавание изображения в датасете CIFAR-10 с помощью сверточной нейронной сети
Оптимизация нейронной сети (улучшение скорости и производительности сетей для кейса предыдущего модуля)
Работа с Transfer learning & Fine-tuning. Дообучение нейронной сети ImageNET для решения задачи классификации изображений
Сегментация изображений. Проектирование нейронной сети для сегментации людей в датасете COCO
Детектирование объектов: обучение нейросети решать задачу детекции на примере датасета с логотипами брендов
Введение в NLP и Word Embeddings: создание нейросети для работы с естественным языком
Рекуррентные нейронные сети: создание чат-бота на базе рекуррентной нейросети
Reinforcement Learning (обучение с подкреплением) — создаие агента на основе DQN алгоритма
Различные области применения нейросетей. Создание нейросеть GAN для генерации изображений
Итоговое практическое задание по материалам курса

DATA Engineering

Подробнее о курсе

Отзывы по курсу