Фоновый баннер

Data Scientist. Повелитель данных: передовые практики в области интеллектуального анализа больших данных

Подробнее о курсе

Краткое описание курса
Курс предназначен для ознакомления с теоретическими положениями и освоения практических навыков обработки, анализа и визуализации данных с использованием различных библиотек языка Python. В процессе курса изучаются методы сбора, очистки, разведывательного анализа данных, работы с категориальными признаками, снижения размерности. Рассматриваются основы статистики, языка запросов SQL и сервера баз данных PostgreSQL.
Курс также охватывает машинное обучение и нейронные сети. Подробно изучаются методы обучения с учителем (регрессия, классификация) и без учителя (кластеризация).
В части нейронных сетей разбираются основы от перцептрона до сверточных и рекуррентных архитектур, фреймворки Keras, TensorFlow, PyTorch. Курс завершается изучением трансформеров, больших языковых моделей и их применения для обработки текстов. Дополнительно даются навыки использования BI-инструментов.

Цель курса
Цель курса — дать слушателям комплексные знания и практические навыки по сбору, обработке, анализу и визуализации данных с использованием современных методов и инструментов, включая машинное обучение и нейронные сети. Курс позволит стать квалифицированными специалистами, способными решать широкий спектр задач в области анализа данных для применения в различных практических сферах.

Преподаватель курса

  • Эксперт Кластера «Искусственный интеллект» Российской Ассоциации Электронных Коммуникаций (РАЭК).
  • Эксперт и член жюри проекта «Цифровой прорыв. Сезон: Искусственный интеллект». Реализуется в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации». Организатор — АНО «Россия – страна возможностей».
  • Разработка моделей машинного обучения для целей классификации, кластеризации и ранжирования, программная реализации систем на основе ИИ:
    Классификатор вакансий на основе использования нейронных сетей CNN, LSTM, GRU
  • Разработка чат-ботов на основе ИИ с использованием LLM GPT-3, GPT-4 и фреймворка Botpress
  • Разработка системы обнаружения аномалий трафика на площадках РСЯ Яндекс Директ и повышение эффективности контекстной рекламы на основе использования нейронных сетей

Получаемые знания и навыки

  • Навыки работы с языком программирования Python и его библиотеками для целей обработки и анализа данных (NumPy, Pandas)
  • Умение визуализировать данные с помощью библиотек Matplotlib и Seaborn
  • Знание методов сбора, очистки и предварительного анализа данных
  • Понимание принципов нормализации данных, работы с категориальными признаками и снижения размерности
  • Знание основ статистики, включая распределения, выборки и проверку гипотез
  • Навыки работы с базами данных и SQL (на примере PostgreSQL)
  • Понимание основных концепций и типов алгоритмов машинного обучения
  • Умение строить и оценивать модели машинного обучения для задач регрессии, классификации и кластеризации
  • Знание алгоритмов классификации текстов, таких как наивный байесовский классификатор и метод опорных векторов
  • Понимание основ нейронных сетей, включая архитектуры сверточных и рекуррентных сетей
  • Навыки работы с фреймворками глубокого обучения (Keras, TensorFlow, PyTorch)
  • Знание принципов обработки естественного языка и применения трансформеров и больших языковых моделей
  • Умение использовать BI-инструменты для анализа и визуализации данных
  • Навыки решения реальных задач анализа данных и построения прогнозных моделей

Краткая программа курса

  • Типы данных. Работа с массивами в NumPy.
  • Работа с данными в Pandas.
  • Визуализация данных в Matplotlib и Seaborn.
  • Сбор данных. Очистка данных. Разведывательный анализ данных.
  • Нормализация данных. Категориальные данные и их кодирование. Уменьшение размерности. PCA.
  • Распределение данных и распределение выборок.
  • Статистический анализ. Эксперименты, гипотезы и проверка значимости.
  • Базы данных и SQL. PostgreSQL.
  • Введение в искусственный интеллект, машинное обучение и нейронные сети. Типы машинного обучения.
  • Предварительная обработка и очистка данных для машинного обучения. Отбор и конструирование признаков для обучения моделей.
  • Регрессия. Линейная регрессия. Функции потерь. Градиентный спуск. Scikit-Learn. Метрики качества регрессии. Полиномиальная регрессии.
  • Недообучение и переобучение. Оптимизация процесса обучения.
  • Классификация. Бинарная и многоклассовая классификация. Логистическая регрессия. Метрики качества классификации.
  • Метод k-ближайших соседей. Деревья решений. Ансамблирование. Бустинг.
  • Введение в обработку естественного языка. Наивный байесовский классификатор. Метод опорных векторов. Классификация документов.
  • Кластеризация. Метод k-средних. DBSCAN. Обнаружение аномалий.
  • Введение в глубокое обучение. Нейрон. Модель перцептрона. Классификация изображений
  • Многослойный перцептрон. Функции активации и функции потерь. Обратное распространение. Оптимизация процесса обучения нейронных сетей.
  • Фреймворки для глубокого обучения (Keras, TensorFlow, PyTorch)
  • Сверточные нейронные сети. Компьютерное зрение.
  • Рекурентные нейронные сети. Обработка временных рядов и числовых последовательностей.
  • Трансформеры. Большие языковые модели (LLM). Fine-Tuning. RAG. Введение в обработку и генерацию текста при помощи LLM. Промпт-инжиниринг.
  • Анализ и визуализация данных при помощи BI-инструментов.

Отзывы по курсу

Октябрь 2024
Слушатель: Резниченко Вячеслав
Отзыв: Интересный курс!

Октябрь 2024
Слушатель: Кожемяко Даниил
Отзыв: Удобная работа в Google Collab