Курс Python для Hadoop и Spark

Код: F.Py4AHS

Продолжительность курса

40 Академических часов
В результате прослушивания курса слушатели: 

  • Освоят взаимодействие с Hadoop средствами Python;
  • Ознакомятся с архитектурой и возможностями Apache Spark;
  • Практически изучат работу с библиотекой Machine Learning Library (MLlib);
  • Узнают, как работать с Resilient Distributed Datasets (RDDs);
  • Практически освоят популярные методы ML (Machine Learning) и DS (Data Science).

Стоимость курса

90 000 руб
Заказать

Аудитория:

Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, планирующих использовать Python для решения задач, связанных с обработкой больших объемов данных с помощью Apache Hadoop и Apache Spark.

Требования к предварительной подготовке слушателя:

Необходимы базовые навыки программирования на языке Python и знакомство с пакетами NumPy и Pandas в объеме курса "Python для анализа данных".

Содержание курса

Архитектура Apache Hadoop.

  • Распределенная файловая система HDFS.
  • Алгоритм MapReduce.
  • Менеджер ресурсов YARN.
  • Важнейшие проекты экосистемы Hadoop.
Взаимодействие Python и HDFS.

  •  Протоколы Hadoop для доступа к HDFS.
  •  Доступ посредством WebHDFS.
  •  Прямой RPC доступ.
  •  Интерфейсы libhdfs и libhdfs3.
  •  Пакет pyarrow.
MapReduce с Python.

  •  Интерфейс Hadoop streaming.
  •  Реализация MapReduce с помощью Python.
  •  Запуск задания MapReduce.
Pig и Python.

  •  Основы Pig Latin.
  •  Запуск Pig.
  •  Расширение Pig с помощью Python.
Архитектура Apache Spark. 

  • Возможности Apache Spark.
  •  Компоненты Spark.
  •  Библиотека Machine Learning Library (MLlib).
  •  Взаимодействие и сферы применения Hadoop и Spark.
  •  Пакет PySpark.
Управление потоком исполнения. 

  • Оркестратор Apache Oozie.
  •  Python и Oozie.
  •  Конвейеризация пакетной обработки Spotify Luigi.
Работа с Resilient Distributed Dataset.

  •  Создание RDD (Resilient Distributed Dataset).
  •  Операции Spark.
  •  Объекты DataFrame в Pandas и PySpark.
  •  Работа с DataFrame.
Статистический анализ. 

  • Методы одномерного статистического анализа.
  •  Методы многомерного статистического анализа.
Регрессия. 

  • Линейная регерессия.
  •  Обобщенная линейная регрессия.
  •  Деревья принятия решений.
  •  Алгоритм случайного леса.
  •  Метод градиентного спуска.
Регуляризация. 

  • Метод наименьших квадратов.
  •  Гребневая регрессия (Ridge regression).
  •  Метод LASSO.
  •  Метод Эластичной Сети (ElasticNet).
Классификация.
 
  • Наивная байесовская классификация.
  •  Логистическая регрессия.
  •  Деревья принятия решений.
  •  Классификация случайным лесом.
  •  Градиентный бустинг.
Кластеризация. 

  • Применение кластеризации.
  •  Метод k-средних.
RFM анализ. 

  • Методология и терминология RFM.
  •  Стадии RFM.
Интеллектуальный анализ текстов (Text Mining).

  •  Извлечение текста из образов.
  •  Предварительная обработка текста.
  •  Классификация текста.
  •  Анализ намерений (Sentiment/Opinion Mining).
  •  Модель LDA (Latent Dirichlet Allocation).
Анализ социальных сетей.

  •  Методология.
  •  Построение сети связей (Co-occurrence Network).
Метод Монте-Карло. 

  • Симуляция выигрыша.
  •  Симуляция случайных процессов.
  •  Применения метода Монте-Карло.
  •  Марковские цепи Монте-Карло.
  •  Алгоритм Метрополис.
Введение в нейронные сети.