- Освоят взаимодействие с Hadoop средствами Python;
- Ознакомятся с архитектурой и возможностями Apache Spark;
- Практически изучат работу с библиотекой Machine Learning Library (MLlib);
- Узнают, как работать с Resilient Distributed Datasets (RDDs);
- Практически освоят популярные методы ML (Machine Learning) и DS (Data Science).
Стоимость курса
90 000 рубЗаказать
Аудитория:
Курс предназначен для аналитиков, исследователей, разработчиков и специалистов по анализу данных, планирующих использовать Python для решения задач, связанных с обработкой больших объемов данных с помощью Apache Hadoop и Apache Spark.Требования к предварительной подготовке слушателя:
Необходимы базовые навыки программирования на языке Python и знакомство с пакетами NumPy и Pandas в объеме курса "Python для анализа данных".Содержание курса
Архитектура Apache Hadoop.
- Распределенная файловая система HDFS.
- Алгоритм MapReduce.
- Менеджер ресурсов YARN.
- Важнейшие проекты экосистемы Hadoop.
- Протоколы Hadoop для доступа к HDFS.
- Доступ посредством WebHDFS.
- Прямой RPC доступ.
- Интерфейсы libhdfs и libhdfs3.
- Пакет pyarrow.
- Интерфейс Hadoop streaming.
- Реализация MapReduce с помощью Python.
- Запуск задания MapReduce.
- Основы Pig Latin.
- Запуск Pig.
- Расширение Pig с помощью Python.
- Возможности Apache Spark.
- Компоненты Spark.
- Библиотека Machine Learning Library (MLlib).
- Взаимодействие и сферы применения Hadoop и Spark.
- Пакет PySpark.
- Оркестратор Apache Oozie.
- Python и Oozie.
- Конвейеризация пакетной обработки Spotify Luigi.
- Создание RDD (Resilient Distributed Dataset).
- Операции Spark.
- Объекты DataFrame в Pandas и PySpark.
- Работа с DataFrame.
- Методы одномерного статистического анализа.
- Методы многомерного статистического анализа.
- Линейная регерессия.
- Обобщенная линейная регрессия.
- Деревья принятия решений.
- Алгоритм случайного леса.
- Метод градиентного спуска.
- Метод наименьших квадратов.
- Гребневая регрессия (Ridge regression).
- Метод LASSO.
- Метод Эластичной Сети (ElasticNet).
- Наивная байесовская классификация.
- Логистическая регрессия.
- Деревья принятия решений.
- Классификация случайным лесом.
- Градиентный бустинг.
- Применение кластеризации.
- Метод k-средних.
- Методология и терминология RFM.
- Стадии RFM.
- Извлечение текста из образов.
- Предварительная обработка текста.
- Классификация текста.
- Анализ намерений (Sentiment/Opinion Mining).
- Модель LDA (Latent Dirichlet Allocation).
- Методология.
- Построение сети связей (Co-occurrence Network).
- Симуляция выигрыша.
- Симуляция случайных процессов.
- Применения метода Монте-Карло.
- Марковские цепи Монте-Карло.
- Алгоритм Метрополис.