Применение HADOOP для работы с BigData

Код: ITCloud-Hd

Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Курс Hd - "Применение HADOOP для работы с BigData" содержит расширенную информацию по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройкам безопасности системы на базе Hadoop. Данный курс включает необходимую теоретическую подготовку и наглядные практические примеры развертывания и администрирования Hadoop-кластера, в том числе в облачной инфраструктуре. Практические занятия выполняются в кластерной среде AWS с использованием программного обеспечения Cloudera Manager и подготавливают слушателей к сдаче сертификационного экзамена Cloudera Certified Administrator for Apache Hadoop (CCAH).

Формат проведения

-

Продолжительность

40 академических часов

Вендор

ITCloud
vendor

Вы научитесь

  • Предоставить практические знания для работы с кластерами Hadoop
  • Научить планировать, развертывать и поддерживать кластеры Hadoop
  • Обучить выполнению резервного копирования
  • Предоставить методологию и навыки отладки и устранения неисправностей

Аудитория курса

Системные администраторы, системные архитекторы, разработчики Hadoop

Требования к предварительной подготовке слушателя

Базовые знания Linux и основ Java

Содержание курса

Модуль 1. Введение в Big Data

  • Что такое Big Data
  • Понимание проблемы Big Data
Модуль 2. Hadoop Distributed File System

  • Блоки HDFS
  • Основные команды работы с HDFS
  • Операции чтения и записи, назначения HDFS
  • Архитектура HDFS
Модуль 3. Архитектура Apache Hadoop

  • Отказоустойчивость Hadoop
  • Name node
  • YARN
  • Map reduce framework
  • Hadoop daemons
Модуль 4. Дизайн кластера Hadoop

  • Дистрибутивы и версии Hadoop: различия и ограничения
  • Требования программного и аппаратного обеспечения
  • Вопросы масштабирования
  • Планирование кластера
  • Оптимизация уровня ядра
  • Hadoop в облаке
Модуль 5. Установка кластера

  • Установка Hadoop кластера
  • Выбор начальной конфигурации
  • Начальная конфигурация HDFS и MapReduce
  • Файлы журналов сообщений
  • Установка Hadoop клиентов
  • Установка Hadoop кластера в облаке
  • Выбор вендора и хостинга
  • Установка с использованием виртуального образа
  • Amazon EMR
Модуль 6. MapReduce

  • Введение в MapReduce
  • Компоненты MapReduce
  • Работа программы MapReduce
  • YARN MapReduce v2
  • Восстановление после сбоя
Модуль 7. Операции обслуживания кластера Hadoop

  • Дисковая подсистема
  • Квоты
  • Остановка, запуск, перезапуск
  • Управление узлами
  • Сетевая топология
  • Настройка высокой доступности кластера и обновлений
  • Импорт(загрузка) данных на HDFS
Модуль 8. Управление кластером Hadoop с использованием Cloudera Manager

  • Установка Cloudera Manager
  • Основные операции и задачи Cloudera Manager
  • Мониторинг с Cloudera Manager
  • Диагностика и разрешение проблем с Cloudera Manager
Модуль 9. Безопасность при работе с Big Data

  • Многопользовательский режим
  • Аутентификация и авторизация
  • Kerberos, keytabs, principals
  • Установка и конфигурирование Kerberos в Hadoop
Модуль 10. Мониторинг

  • Ganglia
  • JMX
  • Logging
  • Clustering
Модуль 11. Оптимизация и управление ресурсами

  • Поиск узких мест
  • Производительность
  • Файловая система
  • Worker Node
  • Сетевая производительность
  • FIFO scheduler
  • Планировщик емкости (Capacity scheduler)
  • Гранулярное управление ресурсами (Fair scheduler)
  • Защита очередей и доминантное управление ресурсами
Модуль 12. Troubleshooting

  • Data Node
  • Task Tracker
  • Job Tracker
  • Name Node
Модуль 13. Резервное копирование (Backup)

  • Репликация данных
  • Резервное копирование и аварийное восстановление
  • Best practices
Модуль 14. Импорт данных

  • Анализ журналов
  • Потоковая обработка
  • Импорт данных из социальных сетей
Модуль 15.  Инструментарий Hadoop экосистемы
  • Apache Pig - установка и функционал
  • Apache Hive, понятие Hive таблицы, установка Hive
  • Apache Scoop - установка и функционал
  • Apache Flume - установка и функционал
  • Apache Spark-установка и функционал Apache HBase- установка функционал

Применение HADOOP для работы с BigData
Дата скоро будет объявлена
60 000 ₽
Подать заявку

Как происходит обучение в АйТи Клауд

01 Выбор курса

В Учебном центре «АйТи Клауд» Вы можете подобрать курсы с полезным для Вас содержанием. УЦ «АйТи Клауд» готов предложить 1200+ программ различной тематики и степени сложности. Мы проводим курсы, авторизованные производителями ИТ, и также авторские программы от ведущих ИТ-экспертов.

02 Процесс обучения

Вы можете пройти обучение в различных форматах:

  • в очном - на территории Учебного центра либо территории Заказчика,

  • онлайн - на российской онлайн-платформе в режиме реального времени, через интернет, с выполнением всех необходимых практических заданий под онлайн-руководством преподавателя. 


03 Выдача документов

По завершении обучения Вы получите удостоверение о повышении квалификации или сертификат (если у Вас отсутствует диплом о высшем образовании). После обучения на авторизованных курсах Вам также будет выдан сертификат от производителя.

poster