ГлавнаяКурсыITCloudБольшие данные (Big Data)Применение HADOOP для работы с BigData

Применение HADOOP для работы с BigData

Код: ITCloud-Hd

Hadoop является наиболее популярной открытой платформой для распределенных вычислений. Курс Hd - "Применение HADOOP для работы с BigData" содержит расширенную информацию по планированию и развертыванию распределенных вычислительных кластеров на базе Hadoop, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройкам безопасности системы на базе Hadoop. Данный курс включает необходимую теоретическую подготовку и наглядные практические примеры развертывания и администрирования Hadoop-кластера, в том числе в облачной инфраструктуре. Практические занятия выполняются в кластерной среде AWS с использованием программного обеспечения Cloudera Manager и подготавливают слушателей к сдаче сертификационного экзамена Cloudera Certified Administrator for Apache Hadoop (CCAH).

Формат проведения

Продолжительность

40 академических часов

Вендор

ITCloud

Тематика

Большие данные (Big Data)

Вы научитесь

Предоставить практические знания для работы с кластерами Hadoop
Научить планировать, развертывать и поддерживать кластеры Hadoop
Обучить выполнению резервного копирования
Предоставить методологию и навыки отладки и устранения неисправностей

Аудитория курса

Системные администраторы, системные архитекторы, разработчики Hadoop

Требования к предварительной подготовке слушателя

Базовые знания Linux и основ Java

Содержание курса

Модуль 1. Введение в Big Data

Что такое Big Data
Понимание проблемы Big Data

Модуль 2. Hadoop Distributed File System

Блоки HDFS
Основные команды работы с HDFS
Операции чтения и записи, назначения HDFS
Архитектура HDFS

Модуль 3. Архитектура Apache Hadoop

Отказоустойчивость Hadoop
Name node
YARN
Map reduce framework
Hadoop daemons

Модуль 4. Дизайн кластера Hadoop

Дистрибутивы и версии Hadoop: различия и ограничения
Требования программного и аппаратного обеспечения
Вопросы масштабирования
Планирование кластера
Оптимизация уровня ядра
Hadoop в облаке

Модуль 5. Установка кластера

Установка Hadoop кластера
Выбор начальной конфигурации
Начальная конфигурация HDFS и MapReduce
Файлы журналов сообщений
Установка Hadoop клиентов
Установка Hadoop кластера в облаке
Выбор вендора и хостинга
Установка с использованием виртуального образа
Amazon EMR

Модуль 6. MapReduce

Введение в MapReduce
Компоненты MapReduce
Работа программы MapReduce
YARN MapReduce v2
Восстановление после сбоя

Модуль 7. Операции обслуживания кластера Hadoop

Дисковая подсистема
Квоты
Остановка, запуск, перезапуск
Управление узлами
Сетевая топология
Настройка высокой доступности кластера и обновлений
Импорт(загрузка) данных на HDFS

Модуль 8. Управление кластером Hadoop с использованием Cloudera Manager

Установка Cloudera Manager
Основные операции и задачи Cloudera Manager
Мониторинг с Cloudera Manager
Диагностика и разрешение проблем с Cloudera Manager

Модуль 9. Безопасность при работе с Big Data

Многопользовательский режим
Аутентификация и авторизация
Kerberos, keytabs, principals
Установка и конфигурирование Kerberos в Hadoop

Модуль 10. Мониторинг

Ganglia
JMX
Logging
Clustering

Модуль 11. Оптимизация и управление ресурсами

Поиск узких мест
Производительность
Файловая система
Worker Node
Сетевая производительность
FIFO scheduler
Планировщик емкости (Capacity scheduler)
Гранулярное управление ресурсами (Fair scheduler)
Защита очередей и доминантное управление ресурсами

Модуль 12. Troubleshooting

Data Node
Task Tracker
Job Tracker
Name Node

Модуль 13. Резервное копирование (Backup)

Репликация данных
Резервное копирование и аварийное восстановление
Best practices

Модуль 14. Импорт данных

Анализ журналов
Потоковая обработка
Импорт данных из социальных сетей

Модуль 15. Инструментарий Hadoop экосистемы

Apache Pig - установка и функционал
Apache Hive, понятие Hive таблицы, установка Hive
Apache Scoop - установка и функционал
Apache Flume - установка и функционал
Apache Spark-установка и функционал Apache HBase- установка функционал

Применение HADOOP для работы с BigData

Дата скоро будет объявлена

60 000 ₽

Как происходит обучение в АйТи Клауд

01 Выбор курса

В Учебном центре «АйТи Клауд» Вы можете подобрать курсы с полезным для Вас содержанием. УЦ «АйТи Клауд» готов предложить 1200+ программ различной тематики и степени сложности. Мы проводим курсы, авторизованные производителями ИТ, и также авторские программы от ведущих ИТ-экспертов.

02 Процесс обучения

Вы можете пройти обучение в различных форматах:

в очном - на территории Учебного центра либо территории Заказчика,
онлайн - на российской онлайн-платформе в режиме реального времени, через интернет, с выполнением всех необходимых практических заданий под онлайн-руководством преподавателя.

03 Выдача документов

По завершении обучения Вы получите удостоверение о повышении квалификации или сертификат (если у Вас отсутствует диплом о высшем образовании). После обучения на авторизованных курсах Вам также будет выдан сертификат от производителя.

Подробнее о формах обучения