Основы Hadoop

Код: ITCloud-Hdb

Курс дает представление об основах Apache™ Hadoop® и методах разработки приложений, обрабатывающих данные, на его основе. Участники познакомятся с HDFS – стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, новым фреймворком YARN,  а также сопутствующими проектами, составляющими экосистему Hadoop®.

Формат проведения

-

Продолжительность

32 академических часа

Вендор

ITCloud
vendor

Вы научитесь

  • понимать ключевые концепции и архитектуру Hadoop®;

  • уметь записывать и читать данные в/из HDFS;

  • разрабатывать программы для классического MapReduce и для YARN;

  • работать с данными в HDFS из MapReduce-программ;

  • получить представление об экосистеме, сложившейся вокруг Hadoop® и ее ключевых компонентах.

Требования к предварительной подготовке слушателя

Знание языка Java и основ JVM.

Аудитория курса

Для специалистов в области распределённой обработки больших данных.

Содержание курса

Модуль 1. Введение

  • Hadoop и РСУБД

  • Распределенные вычисления

  • Краткая история Hadoop

  • ApacheHadoop и экосистема Hadoop

  • ВыпускиHadoop

  • Версии MapReduceAPI

  • Совместимость версий

Модуль 2. MapReduce

  • Набор метеорологических данных

  • Формат данных

  • Анализ данных средствами Unix

  • Анализ данных в Hadoop

  • Отображение и свертка

  • Программа MapReduce на языке Java

  • MapReduce в перспективе

  • Поток данных

  • Комбинирующие функции

  • Выполнение распределенного задания MapReduce

  • Hadoop Streaming

  •  Hadoop Pipes

  • Компиляция и запуск

Модуль 3. HDFS

  • Строение HDFS

  • Основные концепции HDFS

  • Блоки

  • Узлы имен и узлы данных

  • HDFS Federation

  • Высокая доступность HDFS

  • Преодоление сбоев и изоляция

  • Интерфейс командной строки

  • Основные операции файловой системы

  • Файловые системы Hadoop

  • Интерфейсы

  • Интерфейс Java

  • Чтение данных Hadoop по URL-адресу

  • Чтение данных с использованием Filesystem API

  • Запись данных

  • Получение информации от файловой системы

  • Удаление данных

  • Поток данных

  • Чтение файла, запись в файлы

  • Модель целостности

  • Перемещение данных: Flume и Sqoop

  • Параллельное копирование с использованием distcp

  • Сбалансированность кластеров HDFS

  • HAR

  • Использование HAR

  • Ограничения

Модуль 4. Ввод/вывод в Hadoop

  • Целостность данных

  • Целостность данных в HDFS

  • Local File System

  • Checksum File System

  • Сжатие

  • Кодеки

  • Сжатие и разбиение входных данных

  • Использование сжатия в MapReduce

  • Сериализация

  • Интерфейс Writable

  • Классы Writable

  • Пользовательские реализации Writable

  • Программные среды сериализации

Модуль 5. Avro

  • Типы данных и схемы Avro

  • Сериализация и десериализация в памяти

  •  Файлы данных Avro

  • Файловые структуры данных

  • SequenceFile

  • MapFile

Модуль 6. Разработка приложений MapReduce

  • API конфигурации

  • Объединение ресурсов

  • Расширение переменных

  • Настройка среды разработки

  • Управление конфигурацией

  • Написание модульных тестов с MRUnit

  • Функция отображения

  • Функция свертки

  • Локальное выполнение с тестовыми данными

  • Локальный запуск задания

  • Тестирование управляющей программы

  • Запуск в кластере

  • Упаковка задания, запуск задания

  • Веб-интерфейсMapReduce

  • Получение результатов

  • Отладка задания

  • Журналы Hadoop

  • Удаленная отладка

  • Оптимизация задания

  • Профилирование

  • Модель Map Reduce

  • Разложение задачи на задания MapReduce

Модуль 7. Создание кластера Hadoop

  • Оборудование кластера

  • Сетевая топология

  • Настройка и установка кластера

  • Создание пользователя Hadoop

  • Установка Hadoop

  • Тестирование установки

  • КонфигурацияSSH

  • Конфигурация Hadoop

  • Управление конфигурацией

  • Настройки окружения

  • Важные свойства демонов Hadoop

  • Адреса и порты демонов Hadoop

  • Другие свойства Hadoop

  • Создание учетных записей пользователей

  • Конфигурация YARN

  •  Важные свойства демонов YARN

  • Адреса и порты демонов YARN

Модуль 8. Администрирование Hadoop

  • HDFS

  • Дисковые структуры данных

  • Безопасный режим

  • Журналы аудита

  • Инструменты

  • Мониторинг

  • Ведение журналов

  • Метрики

  • Сопровождение

  • Стандартные административные процедуры

  • Включение и исключение узлов

  • Обновления

Модуль 9. Hive

  • Оболочка Hive

  • Пример

  • Администрирование Hive

  • Настройка конфигурации Hive

  • Сервисные функции Hive

  • Метахранилище

  • Сравнение с традиционными базами данных

  • Проверка схемы при чтении и записи

  • Обновления, транзакции и индексы

  • HiveQL

  • Типы данных

  • Операторы и функции

  • Таблицы

  • Управляемые и внешние таблицы

  • Разделы и гнезда

  • Форматы хранения данных

  • Импортирование данных

  • Модификация таблиц

  • Удаление таблиц

  • Запросы к данным

  • Сортировка и агрегирование

  • Сценарии MapReduce

  • Подзапросы

  • Пользовательские функции

Модуль 10. HBase

  • Знакомство с Hbase

  • История

  • Концепции

  • Краткий обзор модели данных

  • Реализация

  • Пробный запуск

  • Клиенты

  • Java

  • Avro,RESTиThrift

  • Схемы

  • Загрузка данных

  • Веб-запросы

  • HBase и РСУБД

  • Масштабирование успешного сервиса

Модуль 11. ZooKeeper

  • Установка и запуск ZooKeeper

  • Реализация списка принадлежности в ZooKeeper

  • Создание группы

  • Присоединение к группе

  • Вывод списка участников группы

  • Удаление группы

  • Сервис ZooKeeper

  • Модель данных

  • Операции

  • Реализация

  • Согласованность данных

  • Сеансы

  • Состояния

  • Построение приложений с использованием ZooKeeper

  • Отказоустойчивое приложение ZooKeeper

  • Блокировка

  • Другие распределенные структуры данных и протоколы

  • Практическое использование ZooKeeper

  • Надежность и производительность


Основы Hadoop
Дата скоро будет объявлена
35 998 ₽
Подать заявку
Затрудняетесь
с выбором курса?

Оставьте заявку на консультацию

Отправляя заявку, вы соглашаетесь с условиями обработки персональных данных

Как происходит обучение в АйТи Клауд

01 Выбор курса

В Учебном центре «АйТи Клауд» Вы можете подобрать курсы с полезным для Вас содержанием. УЦ «АйТи Клауд» готов предложить 1200+ программ различной тематики и степени сложности. Мы проводим курсы, авторизованные производителями ИТ, и также авторские программы от ведущих ИТ-экспертов.

02 Процесс обучения

Вы можете пройти обучение в различных форматах:

  • в очном - на территории Учебного центра либо территории Заказчика,

  • онлайн - на российской онлайн-платформе в режиме реального времени, через интернет, с выполнением всех необходимых практических заданий под онлайн-руководством преподавателя. 


03 Выдача документов

По завершении обучения Вы получите удостоверение о повышении сертификации или сертификат (если у Вас отсутствует диплом о высшем образовании). После обучения на авторизованных курсах Вам также будет выдан сертификат от производителя.

poster
Затрудняетесь
с выбором курса?

Оставьте заявку на консультацию

Отправляя заявку, вы соглашаетесь с условиями обработки персональных данных

Хотите преподавать в АйТи Клауд?

Если вы имеете компетенции и хотите работать тренером курсов в АйТи Клауд - оставьте ваши данные, мы свяжемся с вами!