Курс Основы Hadoop

Код: ITCloud-Hdb

Продолжительность курса

32 Академических часа
Курс дает представление об основах Apache™ Hadoop® и методах разработки приложений, обрабатывающих данные, на его основе. Участники познакомятся с HDFS – стандартом де факто для долговременного надежного хранения больших объемов данных, фреймворком MapReduce, автоматически управляющим параллельным выполнением приложений на кластере, новым фреймворком YARN,  а также сопутствующими проектами, составляющими экосистему Hadoop®.

Стоимость курса

35 998 руб
Заказать

Вы научитесь:

  • понимать ключевые концепции и архитектуру Hadoop®;

  • уметь записывать и читать данные в/из HDFS;

  • разрабатывать программы для классического MapReduce и для YARN;

  • работать с данными в HDFS из MapReduce-программ;

  • получить представление об экосистеме, сложившейся вокруг Hadoop® и ее ключевых компонентах.

Аудитория:

Для специалистов в области распределённой обработки больших данных.

Требования к предварительной подготовке слушателя:

Знание языка Java и основ JVM.

Содержание курса

Модуль 1. Введение

  • Hadoop и РСУБД

  • Распределенные вычисления

  • Краткая история Hadoop

  • ApacheHadoop и экосистема Hadoop

  • ВыпускиHadoop

  • Версии MapReduceAPI

  • Совместимость версий

Модуль 2. MapReduce

  • Набор метеорологических данных

  • Формат данных

  • Анализ данных средствами Unix

  • Анализ данных в Hadoop

  • Отображение и свертка

  • Программа MapReduce на языке Java

  • MapReduce в перспективе

  • Поток данных

  • Комбинирующие функции

  • Выполнение распределенного задания MapReduce

  • Hadoop Streaming

  •  Hadoop Pipes

  • Компиляция и запуск

Модуль 3. HDFS

  • Строение HDFS

  • Основные концепции HDFS

  • Блоки

  • Узлы имен и узлы данных

  • HDFS Federation

  • Высокая доступность HDFS

  • Преодоление сбоев и изоляция

  • Интерфейс командной строки

  • Основные операции файловой системы

  • Файловые системы Hadoop

  • Интерфейсы

  • Интерфейс Java

  • Чтение данных Hadoop по URL-адресу

  • Чтение данных с использованием Filesystem API

  • Запись данных

  • Получение информации от файловой системы

  • Удаление данных

  • Поток данных

  • Чтение файла, запись в файлы

  • Модель целостности

  • Перемещение данных: Flume и Sqoop

  • Параллельное копирование с использованием distcp

  • Сбалансированность кластеров HDFS

  • HAR

  • Использование HAR

  • Ограничения

Модуль 4. Ввод/вывод в Hadoop

  • Целостность данных

  • Целостность данных в HDFS

  • Local File System

  • Checksum File System

  • Сжатие

  • Кодеки

  • Сжатие и разбиение входных данных

  • Использование сжатия в MapReduce

  • Сериализация

  • Интерфейс Writable

  • Классы Writable

  • Пользовательские реализации Writable

  • Программные среды сериализации

Модуль 5. Avro

  • Типы данных и схемы Avro

  • Сериализация и десериализация в памяти

  •  Файлы данных Avro

  • Файловые структуры данных

  • SequenceFile

  • MapFile

Модуль 6. Разработка приложений MapReduce

  • API конфигурации

  • Объединение ресурсов

  • Расширение переменных

  • Настройка среды разработки

  • Управление конфигурацией

  • Написание модульных тестов с MRUnit

  • Функция отображения

  • Функция свертки

  • Локальное выполнение с тестовыми данными

  • Локальный запуск задания

  • Тестирование управляющей программы

  • Запуск в кластере

  • Упаковка задания, запуск задания

  • Веб-интерфейсMapReduce

  • Получение результатов

  • Отладка задания

  • Журналы Hadoop

  • Удаленная отладка

  • Оптимизация задания

  • Профилирование

  • Модель Map Reduce

  • Разложение задачи на задания MapReduce

Модуль 7. Создание кластера Hadoop

  • Оборудование кластера

  • Сетевая топология

  • Настройка и установка кластера

  • Создание пользователя Hadoop

  • Установка Hadoop

  • Тестирование установки

  • КонфигурацияSSH

  • Конфигурация Hadoop

  • Управление конфигурацией

  • Настройки окружения

  • Важные свойства демонов Hadoop

  • Адреса и порты демонов Hadoop

  • Другие свойства Hadoop

  • Создание учетных записей пользователей

  • Конфигурация YARN

  •  Важные свойства демонов YARN

  • Адреса и порты демонов YARN

Модуль 8. Администрирование Hadoop

  • HDFS

  • Дисковые структуры данных

  • Безопасный режим

  • Журналы аудита

  • Инструменты

  • Мониторинг

  • Ведение журналов

  • Метрики

  • Сопровождение

  • Стандартные административные процедуры

  • Включение и исключение узлов

  • Обновления

Модуль 9. Hive

  • Оболочка Hive

  • Пример

  • Администрирование Hive

  • Настройка конфигурации Hive

  • Сервисные функции Hive

  • Метахранилище

  • Сравнение с традиционными базами данных

  • Проверка схемы при чтении и записи

  • Обновления, транзакции и индексы

  • HiveQL

  • Типы данных

  • Операторы и функции

  • Таблицы

  • Управляемые и внешние таблицы

  • Разделы и гнезда

  • Форматы хранения данных

  • Импортирование данных

  • Модификация таблиц

  • Удаление таблиц

  • Запросы к данным

  • Сортировка и агрегирование

  • Сценарии MapReduce

  • Подзапросы

  • Пользовательские функции

Модуль 10. HBase

  • Знакомство с Hbase

  • История

  • Концепции

  • Краткий обзор модели данных

  • Реализация

  • Пробный запуск

  • Клиенты

  • Java

  • Avro,RESTиThrift

  • Схемы

  • Загрузка данных

  • Веб-запросы

  • HBase и РСУБД

  • Масштабирование успешного сервиса

Модуль 11. ZooKeeper

  • Установка и запуск ZooKeeper

  • Реализация списка принадлежности в ZooKeeper

  • Создание группы

  • Присоединение к группе

  • Вывод списка участников группы

  • Удаление группы

  • Сервис ZooKeeper

  • Модель данных

  • Операции

  • Реализация

  • Согласованность данных

  • Сеансы

  • Состояния

  • Построение приложений с использованием ZooKeeper

  • Отказоустойчивое приложение ZooKeeper

  • Блокировка

  • Другие распределенные структуры данных и протоколы

  • Практическое использование ZooKeeper

  • Надежность и производительность