Стоимость курса
35 998 рубВы научитесь:
-
понимать ключевые концепции и архитектуру Hadoop®;
-
уметь записывать и читать данные в/из HDFS;
-
разрабатывать программы для классического MapReduce и для YARN;
-
работать с данными в HDFS из MapReduce-программ;
- получить представление об экосистеме, сложившейся вокруг Hadoop® и ее ключевых компонентах.
Аудитория:
Для специалистов в области распределённой обработки больших данных.Требования к предварительной подготовке слушателя:
Знание языка Java и основ JVM.Содержание курса
Модуль 1. Введение
-
Hadoop и РСУБД
-
Распределенные вычисления
-
Краткая история Hadoop
-
ApacheHadoop и экосистема Hadoop
-
ВыпускиHadoop
-
Версии MapReduceAPI
-
Совместимость версий
Модуль 2. MapReduce
-
Набор метеорологических данных
-
Формат данных
-
Анализ данных средствами Unix
-
Анализ данных в Hadoop
-
Отображение и свертка
-
Программа MapReduce на языке Java
-
MapReduce в перспективе
-
Поток данных
-
Комбинирующие функции
-
Выполнение распределенного задания MapReduce
-
Hadoop Streaming
-
Hadoop Pipes
-
Компиляция и запуск
Модуль 3. HDFS
-
Строение HDFS
-
Основные концепции HDFS
-
Блоки
-
Узлы имен и узлы данных
-
HDFS Federation
-
Высокая доступность HDFS
-
Преодоление сбоев и изоляция
-
Интерфейс командной строки
-
Основные операции файловой системы
-
Файловые системы Hadoop
-
Интерфейсы
-
Интерфейс Java
-
Чтение данных Hadoop по URL-адресу
-
Чтение данных с использованием Filesystem API
-
Запись данных
-
Получение информации от файловой системы
-
Удаление данных
-
Поток данных
-
Чтение файла, запись в файлы
-
Модель целостности
-
Перемещение данных: Flume и Sqoop
-
Параллельное копирование с использованием distcp
-
Сбалансированность кластеров HDFS
-
HAR
-
Использование HAR
- Ограничения
Модуль 4. Ввод/вывод в Hadoop
-
Целостность данных
-
Целостность данных в HDFS
-
Local File System
-
Checksum File System
-
Сжатие
-
Кодеки
-
Сжатие и разбиение входных данных
-
Использование сжатия в MapReduce
-
Сериализация
-
Интерфейс Writable
-
Классы Writable
-
Пользовательские реализации Writable
-
Программные среды сериализации
Модуль 5. Avro
-
Типы данных и схемы Avro
-
Сериализация и десериализация в памяти
-
Файлы данных Avro
-
Файловые структуры данных
-
SequenceFile
-
MapFile
Модуль 6. Разработка приложений MapReduce
-
API конфигурации
-
Объединение ресурсов
-
Расширение переменных
-
Настройка среды разработки
-
Управление конфигурацией
-
Написание модульных тестов с MRUnit
-
Функция отображения
-
Функция свертки
-
Локальное выполнение с тестовыми данными
-
Локальный запуск задания
-
Тестирование управляющей программы
-
Запуск в кластере
-
Упаковка задания, запуск задания
-
Веб-интерфейсMapReduce
-
Получение результатов
-
Отладка задания
-
Журналы Hadoop
-
Удаленная отладка
-
Оптимизация задания
-
Профилирование
-
Модель Map Reduce
-
Разложение задачи на задания MapReduce
Модуль 7. Создание кластера Hadoop
-
Оборудование кластера
-
Сетевая топология
-
Настройка и установка кластера
-
Создание пользователя Hadoop
-
Установка Hadoop
-
Тестирование установки
-
КонфигурацияSSH
-
Конфигурация Hadoop
-
Управление конфигурацией
-
Настройки окружения
-
Важные свойства демонов Hadoop
-
Адреса и порты демонов Hadoop
-
Другие свойства Hadoop
-
Создание учетных записей пользователей
-
Конфигурация YARN
-
Важные свойства демонов YARN
-
Адреса и порты демонов YARN
Модуль 8. Администрирование Hadoop
-
HDFS
-
Дисковые структуры данных
-
Безопасный режим
-
Журналы аудита
-
Инструменты
-
Мониторинг
-
Ведение журналов
-
Метрики
-
Сопровождение
-
Стандартные административные процедуры
-
Включение и исключение узлов
-
Обновления
Модуль 9. Hive
-
Оболочка Hive
-
Пример
-
Администрирование Hive
-
Настройка конфигурации Hive
-
Сервисные функции Hive
-
Метахранилище
-
Сравнение с традиционными базами данных
-
Проверка схемы при чтении и записи
-
Обновления, транзакции и индексы
-
HiveQL
-
Типы данных
-
Операторы и функции
-
Таблицы
-
Управляемые и внешние таблицы
-
Разделы и гнезда
-
Форматы хранения данных
-
Импортирование данных
-
Модификация таблиц
-
Удаление таблиц
-
Запросы к данным
-
Сортировка и агрегирование
-
Сценарии MapReduce
-
Подзапросы
-
Пользовательские функции
Модуль 10. HBase
-
Знакомство с Hbase
-
История
-
Концепции
-
Краткий обзор модели данных
-
Реализация
-
Пробный запуск
-
Клиенты
-
Java
-
Avro,RESTиThrift
-
Схемы
-
Загрузка данных
-
Веб-запросы
-
HBase и РСУБД
-
Масштабирование успешного сервиса
Модуль 11. ZooKeeper
-
Установка и запуск ZooKeeper
-
Реализация списка принадлежности в ZooKeeper
-
Создание группы
-
Присоединение к группе
-
Вывод списка участников группы
-
Удаление группы
-
Сервис ZooKeeper
-
Модель данных
-
Операции
-
Реализация
-
Согласованность данных
-
Сеансы
-
Состояния
-
Построение приложений с использованием ZooKeeper
-
Отказоустойчивое приложение ZooKeeper
-
Блокировка
-
Другие распределенные структуры данных и протоколы
-
Практическое использование ZooKeeper
-
Надежность и производительность