Стоимость курса
60 000 рубВы научитесь:
-
Предоставить практические знания для работы с кластерами Hadoop
-
Научить планировать, развертывать и поддерживать кластеры Hadoop
-
Обучить выполнению резервного копирования
- Предоставить методологию и навыки отладки и устранения неисправностей
Аудитория:
Системные администраторы, системные архитекторы, разработчики Hadoop.Требования к предварительной подготовке слушателя:
Базовые знания Linux и основ Java.Содержание курса
Введение в Big Data
Что такое Big Data
Понимание проблемы Big Data
Hadoop Distributed File System
Блоки HDFS
Основные команды работы с HDFS
Операции чтения и записи, назначения HDFS
Архитектура HDFS
Архитектура Apache Hadoop
Отказоустойчивость Hadoop
Name node
YARN
Map reduce framework
Hadoop daemons
Дизайн кластера Hadoop
Дистрибутивы и версии Hadoop: различия и ограничения
Требования программного и аппаратного обеспечения
Вопросы масштабирования
Планирование кластера
Оптимизация уровня ядра.
Hadoop в облаке.
Установка кластера
Установка Hadoop кластера
Выбор начальной конфигурации
Начальная конфигурация HDFS и MapReduce
Файлы журналов сообщений
Установка Hadoop клиентов
Установка Hadoop кластера в облаке
Выбор вендора и хостинга
Установка с использованием виртуального образа
Amazon EMR
MapReduce
Введение в MapReduce
Компоненты MapReduce
Работа программы MapReduce
YARN MapReduce v2
Восстановление после сбоя
Операции обслуживания кластера Hadoop
Дисковая подсистема
Квоты
Остановка, запуск, перезапуск
Управление узлами
Сетевая топология
Настройка высокой доступности кластера и обновлений
Импорт(загрузка) данных на HDFS
Управление кластером Hadoop с использованием Cloudera Manager
Установка Cloudera Manager
Основные операции и задачи Cloudera Manager
Мониторинг с Cloudera Manager
Диагностика и разрешение проблем с Cloudera Manager
Безопасность при работе с Big Data
Многопользовательский режим
Аутентификация и авторизация
Kerberos, keytabs, principals
Установка и конфигурирование Kerberos в Hadoop
Мониторинг
Ganglia
JMX
Logging
Clustering
Оптимизация и управление ресурсами
Поиск узких мест
Производительность
Файловая система
Worker Node
Сетевая производительность
FIFO scheduler
Планировщик емкости (Capacity scheduler)
Гранулярное управление ресурсами (Fair scheduler)
Защита очередей и доминантное управление ресурсами
Troubleshooting
Data Node
Task Tracker
Job Tracker
Name Node
Резервное копирование (Backup)
Репликация данных
Резервное копирование и аварийное восстановление
Best practices
Импорт данных.
Анализ журналов
Потоковая обработка
Импорт данных из социальных сетей
Инструментарий Hadoop экосистемы
Apache Pig - установка и функционал
Apache Hive, понятие Hive таблицы, установка Hive
Apache Scoop - установка и функционал
Apache Flume - установка и функционал
Apache Spark-установка и функционал
Apache HBase- установка функционал