Стоимость курса
90 000 рубЗаказать
Аудитория:
Системные администраторы, системные архитекторы, разработчики Hadoop.Требования к предварительной подготовке слушателя:
Начальный опыт работы в Unix.Содержание курса
- Введение в Big Data
- Что такое Big Data
- Понимание проблемы Big Data
- Hadoop Distributed File System
- Блоки HDFS
- Основные команды работы с HDFS
- Операции чтения и записи, назначения HDFS
- Архитектура HDFS
- Архитектура Apache Hadoop
- Отказоустойчивость Hadoop
- Name node
- YARN
- Map reduce framework
- Hadoop daemons
- Дизайн кластера Hadoop
- Дистрибутивы и версии Hadoop: различия и ограничения
- Требования программного и аппаратного обеспечения
- Вопросы масштабирования
- Планирование кластера
- Оптимизация уровня ядра.
- Hadoop в облаке.
- Установка кластера
- Установка Hadoop кластера
- Выбор начальной конфигурации
- Начальная конфигурация HDFS и MapReduce
- Файлы логов
- Установка Hadoop клиентов
- Установка Hadoop кластера в облаке
- Выбор вендора и хостинга
- Установка с использованием виртуального образа
- Amazon EMR
- MapReduce
- Введение в MapReduce
- Компоненты MapReduce
- Работа программы MapReduce
- YARN MapReduce v2
- Восстановление после сбоя
- Операции обслуживания кластера Hadoop
- Дисковая подсистема
- Квоты
- Остановка, запуск, перезапуск
- Управление узлами
- Сетевая топология
- Настройка высокой доступности кластера и обновлений
- Импорт(загрузка) данных на HDFS
- Управление кластером Hadoop с использованием Cloudera Manager
- Установка Cloudera Manager
- Основные операции и задачи Cloudera Manager
- Мониторинг с Cloudera Manager
- Диагностика и разрешение проблем с Cloudera Manager
- Безопасность при работе с Big Data
- Многопользовательский режим
- Аутентификация и авторизация
- Kerberos, keytabs, principals
- Установка и конфигурирование Kerberos в Hadoop
- Мониторинг
- Ganglia
- JMX
- Logging
- Clustering
- Оптимизация и управление ресурсами
- Поиск узких мест
- Производительность
- Файловая система
- Worker Node
- Сетевая производительность
- FIFO scheduler
- Планировщик емкости (Capacity scheduler)
- Гранулярное управление ресурсами (Fair scheduler)
- Защита очередей и доминантное управление ресурсами
- Troubleshooting
- Data Node
- Task Tracker
- Job Tracker
- Name Node
- Резервное копирование (Backup)
- Репликация данных
- Резервное копирование и аварийное восстановление
- Best practices
- Импорт данных.
- Анализ логов
- Потоковая обработка
- Batch процессинг
- Импорт данных из социальных сетей
- Инструментарий Hadoop экосистемы
- Apache Pig - установка и функционал
- Apache Hive, понятие Hive таблицы, установка Hive
- Apache Scoop - установка и функционал
- Apache Flume - установка и функционал
- Apache Spark-установка и функционал
- Apache HBase- установка функционал