Обучение HADM: Администрирование кластера Hadoop

Конференция
30 марта - 3 апреля 2020
г. Москва

В календарь

Google Calendar iCalendar (.ics)
Все мероприятия

Курс администрирование кластера Hadoop построен на сквозных практических примерах развертывания и администрирования распределенной вычислительной среды: локально и в облачной инфраструктуре.

 Вы изучите особенности использования компонент Hadoop для запуска задач распределенных вычислений с  тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Cloudera Distributed Hadoop/ HortonWorks и Arenadata Hadoop (российский дистрибутив Hadoop в рамках программы  импортозамещения), а также программного обеспечения управления кластером Cloudera Manager/ Arenadata Hadoop / HortonWorks.

Программа курса «Администрирование кластера Hadoop»

1. Введение в Big Data

  • Что такое Big Data. Понимание проблемы Big Data
  • Эволюция систем распределенных вычислений Hadoop
  • Принципы формирования Data Lake и pipelines

2. Архитектура Apache Hadoop

  • Hadoop сервисы и основные компоненты. Name node. Data Node.
  • YARN сервис — планировщик
  • HDFS
  • Отказоустойчивость и высокая доступность
  • Hadoop Distributed File System

3.. Архитектура HDFS. Блоки HDFS.

  • Основные команды работы с HDFS.
  • Операции чтения и записи, назначения HDFS
  • Дисковые квоты. Поддержка компрессии
  • Основные форматы хранения данных TXT, AVROORCParquetSequence файлы
  • Импорт (загрузка) данных на HDFS
  • Организация Tiering для хранения данных
  • Архивное хранение HDFS
  • Локальное чтение и распределенное кэширование

4. Map Reduce

  • Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2/3
  • Ограничения и параметры MapReduce и YARN
  • Управление запуском пользовательских задач (jobs) под MapReduce

5. Дизайн кластера Hadoop

  • Сравнение дистрибутивов и версий Hadoop 2/3 (Cloudera Distributed HadoopMapRHortonWorks Data Platform, Arenadata Hadoop): различия и ограничения
  • Требования программного и аппаратного обеспечения
  • Планирование кластера
  • Масштабирование кластера Hadoop. Отказоустойчивость Hadoop
  • Federated NameNode. Hadoop в облаке.
  • Сравнение Cloud решений для Hadoop. Amazon EMR
  • Интеграция с другими решениями: streaming (DataFlow), NoSQL.

6. Установка кластера

  • Установка Hadoop кластера
  • Выбор начальной конфигурации
  • Оптимизация уровня ядра для узлов
  • Начальная конфигурация HDFS и MapReduce
  • Файлы логов и конфигураций
  • Установка Hadoop клиентов
  • Установка Hadoop кластера в облаке
  • Автоматические варианты установки
  • Установка и настройка кластера Hadoop в изолированном окружении (offline).

7. Операции обслуживания кластера Hadoop

Дисковая подсистема

Квоты

Остановка, запуск, перезапуск(Graceful Shutdown)

Управление узлами

Управление обновлениями и создание локального репозитория

8. Оптимизация и управление ресурсами

Поиск узких мест.

Производительность. Файловая система. Data Node и data layout и партиционирование, bucketing

Планировщики: FIFO scheduler. Планировщик емкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF.

Особенности управления ресурсами для разных дистрибутивов

9. Управление кластером Hadoop с использованием Cloudera Manager/Apache Ambari

Установка Cloudera Manager/Apache Ambari

Основные операции и задачи Cloudera Manager/Apache Ambari

Мониторинг с Cloudera Manager/Apache Ambari/ Grafana

Диагностика и разрешение проблем с Cloudera Manager/Apache Ambari

10. Безопасность Apache Hadoop

  • Безопасность по умолчанию
  • Многопользовательский режим
  • Аутентификация и авторизация с использованием Active Directory(Microsoft), REALM MIT/FreeIPA: Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop
  • Обзор возможностей Apache Sentry, Cloudera Navigator, Apache Ambari, Apache Ranger, Apache Knox, Apache Atlas
  • Резервное копирование и аварийное восстановление
  • Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA)
  • Компоненты безопасности Hadoop
  • Best practices Cloudera / HortonWorks/Cloudera/ArenaData

11. Мониторинг Apache Hadoop

  • Apache Zookeeper
  • Встроенные средства мониторинга Cloudera Manager/Apache Ambari
  • Логи сервисов и компонент
  • Внешние системы мониторинга: Zabbix, JMX, Grafana

12. Troubleshooting

  • Data Node
  • Name Node
  • Восстановление Name Node

13. Инструментарий Apache Hadoop экосистемы

  • Графический интерфейс сервиса HUE
  • Подключение Cloudera Data Science Workbench
  • Назначение  Apache Zookeeper
  • Основы Apache Pig — установка и выполнение базовых операций
  • Введение в Apache Hive, понятие Hive таблицы, установка Hive
  • Использование Apache sqoop — установка и выполнение базовых операций
  • Базовые операции Apache Flume — установка и выполнение базовых операций
  • Обзор и назначение компонент: Cloudera Impala, Apache NiFi,  Apache HBase, Apache Kafka, Apache Zookeeper, Apache Oozie

Примерный список практических занятий:

  • Ручная установка кластера Hadoop с дистрибутива Cloudera Distributed
  • Hadoop/HortonWorks/Arenadata Hadoop на локальной системе 3-узловый кластер
  • Установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari
  • Базовые операции с кластером Hadoop и файловые операции HDFS.
  • Управление ресурсами и запуском задач с использованием YARN MapReduce/Tez.
  • Управление кластером с использованием Cloudera Manager/Apache Ambari(развертывание сервисов, репликация, мониторинг, alerting и т.д.)
  • Конфигурирование системы аутентификации Kerberos для кластера Hadoop под управление Cloudera Manager/Apache Ambari
  • Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume
  • Выполнение задач в веб-интерфейсе HUE/Apache Ambari View
  • Мониторинг кластера Hadoop с использованием Zabbix (опционально)
  • HA высокая доступность (High Availablility) Name Node и YARN (ресурс-менеджер

Контакты

Место проведения

Комментарии пользователей