Практический курс для администраторов и разработчиков для Apache Hive. Рассматриваются методы доступа к данным с использованием HiveQL, загрузка и выгрузка данных в Hive, HDFS, реляционные БД и NoSQL, организация и оптимизация хранения данных с использованием Hive на HDFS, вопросы интеграции с другими инструментами экосистемы Hadoop. Практические занятия выполняются в AWS и локальной кластерной системе с использованием дистрибутивов Cloudera Hadoop, HortonWorks, Arenadata.
Программа курса
1. Основные концепции Apache Hive
- Архитектура Hive.
- Инструменты администирования и исполнения запросов: beeline/Hive shell & HUE Query Editor.
- Схема чтения и записи в Hive.
- Структура и формат хранения файлов HIVE.
- Синтаксис HiveQL. Hive DDL и DML операции.
2. Импорт и экспорт в Apache Hive
- Загрузка данных в таблицы Hive.
- Внешние и управляемые таблицы в HiveQL.
- Оптимизации производительности с использование Partition, Buckets.
- Импорт/экспорт данных БД.
- Форматы хранения данных и применение компрессии.
3. Реализация JOIN в Hive
- Map JOIN.
- Comon JOIN.
- Skewed JOIN.
- Collocated JOIN.
4. Advanced HiveQL и Hadoop SQL
- Интеграция Hive с Pig, Impala, Hbase, Spark, Sqoop.
- Thrift сервер
- User Defined Functions
- Hive на Spark.
- Hive на Tez
5.Сценарии применения Hive
Курс содержит практические лабораторные работы на кластере в Amazon Web Services по настройке партиционирования больших данных на файловой системе HDFS, оптимизация исполнения запросов и интеграция с существующими решениями Cloudera Impala, HBase , Spark SQL и Sqoop.