3-дневный практический курс для разработчиков Apache Spark и специалистов Data Scientists , использующих Spark SQL, потоковую обработку Spark Streaming, построение графов Spark GraphX
Программа мероприятия
3-дневный практический курс для разработчиков Apache Spark и специалистов Data Scientists , использующих Spark SQL, потоковую обработку Spark Streaming, построение графов Spark GraphX
Аудитория: Специалисты, аналитики данных и разработчики, желающие получить опыт настройки и использования компонентов Apache Spark (Spark SQL, Spark Streaming, Spark GraphX)
Предварительный уровень подготовки:
Опыт работы в Unix/SQL
Начальный опыт программирования (Python/Java)
Знание языка программирования Scala
Продолжительность: 3 дня, 24 академических часа.
3-дневный интенсивный практический тренинг по использованию платформы распределенной обработки больших данных Apache Spark при работе с большими массивами неструктурированных данных и потоковой обработкой.
На курсе вы научитесь:
Использовать Spark Streaming для создания приложений потоковой обработки данных
понимать разницу использования различных форматов хранения данных и использования RDD , dataframes и datasets
обращаться к данным с использование SQL или Hive QL
настраивать и использовать компонент GraphX
Соотношение теории к практике 40/60
Программа курса
1. Экосистема Apache Spark — Spark RDD
- Архитектура Spark. Принципы работы Resilent Data Distribution
- Обзор компонентов Spark и их назначения
- Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
- основные классы и базовый workflow — Spark RDD
- Spark core- работа с аккумуляторами и переменными среды
2. Apache Spark SQL
- Расширение базовой системы классов- DataSet и DataFrame
- Получение данных из SQL-источников с помощью Spark SQL
- Отправка данных в SQL СУБД и работа с Hive QL
- Spark SQL и Hadoop
- Планы выполнения. Logical и physical планы. Настройки планов выполнения
3. Spark Streaming
- Разница работы в режимах OLAP и OLTP. Основной workflow
- Виды Spark Stream-ов. Особенности исполнения streaming кода
- Windows в Spark Streaming
- Кеширование в Spark Streaming
- Checkpoint-ы в Spark Streaming
4. GraphX
- Задачи графов в программировании. Место графов в модели распределенных вычислений
- Представление графов в GraphX. Создание графов
- Операции с графами в GraphX
- Выбор модели распределения графа в GraphX