Курс Анализ данных с Apache Spark
3-дневный практический курс для разработчиков Apache Spark, аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming и построение графов Spark GraphX.
Программа курса «Анализ данных с Apache Spark Streaming, Spark SQL и GraphX»
1. Экосистема Apache Spark — Spark RDD
- Архитектура Spark. Принципы работы Resilent Data Distribution (Spark RDD)
- Обзор компонентов Spark и их назначения
- Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
- Основные классы и базовый workflow — Spark RDD
- Spark core — работа с аккумуляторами и переменными среды
2. Apache Spark SQL
- Расширение базовой системы классов- DataSet и DataFrame
- Получение данных из SQL-источников с помощью Spark SQL
- Отправка данных в SQL СУБД и работа с Hive QL
- Spark SQL и Hadoop
- Планы выполнения. Logical и physical планы. Настройки планов выполнения
3. Spark Streaming
- Разница работы в режимах OLAP и OLTP. Основной workflow
- Виды Spark Stream-ов. Особенности исполнения streaming кода
- Windows в Spark Streaming
- Кеширование в Spark Streaming
- Checkpoint-ы в Spark Streaming
4. GraphX
- Задачи графов в программировании. Место графов в модели распределенных вычислений
- Представление графов в GraphX. Создание графов
- Операции с графами в GraphX
- Выбор модели распределения графа в GraphX