SPARK2: Анализ данных с Apache Spark

Другие мероприятия
11-13 декабря 2019
г. Москва

В календарь

Google Calendar iCalendar (.ics)
Все мероприятия

3-дневный практический курс для разработчиков Apache Spark и специалистов Data Scientists , использующих Spark SQL, потоковую обработку Spark Streaming, построение графов Spark GraphX

Программа мероприятия 

3-дневный практический курс для разработчиков Apache Spark и специалистов Data Scientists , использующих Spark SQL, потоковую обработку Spark Streaming, построение графов Spark GraphX 

Аудитория: Специалисты, аналитики данных и разработчики, желающие получить опыт настройки и использования компонентов Apache Spark (Spark SQL, Spark Streaming, Spark GraphX)

Предварительный уровень подготовки:

Опыт работы в Unix/SQL
Начальный опыт программирования (Python/Java)
Знание языка программирования Scala 
Продолжительность: 3 дня, 24 академических часа.

3-дневный интенсивный практический тренинг по использованию платформы распределенной обработки больших данных Apache Spark при работе с большими массивами неструктурированных данных и потоковой обработкой.

На курсе вы научитесь:

Использовать Spark Streaming для создания приложений потоковой обработки данных
понимать разницу использования различных форматов хранения данных и использования RDD , dataframes и datasets
обращаться к данным с использование SQL или Hive QL
настраивать и использовать компонент GraphX
Соотношение теории к практике 40/60

Программа курса

1. Экосистема Apache Spark — Spark RDD

  • Архитектура Spark. Принципы работы Resilent Data Distribution
  • Обзор компонентов Spark и их назначения
  • Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
  • основные классы и базовый workflow — Spark RDD 
  • Spark core- работа с аккумуляторами и переменными среды

2. Apache Spark SQL

  • Расширение базовой системы классов- DataSet и DataFrame
  • Получение данных из SQL-источников с помощью Spark SQL
  • Отправка данных в SQL СУБД и работа с Hive QL 
  • Spark SQL и Hadoop
  • Планы выполнения. Logical и physical планы. Настройки планов выполнения

3. Spark Streaming

  • Разница работы в режимах OLAP и OLTP. Основной workflow
  • Виды Spark Stream-ов. Особенности исполнения streaming кода
  • Windows в Spark Streaming
  • Кеширование в Spark Streaming
  • Checkpoint-ы в Spark Streaming

4. GraphX

  • Задачи графов в программировании. Место графов в модели распределенных вычислений
  • Представление графов в GraphX. Создание графов
  • Операции с графами в GraphX
  • Выбор модели распределения графа в GraphX

Программа мероприятия  

Контакты

Место проведения

Комментарии пользователей