Курс Анализ данных с Apache Spark

Конференция
31 марта - 3 апреля 2020
г. Москва

В календарь

Google Calendar iCalendar (.ics)
Все мероприятия

3-дневный практический курс для разработчиков Apache Spark, аналитиков данных, Data Scientist’ов и других специалистов Big Data, которые используют Spark SQL, потоковую обработку Spark Streaming и построение графов Spark GraphX.

Программа курса «Анализ данных с Apache Spark Streaming, Spark SQL и GraphX»

1. Экосистема Apache Spark — Spark RDD

  • Архитектура Spark. Принципы работы Resilent Data Distribution (Spark RDD)
  • Обзор компонентов Spark и их назначения
  • Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop
  • Основные классы и базовый workflow — Spark RDD 
  • Spark core — работа с аккумуляторами и переменными среды

2. Apache Spark SQL

  • Расширение базовой системы классов- DataSet и DataFrame
  • Получение данных из SQL-источников с помощью Spark SQL
  • Отправка данных в SQL СУБД и работа с Hive QL 
  • Spark SQL и Hadoop
  • Планы выполнения. Logical и physical планы. Настройки планов выполнения

3. Spark Streaming

  • Разница работы в режимах OLAP и OLTP. Основной workflow
  • Виды Spark Stream-ов. Особенности исполнения streaming кода
  • Windows в Spark Streaming
  • Кеширование в Spark Streaming
  • Checkpoint-ы в Spark Streaming

4. GraphX

  • Задачи графов в программировании. Место графов в модели распределенных вычислений
  • Представление графов в GraphX. Создание графов
  • Операции с графами в GraphX
  • Выбор модели распределения графа в GraphX

Контакты

Место проведения

Комментарии пользователей