Schulungsübersicht

  1. Einführung in Scala

    • Kurze Einführung in Scala
    • Labore: Kennenlernen von Scala
  2. Spark Grundlagen

    • Hintergrund und Geschichte
    • Spark und Hadoop
    • Spark Konzepte und Architektur
    • Spark Ökosystem (Kern, Spark SQL, MLlib, Streaming)
    • Labore: Installieren und Ausführen von Spark
  3. Erstes Vorgehen mit Spark

    • Ausführen von Spark im lokalen Modus
    • Spark Web UI
    • Spark Shell
    • Datenanalyse – Teil 1
    • Betrachten von RDDs
    • Labore: Erforschen der Spark Shell
  4. RDDs

    • RDD Konzepte
    • Partitionen
    • RDD-Operationen / Transformationen
    • RDD-Typen
    • Schlüssel-Wert-Paar RDDs
    • MapReduce auf RDDs
    • Caching und Persistenz
    • Labore: Erstellen und Betrachten von RDDs; Cachen von RDDs
  5. Spark API-Programmierung

    • Einführung in die Spark API / RDD API
    • Absenden des ersten Programms an Spark
    • Fehlersuche und Protokollierung
    • Konfigurationseigenschaften
    • Labore: Programmieren in der Spark API, Absenden von Jobs
  6. Spark SQL

    • SQL-Unterstützung in Spark
    • Dataframes
    • Definieren von Tabellen und Importieren von Datensätzen
    • Ausführen von SQL-Abfragen auf Dataframes
    • Speicherformate: JSON / Parquet
    • Labore: Erstellen und Abfragen von Dataframes; Auswerten von Datenformaten
  7. MLlib

    • Einführung in MLlib
    • MLlib-Algorithmen
    • Labore: Schreiben von MLib-Anwendungen
  8. GraphX

    • Übersicht über die GraphX-Bibliothek
    • GraphX APIs
    • Labore: Verarbeiten von Graphendaten mit Spark
  9. Spark Streaming

    • Streaming-Übersicht
    • Auswerten von Streaming-Plattformen
    • Streaming-Operationen
    • Gleitende Fensteroperationen
    • Labore: Schreiben von Spark-Streaming-Anwendungen
  10. Spark und Hadoop

    • Einführung in Hadoop (HDFS / YARN)
    • Hadoop + Spark-Architektur
    • Ausführen von Spark auf Hadoop YARN
    • Verarbeiten von HDFS-Dateien mit Spark
  11. Spark-Leistung und Optimierung

    • Broadcast-Variablen
    • Akkumulatoren
    • Speichermanagement & Caching
  12. Spark-Operationen

    • Betreiben von Spark in der Produktion
    • Muster für die Bereitstellung
    • Konfigurationen
    • Überwachung
    • Fehlersuche

Voraussetzungen

VORAUSETZUNGEN

Erfahrung mit einer der Sprachen Java, Scala oder Python (unsere Laboren in Scala und Python)
Grundkenntnisse in Linux-Entwicklungsumgebungen (Befehlszeilennavigation, Bearbeiten von Dateien mit VI oder nano)

 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (6)

Kommende Kurse

Verwandte Kategorien