Schulungsübersicht

Einführung, Ziele und Migrationsstrategie

  • Kursziele, Anpassung des Teilnehmerprofils und Erfolgskriterien
  • Hochrangige Migrationsansätze und Risikoaspekte
  • Einrichten von Workspaces, Repositories und Labordatensätzen

Tag 1 — Migrationsgrundlagen und Architektur

  • Lakehouse-Konzepte, Delta Lake-Überblick und Databricks-Architektur
  • Unterschiede zwischen SMP und MPP sowie deren Auswirkungen auf die Migration
  • Medallion-Design (Bronze→Silber→Gold) und Unity Catalog-Überblick

Tag 1 Lab — Übersetzen einer gespeicherten Prozedur

  • Praktische Migration einer Beispielgespeicherten Prozedur in ein Notebook
  • Abbilden von Temp-Tabellen und Cursors auf DataFrame-Transformationen
  • Validierung und Vergleich mit der ursprünglichen Ausgabe

Tag 2 — Fortgeschrittene Delta Lake & Inkrementelle Ladung

  • ACID-Transaktionen, Commit-Logs, Versionierung und Zeitreise
  • Auto Loader, MERGE INTO-Muster, Upserts und Schemaevolution
  • OPTIMIZE, VACUUM, Z-ORDER, Partitionierung und Speicheroptimierung

Tag 2 Lab — Inkrementelle Ingestion & Optimierung

  • Implementierung von Auto Loader-Ingestion und MERGE-Workflows
  • Anwendung von OPTIMIZE, Z-ORDER und VACUUM; Validieren der Ergebnisse
  • Messen von Lese-/Schreibleistungsverbesserungen

Tag 3 — SQL in Databricks, Leistung & Debugging

  • Analytische SQL-Funktionen: Fensterfunktionen, Hochrangefunktionen, JSON/Array-Verarbeitung
  • Lesen der Spark UI, DAGs, Shuffles, Stufen, Aufgaben und Flaschenhalsdiagnose
  • Abfrageoptimierungsmuster: Broadcast-Joins, Hinweise, Caching und Reduktion von Spills

Tag 3 Lab — SQL-Refactoring & Leistungsoptimierung

  • Refaktorisieren eines aufwändigen SQL-Prozesses in optimiertes Spark SQL
  • Verwenden von Spark UI-Traces, um Schieflagen und Shuffle-Probleme zu identifizieren und zu beheben
  • Benchmarking vor/nach und Dokumentation der Optimierungsschritte

Tag 4 — Taktisches PySpark: Ersetzen prozeduraler Logik

  • Spark-Modell: Treiber, Exekutoren, faule Auswertung und Partitionierungsstrategien
  • Umwandeln von Schleifen und Cursors in vektorisierte DataFrame-Operationen
  • Modularisierung, UDFs/pandas UDFs, Widgets und wiederverwendbare Bibliotheken

Tag 4 Lab — Refaktorisieren prozeduraler Skripte

  • Refaktorisieren eines prozeduralen ETL-Skripts in modulare PySpark-Notebooks
  • Einführen von Parametrisierung, unit-ähnlichen Tests und wiederverwendbaren Funktionen
  • Code-Review und Anwendung einer Best-Practice-Checkliste

Tag 5 — Orchestrierung, End-to-end Pipeline & Best Practices

  • Databricks Workflows: Job-Design, Task-Abhängigkeiten, Trigger und Fehlerbehandlung
  • Entwerfen inkrementeller Medallion-Pipelines mit Qualitätsregeln und Schema-Validierung
  • Integration in Git (GitHub/Azure DevOps), CI und Teststrategien für PySpark-Logik

Tag 5 Lab — Erstellen einer vollständigen End-to-end Pipeline

  • Zusammenstellen der Bronze→Silber→Gold-Pipeline, orchestriert mit Workflows
  • Implementierung von Logging, Auditing, Wiederholungen und automatisierten Validierungen
  • Ausführen der vollständigen Pipeline, Validieren der Ergebnisse und Vorbereiten von Bereitstellungsnotizen

Operationalisierung, Governance und Produktionsbereitschaft

  • Unity Catalog-Governance, Linienführung und Zugriffskontrollen: Best Practices
  • Kosten, Cluster-Größen, Autoskalierung und Job-Konkurrenz muster
  • Bereitstellungschecklisten, Rollback-Strategien und Erstellung von Runbooks

Abschlussüberprüfung, Wissensübertragung und Nächste Schritte

  • Teilnehmerpräsentationen der Migrationsarbeit und gelernten Lektionen
  • Lückenanalyse, empfohlene nachfolgende Aktivitäten und Übergabe von Trainingsmaterialien
  • Referenzen, weitere Lernpfade und Unterstützungsoptionen

Voraussetzungen

  • Grundlegendes Verständnis von Data-Engineering-Konzepten
  • Erfahrung mit SQL und gespeicherten Prozeduren (Synapse / SQL Server)
  • Kenntnisse im Umgang mit ETL-Orchestrierungskonzepten (ADF oder ähnlich)

Zielgruppe

  • Technologische Manager mit Hintergrund in Data Engineering
  • Data Engineers, die prozedurale OLAP-Logik auf Lakehouse-Muster umstellen
  • Plattform-Ingenieure, die für die Einführung von Databricks verantwortlich sind
 35 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Kommende Kurse

Verwandte Kategorien