Schulungsübersicht

Grundlagen von NiFi und Datenfluss

  • Bewegliche Daten vs. ruhende Daten: Konzepte und Herausforderungen
  • NiFi-Architektur: Kerne, Flusscontroller, Provenance und Bulletins
  • Wichtige Komponenten: Prozessoren, Verbindungen, Controller und Provenance

Big Data Kontext und Integration

  • Rolle von NiFi in Big Data-Ökosystemen (Hadoop, Kafka, Cloud-Speicher)
  • Überblick über HDFS, MapReduce und moderne Alternativen
  • Anwendungsfälle: Stream-Ingestion, Log-Shipping, Event-Pipelines

Installation, Konfiguration & Cluster-Setup

  • Installieren von NiFi in Single-Node- und Cluster-Modus
  • Cluster-Konfiguration: Node-Rollen, Zookeeper und Lastverteilung
  • Orchestrieren von NiFi-Bereitstellungen: mit Ansible, Docker oder Helm

Entwerfen und Verwalten von Datenflüssen

  • Routen, Filtern, Teilen, Zusammenführen von Flüssen
  • Prozessor-Konfiguration (InvokeHTTP, QueryRecord, PutDatabaseRecord, etc.)
  • Verarbeiten von Schemata, Bereicherung und Transformation
  • Fehlerbehandlung, Wiederholungsbeziehungen und Backpressure

Integrationsszenarien

  • Anbinden an Datenbanken, Messaging-Systeme, REST-APIs
  • Datenstreaming zu Analyse-Systemen: Kafka, Elasticsearch oder Cloud-Speicher
  • Integration mit Splunk, Prometheus oder Logging-Pipelines

Monitoring, Wiederherstellung & Provenance

  • NiFi-Benutzeroberfläche, Metriken und Provenance-Visualisierung nutzen
  • Autonome Wiederherstellung und fehlertolerante Verarbeitung entwerfen
  • Sicherung, Flussversionierung und Änderungsmanagement

Leistungsoptimierung

  • JVM, Heap, Thread-Pools und Clustering-Parameter optimieren
  • Flussdesign optimieren, um Engpässe zu vermeiden
  • Ressourcenisolation, Flusspriorisierung und Durchsatzsteuerung

Bewährte Methoden & Governance

  • Flussdokumentation, Namensstandards, modulares Design
  • Sicherheit: TLS, Authentifizierung, Zugriffskontrolle, Datenverschlüsselung
  • Änderungssteuerung, Versionierung, rollenbasierte Zugriffe, Audit-Logs

Fehlersuche & Vorfallreaktion

  • Häufige Probleme: Deadlocks, Speicherverluste, Prozessorfehler
  • Log-Analyse, Fehlerdiagnose und Ursachenforschung
  • Wiederherstellungstrategien und Fluss-Rollback

Praktisches Labor: Realistische Datenpipeline-Implementierung

  • Einen End-to-End-Fluss aufbauen: Ingestion, Transformation, Delivery
  • Fehlerbehandlung, Backpressure und Skalierung implementieren
  • Leistungstests durchführen und die Pipeline optimieren

Zusammenfassung und weitere Schritte

Voraussetzungen

  • Erfahrung mit der Linux-Befehlszeile
  • Grundverständnis von Netzwerken und Datenmanagement-Systemen
  • Kenntnisse in Data Streaming oder ETL-Konzepten

Zielgruppe

  • Systemadministratoren
  • Daten-Ingenieure
  • Entwickler
  • DevOps-Profis
 21 Stunden

Teilnehmerzahl


Preis je Teilnehmer (exkl. USt)

Erfahrungsberichte (7)

Kommende Kurse

Verwandte Kategorien