Schulungsübersicht

Abschnitt 1: Einführung in Hadoop

  • Geschichte und Konzepte von Hadoop
  • Ecosystem
  • Distributionen
  • Übergeordnete Architektur
  • Hadoop-Mythen
  • Hadoop-Herausforderungen
  • Hardware / Software
  • Lab: Erste Eindrücke von Hadoop

Abschnitt 2: HDFS

  • Design und Architektur
  • Konzepte (horizontale Skalierung, Replikation, Daten-Nähe, Rack-Awareness)
  • Dämonen: Namenode, Secondary namenode, Datanode
  • Kommunikation / Herzschlagmeldungen
  • Datenintegrität
  • Lesepfad / Schreibpfad
  • Namenode High Availability (HA), Federation
  • Labs: Interaktion mit HDFS

Abschnitt 3 : Map Reduce

  • Konzepte und Architektur
  • Daemonen (MRV1) : Jobtracker / Tasktracker
  • Phasen : Treiber, Mapper, Shuffle/Sort, Reducer
  • Map Reduce Version 1 und Version 2 (YARN)
  • Interna von Map Reduce
  • Einführung in Java Map Reduce Programm
  • Übungen : Ausführen eines MapReduce-Beispielprogramms

Abschnitt 4 : Pig

  • pig vs java map reduce
  • pig job flow
  • Pig lateinische Sprache
  • ETL mit Schwein
  • Transformationen und Verknüpfungen
  • Benutzerdefinierte Funktionen (UDF)
  • Übungen: Schreiben von Pig-Skripten zur Analyse von Daten

Abschnitt 5: Hive

  • Architektur und Design
  • Datentypen
  • SQL Unterstützung in Hive
  • Erstellen von Hive Tabellen und Abfragen
  • Partitionen
  • Verknüpfungen
  • Textverarbeitung
  • Übungen: verschiedene Übungen zur Datenverarbeitung mit Hive

Abschnitt 6: HBase

  • Konzepte und Architektur
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Zeitreihendaten in HBase
  • Schemadesign
  • Labs: Interaktion mit HBase über Shell; Programmierung in HBase Java API ; Übung zum Schemadesign

Voraussetzungen

  • gute Kenntnisse der Java Programmiersprache (die meisten Programmierübungen sind in Java)
  • Vertraut mit der Linux-Umgebung (in der Lage sein, in der Linux-Befehlszeile zu navigieren und Dateien mit vi / nano zu bearbeiten)

Labor-Umgebung

Zero Install : Es ist nicht notwendig, Hadoop-Software auf den Maschinen der Studierenden zu installieren! Eine funktionierende Hadoop-Cluster wird für die Studierenden zur Verfügung gestellt.

Die Studierenden benötigen Folgendes

  • einen SSH-Client (Linux und Mac haben bereits ssh-Clients, für Windows wird Putty empfohlen)
  • einen Browser zum Zugriff auf den Cluster, Firefox wird empfohlen
 28 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Erfahrungsberichte (5)

Kommende Kurse

Verwandte Kategorien