Schulungsübersicht

Abschnitt 1: Einführung in Hadoop

  • Hadoop-Geschichte, Konzepte
  • Ökosystem
  • Distributionen
  • High-Level-Architektur
  • Hadoop-Mythen
  • hadoop-herausforderungen
  • Hardware/Software
  • labor: erster blick auf Hadoop

Abschnitt 2: HDFS

  • Entwurf und Architektur
  • Konzepte (horizontale Skalierung, Replikation, Datenlokalität, Rack Awareness)
  • Daemons : Namensknoten, sekundärer Namensknoten, Datenknoten
  • Kommunikation / Heartbeats
  • Datenintegrität
  • Lese-/Schreibpfad
  • Namenode Hochverfügbarkeit (HA), Föderation
  • Praktika : Interaktion mit HDFS

Abschnitt 3 : Map Reduce

  • Konzepte und Architektur
  • Daemonen (MRV1) : Jobtracker / Tasktracker
  • Phasen : Treiber, Mapper, Shuffle/Sort, Reducer
  • Map Reduce Version 1 und Version 2 (YARN)
  • Interna von Map Reduce
  • Einführung in Java Map Reduce Programm
  • Übungen : Ausführen eines MapReduce-Beispielprogramms

Abschnitt 4 : Pig

  • pig vs java map reduce
  • pig job flow
  • Pig lateinische Sprache
  • ETL mit Schwein
  • Transformationen und Verknüpfungen
  • Benutzerdefinierte Funktionen (UDF)
  • Übungen: Schreiben von Pig-Skripten zur Analyse von Daten

Abschnitt 5: Hive

  • Architektur und Design
  • Datentypen
  • SQL Unterstützung in Hive
  • Erstellen von Hive Tabellen und Abfragen
  • Partitionen
  • Verknüpfungen
  • Textverarbeitung
  • Übungen: verschiedene Übungen zur Datenverarbeitung mit Hive

Abschnitt 6: HBase

  • Konzepte und Architektur
  • hbase vs RDBMS vs cassandra
  • HBase Java API
  • Zeitreihendaten auf HBase
  • Schema-Entwurf
  • Übungen: Interaktion mit HBase mit Hilfe der Shell; Programmierung in HBase Java API; Übung zum Schemaentwurf

Voraussetzungen

  • Kenntnis der Programmiersprache Java (die meisten Programmierübungen werden in Java durchgeführt)
  • Kenntnis der Linux-Umgebung (in der Lage sein, in der Linux-Befehlszeile zu navigieren, Dateien mit vi / nano zu bearbeiten)

Lab-Umgebung

Zero Install : Es ist nicht notwendig, Hadoop-Software auf den Rechnern der Studenten zu installieren! Ein funktionierender Hadoop-Cluster wird den Studierenden zur Verfügung gestellt.

Die Studierenden benötigen Folgendes

  • ein SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
  • einen Browser für den Zugriff auf den Cluster. Wir empfehlen Firefox Browser
  28 Stunden
 

Teilnehmerzahl


Beginnt

Endet


Die Termine sind abhängig von der Verfügbarkeit und finden zwischen 09:30 und 16:30 statt.

Preis je Teilnehmer

Erfahrungsberichte (3)

Kombinierte Kurse

Verwandte Kategorien