Schulungsübersicht

  • Einleitung
    • Hadoop Geschichte, Konzepte
    • Ökosystem
    • Verteilungen
    • Architektur auf hohem Niveau
    • Hadoop Mythen
    • Hadoop Herausforderungen (Hardware/Software)
    • Labs: diskutieren Sie Ihre Big Data Projekte und Probleme
  • Planung und Installation
    • Auswahl der Software, Hadoop Distributionen
    • Dimensionierung des Clusters, Planung für Wachstum
    • Auswahl von Hardware und Netzwerk
    • Rack-Topologie
    • Installation
    • Mehrmandantenfähigkeit
    • Verzeichnisstruktur, Protokolle
    • Benchmarking
    • Übungen: Cluster-Installation, Durchführung von Leistungsbenchmarks
  • HDFS-Betrieb
    • Konzepte (horizontale Skalierung, Replikation, Datenlokalität, Rack Awareness)
    • Knoten und Dämonen (NameNode, sekundärer NameNode, HA Standby NameNode, DataNode)
    • Zustandsüberwachung
    • Befehlszeilen- und browserbasierte Verwaltung
    • Hinzufügen von Speicherplatz, Ersetzen defekter Laufwerke
    • Übungen: Kennenlernen der HDFS-Befehlszeilen
  • Dateneingabe
    • Flume für die Aufnahme von Protokollen und anderen Daten in das HDFS
    • Sqoop zum Importieren von SQL-Datenbanken in HDFS sowie zum Exportieren zurück nach SQL
    • Hadoop Data Warehousing mit Hive
    • Kopieren von Daten zwischen Clustern (distcp)
    • Verwendung von S3 als Ergänzung zu HDFS
    • Bewährte Praktiken und Architekturen für die Dateneingabe
    • Übungen: Einrichten und Verwenden von Flume, dasselbe für Sqoop
  • MapReduce-Operationen und -Verwaltung
    • Paralleles Rechnen vor MapReduce: Vergleich zwischen HPC und Hadoop Verwaltung
    • MapReduce-Cluster-Lasten
    • Knoten und Daemons (JobTracker, TaskTracker)
    • MapReduce UI durchlaufen
    • Mapreduce-Konfiguration
    • Job-Konfiguration
    • Optimierung von MapReduce
    • Fool-proofing MR: Was Sie Ihren Programmierern sagen sollten
    • Labs: Ausführen von MapReduce-Beispielen
  • YARN: neue Architektur und neue Funktionen
    • YARN-Designziele und Implementierungsarchitektur
    • Neue Akteure: ResourceManager, NodeManager, Anwendungsmaster
    • Installation von YARN
    • Job-Scheduling unter YARN
    • Übungen: Untersuchung von Job Scheduling
  • Fortgeschrittene Themen
    • Hardware-Überwachung
    • Cluster-Überwachung
    • Hinzufügen und Entfernen von Servern, Upgrades Hadoop
    • Sicherung, Wiederherstellung und Planung der Geschäftskontinuität
    • Oozie-Job-Workflows
    • Hadoop Hochverfügbarkeit (HA)
    • Hadoop Föderation
    • Sichern Ihres Clusters mit Kerberos
    • Übungen: Überwachung einrichten
  • Optionale Tracks
    • Cloudera Manager für Cluster-Administration, Überwachung und Routineaufgaben; Installation, Nutzung. In diesem Track werden alle Übungen und Labs innerhalb der Cloudera Distributionsumgebung (CDH5) durchgeführt
    • Ambari für die Cluster-Administration, Überwachung und Routineaufgaben; Installation, Nutzung. In diesem Kurs werden alle Übungen und Praktika mit dem Ambari-Cluster-Manager und der Hortonworks Data Platform (HDP 2.0) durchgeführt.

Voraussetzungen

  • Kenntnis der grundlegenden Linux Systemverwaltung
  • Grundkenntnisse in Skripting

Kenntnisse über Hadoop und Distributed Computing sind nicht erforderlich, werden aber im Kurs eingeführt und erläutert.

Lab-Umgebung

Null-Installation: Es ist nicht nötig, Hadoop-Software auf den Rechnern der Studierenden zu installieren! Ein funktionierender Hadoop-Cluster wird den Studenten zur Verfügung gestellt.

Die Studierenden benötigen Folgendes

  • ein SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
  • einen Browser für den Zugriff auf den Cluster. Wir empfehlen Firefox Browser mit FoxyProxy Erweiterung installiert
 21 Stunden

Teilnehmerzahl



Preis je Teilnehmer

Erfahrungsberichte (3)

Kombinierte Kurse

Verwandte Kategorien