Schulungsübersicht
- Einleitung
- Hadoop Geschichte, Konzepte
- Ökosystem
- Verteilungen
- Architektur auf hohem Niveau
- Hadoop Mythen
- Hadoop Herausforderungen (Hardware/Software)
- Labs: diskutieren Sie Ihre Big Data Projekte und Probleme
- Planung und Installation
- Auswahl der Software, Hadoop Distributionen
- Dimensionierung des Clusters, Planung für Wachstum
- Auswahl von Hardware und Netzwerk
- Rack-Topologie
- Installation
- Mehrmandantenfähigkeit
- Verzeichnisstruktur, Protokolle
- Benchmarking
- Übungen: Cluster-Installation, Durchführung von Leistungsbenchmarks
- HDFS-Betrieb
- Konzepte (horizontale Skalierung, Replikation, Datenlokalität, Rack Awareness)
- Knoten und Dämonen (NameNode, sekundärer NameNode, HA Standby NameNode, DataNode)
- Zustandsüberwachung
- Befehlszeilen- und browserbasierte Verwaltung
- Hinzufügen von Speicherplatz, Ersetzen defekter Laufwerke
- Übungen: Kennenlernen der HDFS-Befehlszeilen
- Dateneingabe
- Flume für die Aufnahme von Protokollen und anderen Daten in das HDFS
- Sqoop zum Importieren von SQL-Datenbanken in HDFS sowie zum Exportieren zurück nach SQL
- Hadoop Data Warehousing mit Hive
- Kopieren von Daten zwischen Clustern (distcp)
- Verwendung von S3 als Ergänzung zu HDFS
- Bewährte Praktiken und Architekturen für die Dateneingabe
- Übungen: Einrichten und Verwenden von Flume, dasselbe für Sqoop
- MapReduce-Operationen und -Verwaltung
- Paralleles Rechnen vor MapReduce: Vergleich zwischen HPC und Hadoop Verwaltung
- MapReduce-Cluster-Lasten
- Knoten und Daemons (JobTracker, TaskTracker)
- MapReduce UI durchlaufen
- Mapreduce-Konfiguration
- Job-Konfiguration
- Optimierung von MapReduce
- Fool-proofing MR: Was Sie Ihren Programmierern sagen sollten
- Labs: Ausführen von MapReduce-Beispielen
- YARN: neue Architektur und neue Funktionen
- YARN-Designziele und Implementierungsarchitektur
- Neue Akteure: ResourceManager, NodeManager, Anwendungsmaster
- Installation von YARN
- Job-Scheduling unter YARN
- Übungen: Untersuchung von Job Scheduling
- Fortgeschrittene Themen
- Hardware-Überwachung
- Cluster-Überwachung
- Hinzufügen und Entfernen von Servern, Upgrades Hadoop
- Sicherung, Wiederherstellung und Planung der Geschäftskontinuität
- Oozie-Job-Workflows
- Hadoop Hochverfügbarkeit (HA)
- Hadoop Föderation
- Sichern Ihres Clusters mit Kerberos
- Übungen: Überwachung einrichten
- Optionale Tracks
- Cloudera Manager für Cluster-Administration, Überwachung und Routineaufgaben; Installation, Nutzung. In diesem Track werden alle Übungen und Labs innerhalb der Cloudera Distributionsumgebung (CDH5) durchgeführt
- Ambari für die Cluster-Administration, Überwachung und Routineaufgaben; Installation, Nutzung. In diesem Kurs werden alle Übungen und Praktika mit dem Ambari-Cluster-Manager und der Hortonworks Data Platform (HDP 2.0) durchgeführt.
Voraussetzungen
- Kenntnis der grundlegenden Linux Systemverwaltung
- Grundkenntnisse in Skripting
Kenntnisse über Hadoop und Distributed Computing sind nicht erforderlich, werden aber im Kurs eingeführt und erläutert.
Lab-Umgebung
Null-Installation: Es ist nicht nötig, Hadoop-Software auf den Rechnern der Studierenden zu installieren! Ein funktionierender Hadoop-Cluster wird den Studenten zur Verfügung gestellt.
Die Studierenden benötigen Folgendes
- ein SSH-Client (Linux und Mac haben bereits SSH-Clients, für Windows wird Putty empfohlen)
- einen Browser für den Zugriff auf den Cluster. Wir empfehlen Firefox Browser mit FoxyProxy Erweiterung installiert
Erfahrungsberichte (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Kurs - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Kurs - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay