Schulungsübersicht
Einführung
- Einführung in Cloud Computing und Big Data-Lösungen
- Überblick über die Eigenschaften und Architektur von Apache Hadoop
Hadoop einrichten
- Einen Hadoop-Cluster planen (vor Ort, in der Cloud usw.)
- Die Betriebssysteme und Hadoop-Distribution auswählen
- Ressourcen bereitstellen (Hardware, Netzwerk usw.)
- Software herunterladen und installieren
- Den Cluster für Flexibilität dimensionieren
Mit HDFS arbeiten
- Hadoop Distributed File System (HDFS) verstehen
- Überblick über die HDFS-Befehlsreferenz
- Auf HDFS zugreifen
- Grundlegende Dateivorgänge auf HDFS durchführen
- S3 als Ergänzung zu HDFS verwenden
Überblick über MapReduce
- Datenfluss im MapReduce-Framework verstehen
- Map, Shuffle, Sort und Reduce
- Demo: Top-Gehälter berechnen
Mit YARN arbeiten
- Ressourcenverwaltung in Hadoop verstehen
- Mit ResourceManager, NodeManager und Application Master arbeiten
- Aufgaben unter YARN planen
- Aufgaben für große Anzahlen von Knoten und Clustern planen
- Demo: Aufgabenplanung
Hadoop mit Spark integrieren
- Speicher für Spark einrichten (HDFS, Amazon S3, NoSQL usw.)
- Resilient Distributed Datasets (RDDs) verstehen
- Einen RDD erstellen
- RDD-Transformationen implementieren
- Demo: Textsuchprogramm für FilmTitel implementieren
Einen Hadoop-Cluster verwalten
- Hadoop überwachen
- Ein Hadoop-Cluster sichern
- Knoten hinzufügen und entfernen
- Eine Leistungsbenchmark durchführen
- Hadoop-Cluster optimieren, um die Leistung zu verbessern
- Sicherung, Wiederherstellung und Geschäftskontinuitätsplanung durchführen
- Hohe Verfügbarkeit (HA) sicherstellen
Einen Hadoop-Cluster aktualisieren und migrieren
- Ressourcenbedarfe bewerten
- Hadoop aktualisieren
- Von vor Ort in die Cloud und umgekehrt wechseln
- Aus Fehlern wiederherstellen
Fehlerbehebung
Zusammenfassung und Schlussfolgerungen
Voraussetzungen
- Erfahrung in der Systemadministration
- Erfahrung mit der Linux-Befehlszeile
- Vorwissen über Big Data-Konzepte
Zielgruppe
- Systemadministratoren
- Datenbankverwalter (DBAs)
Erfahrungsberichte (5)
Die Tatsache, dass wir die meisten Informationen, Kurse, Präsentationen und Übungen mitnehmen konnten, sodass wir sie noch einmal durchgehen und eventuell das Wiederholen können, was wir beim ersten Mal nicht verstanden haben, oder das Verbessern, was wir bereits gemacht haben.
Raul Mihail Rat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
sehr interaktiv...
Richard Langford
Kurs - SMACK Stack for Data Science
Maschinelle Übersetzung
Ausreichend praktische Übungen, der Trainer ist wissensreich
Chris Tan
Kurs - A Practical Introduction to Stream Processing
Maschinelle Übersetzung
Erfahren Sie mehr über Spark Streaming, Databricks und AWS Redshift.
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurs - Apache Spark in the Cloud
Maschinelle Übersetzung
Übungsaufgaben
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Kurs - Python and Spark for Big Data (PySpark)
Maschinelle Übersetzung