Python, Spark, and Hadoop for Big Data Schulung
Python ist eine skalierbare, flexible und weit verbreitete Programmiersprache für Data Science und maschinelles Lernen. Spark ist eine Datenverarbeitungs-Engine, die für die Abfrage, Analyse und Umwandlung von Big Data verwendet wird, während Hadoop ein Softwarebibliotheks-Framework für die Speicherung und Verarbeitung großer Datenmengen ist.
Diese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Entwickler, die Spark, Hadoop und Python verwenden und integrieren möchten, um große und komplexe Datensätze zu verarbeiten, zu analysieren und zu transformieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- die notwendige Umgebung einzurichten, um mit der Verarbeitung von Big Data mit Spark, Hadoop und Python zu beginnen.
- die Funktionen, Kernkomponenten und Architektur von Spark und Hadoop zu verstehen.
- Lernen, wie man Spark, Hadoop und Python für die Verarbeitung von Big Data integriert.
- Erkunden Sie die Werkzeuge im Spark-Ökosystem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka und Flume).
- Erstellen Sie Empfehlungssysteme mit kollaborativer Filterung ähnlich wie bei Netflix, YouTube, Amazon, Spotify und Google.
- Apache Mahout zur Skalierung von Machine-Learning-Algorithmen verwenden.
Format des Kurses
- Interaktive Vorlesung und Diskussion.
- Viele Übungen und Praxis.
- Praktische Umsetzung in einer Live-Laborumgebung.
Optionen zur Kursanpassung
- Wenn Sie eine maßgeschneiderte Schulung für diesen Kurs wünschen, nehmen Sie bitte Kontakt mit uns auf, um dies zu vereinbaren.
Schulungsübersicht
Einführung
- Überblick über Spark und Hadoop Funktionen und Architektur
- Verstehen von Big Data
- Python Grundlagen der Programmierung
Erste Schritte
- Einrichten von Python, Spark und Hadoop
- Verstehen der Datenstrukturen in Python
- Verstehen der PySpark API
- Verstehen von HDFS und MapReduce
Integrieren von Spark und Hadoop mit Python
- Implementierung von Spark RDD in Python
- Datenverarbeitung mit MapReduce
- Erstellen von verteilten Datensätzen in HDFS
Machine Learning mit Spark MLlib
Verarbeitung von Big Data mit Spark Streaming
Arbeiten mit Recommender Systems
Arbeiten mit Kafka, Sqoop, Kafka und Flume
Apache Mahout mit Spark und Hadoop
Fehlersuche
Zusammenfassung und nächste Schritte
Voraussetzungen
- Erfahrung mit Spark und Hadoop
- Python Programmiererfahrung
Zielgruppe
- Datenwissenschaftler
- Entwickler
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Python, Spark, and Hadoop for Big Data Schulung - Booking
Python, Spark, and Hadoop for Big Data Schulung - Enquiry
Python, Spark, and Hadoop for Big Data - Beratungsanfrage
Beratungsanfrage
Erfahrungsberichte (3)
Die Tatsache, dass wir die meisten Informationen/Kurse/Präsentationen/Übungen mitnehmen konnten, sodass wir uns diese anschauen und也许是由于技术原因,导致了在这个特定的翻译实例中出现了混合语言的情况。让我纠正并完整地提供正确的德语翻译: Die Tatsache, dass wir die meisten Informationen, Kurse, Präsentationen und Übungen mitnehmen konnten, sodass wir uns diese anschauen und vielleicht das wiederholen können, was wir zum ersten Mal nicht verstanden haben oder das verbessern, was wir bereits getan haben.
Raul Mihail Rat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
Ich mochte, dass es es schaffte, die Grundlagen des Themas zu legen und dann zu einigen ziemlich fortgeschrittenen Übungen überzugehen. Es bot auch einfache Methoden zum Schreiben und Testen des Codes.
Ionut Goga - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 StundenDieser Kurs richtet sich an Entwickler und Datenwissenschaftler, die KI verstehen und in ihre Anwendungen implementieren wollen. Besonderes Augenmerk wird auf Datenanalyse, verteilte KI und natürliche Sprachverarbeitung gelegt.
Big Data Analytics in Health
21 StundenBei der Big-Data-Analyse werden große Mengen unterschiedlicher Datensätze untersucht, um Korrelationen, verborgene Muster und andere nützliche Erkenntnisse aufzudecken.
Die Gesundheitsbranche verfügt über riesige Mengen komplexer heterogener medizinischer und klinischer Daten. Die Anwendung von Big-Data-Analysen auf Gesundheitsdaten bietet ein großes Potenzial für die Gewinnung von Erkenntnissen zur Verbesserung der Gesundheitsversorgung. Die enorme Anzahl dieser Datensätze ist jedoch eine große Herausforderung für Analysen und praktische Anwendungen in einem klinischen Umfeld.
In diesem von Lehrern geleiteten Live-Training (Remote) lernen die Teilnehmer, wie Big-Data-Analysen im Gesundheitsbereich durchgeführt werden, während sie eine Reihe von praktischen Live-Laborübungen absolvieren.
Am Ende dieser Schulung können die Teilnehmer:
- Installieren und konfigurieren Sie Big Data-Analysetools wie Hadoop MapReduce und Spark
- Verstehen Sie die Eigenschaften von medizinischen Daten
- Wenden Sie Big-Data-Techniken an, um mit medizinischen Daten umzugehen
- Studieren Sie Big-Data-Systeme und -Algorithmen im Kontext von Gesundheitsanwendungen
Publikum
- Entwickler
- Data Scientists
Format des Kurses
- Teilvorlesung, Teildiskussion, Übungen und viel praktisches Üben.
Hinweis
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren.
Introduction to Graph Computing
28 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Schweiz lernen die Teilnehmer die Technologieangebote und Implementierungsansätze für die Verarbeitung von Graphdaten kennen. Ziel ist es, Objekte der realen Welt, ihre Eigenschaften und Beziehungen zu identifizieren, diese Beziehungen zu modellieren und sie als Daten mit einem Graph Computing (auch bekannt als Graph Analytics) Ansatz zu verarbeiten. Wir beginnen mit einem breiten Überblick und konzentrieren uns auf spezifische Tools, während wir eine Reihe von Fallstudien, praktischen Übungen und Live-Einsätzen durchführen.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein
- Verstehen, wie Graphdaten persistiert und durchlaufen werden.
- das beste Framework für eine bestimmte Aufgabe auszuwählen (von Graphdatenbanken bis hin zu Stapelverarbeitungs-Frameworks).
- Implementierung von Hadoop, Spark, GraphX und Pregel, um Graphenberechnungen auf vielen Rechnern parallel durchzuführen.
- Big-Data-Probleme aus der realen Welt in Form von Graphen, Prozessen und Traversalen zu betrachten.
Hortonworks Data Platform (HDP) for Administrators
21 StundenDiese Live-Schulung mit Kursleiter in Schweiz (online oder vor Ort) führt die Teilnehmer in die Hortonworks Data Platform (HDP) ein und begleitet sie durch den Einsatz der Spark + Hadoop Lösung.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Hortonworks verwenden, um Hadoop in großem Maßstab zuverlässig auszuführen.
- Die Sicherheits-, Governance- und Betriebsfunktionen von Hadoop mit den agilen analytischen Workflows von Spark zu vereinen.
- Verwenden Sie Hortonworks, um jede Komponente in einem Spark-Projekt zu untersuchen, zu validieren, zu zertifizieren und zu unterstützen.
- Verarbeiten Sie verschiedene Datentypen, einschließlich strukturierter und unstrukturierter Daten sowie Daten in Bewegung und im Ruhezustand.
Data Analysis with Hive/HiveQL
7 StundenDieser Kurs behandelt die Verwendung der Hive SQL Sprache (AKA: Hive HQL, SQL in Hive , Hive QL) für Personen, die Daten aus Hive extrahieren
Impala for Business Intelligence
21 StundenCloudera Impala ist eine quelloffene, massiv-parallele Verarbeitungs- (MPP) SQL Abfrage-Engine für Apache Hadoop-Cluster.
Mit Cloudera Impala können Benutzer Abfragen mit niedriger Latenz SQL an Daten stellen, die im Hadoop Distributed File System und in Apache Hbase gespeichert sind, ohne dass eine Datenbewegung oder -transformation erforderlich ist.
Zielgruppe
Dieser Kurs richtet sich an Analysten und Datenwissenschaftler, die Daten, die in Hadoop gespeichert sind, mit Business Intelligence oder SQL Tools analysieren.
Nach diesem Kurs werden die Teilnehmer in der Lage sein
- Aussagekräftige Informationen aus Hadoop-Clustern mit Impala zu extrahieren.
- Spezifische Programme zu schreiben, um Business Intelligence in Impala SQL Dialekt zu erleichtern.
- Fehler zu beheben Impala.
A Practical Introduction to Stream Processing
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie sie verschiedene Stream Processing Frameworks mit bestehenden Big-Data-Speichersystemen und zugehörigen Softwareanwendungen und Microservices einrichten und integrieren können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und Konfigurieren verschiedener Stream Processing Frameworks, wie Spark Streaming und Kafka Streaming.
- Das am besten geeignete Framework für die jeweilige Aufgabe verstehen und auswählen.
- Daten kontinuierlich, gleichzeitig und Datensatz für Datensatz verarbeiten.
- Lösungen mit bestehenden Datenbanken, Data Warehouses, Data Lakes usw. integrieren Stream Processing.
- Integrieren Sie die am besten geeignete Stream-Processing-Bibliothek in Unternehmensanwendungen und Microservices.
SMACK Stack for Data Science
14 StundenDiese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Datenwissenschaftler, die den SMACK-Stack zum Aufbau von Datenverarbeitungsplattformen für Big-Data-Lösungen nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Implementierung einer Datenpipeline-Architektur zur Verarbeitung von Big Data.
- Entwickeln einer Cluster-Infrastruktur mit Apache Mesos und Docker.
- Daten mit Spark und Scala analysieren.
- Verwaltung unstrukturierter Daten mit Apache Cassandra.
Apache Spark Fundamentals
21 StundenDiese von einem Ausbilder geleitete Live-Schulung (online oder vor Ort) richtet sich an Ingenieure, die ein System für die Verarbeitung sehr großer Datenmengen einrichten und einsetzen möchten Apache Spark.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und konfigurieren Sie Apache Spark.
- Schnelle Verarbeitung und Analyse von sehr großen Datensätzen.
- Den Unterschied zwischen Apache Spark und Hadoop MapReduce verstehen und wissen, wann man was verwenden sollte.
- Integrieren Sie Apache Spark mit anderen Tools für maschinelles Lernen.
Apache Spark in the Cloud
21 StundenApache Spark Lernkurve von Apache Spark nimmt zu Beginn langsam zu, es erfordert viel Mühe, um die erste Rendite zu erzielen. Dieser Kurs zielt darauf ab, durch den ersten schwierigen Teil zu springen. Nach dem Besuch dieses Kurses werden die Teilnehmer die Grundlagen von Apache Spark verstehen, RDD klar von DataFrame unterscheiden, Python und Scala API erlernen, Ausführende und Aufgaben verstehen usw. Auch nach den bewährten Methoden konzentriert sich dieser Kurs stark auf Cloud-Bereitstellung, Databricks und AWS. Die Schüler werden auch die Unterschiede zwischen AWS EMR und AWS Glue, einem der neuesten Spark-Services von AWS, verstehen.
PUBLIKUM:
Dateningenieur, DevOps , Datenwissenschaftler
Spark for Developers
21 StundenZIELSETZUNG:
Dieser Kurs wird Apache Spark vorstellen. Die Schüler lernen, wie Spark in das Big Data Ökosystem passt und wie Spark für die Datenanalyse verwendet wird. Der Kurs behandelt die Spark-Shell für die interaktive Datenanalyse, Spark-Interna, Spark-APIs, Spark- SQL , Spark-Streaming sowie maschinelles Lernen und graphX.
PUBLIKUM:
Entwickler / Datenanalysten
Python and Spark for Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Schweiz lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen, wie man Spark mit Python verwendet, um Big Data zu analysieren.
- An Übungen arbeiten, die reale Fälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark verwenden.
Apache Spark SQL
7 Stunden Spark SQL ist das Modul von Apache Spark zum Arbeiten mit strukturierten und unstrukturierten Daten. Spark SQL bietet Informationen zur Struktur der Daten sowie zur ausgeführten Berechnung. Mit diesen Informationen können Optimierungen durchgeführt werden. Zwei häufige Verwendungen von Spark SQL sind:
- um SQL Abfragen auszuführen.
- um Daten aus einer vorhandenen Hive Installation zu lesen.
In diesem vom Kursleiter durchgeführten Live-Training (vor Ort oder remote) lernen die Teilnehmer, wie verschiedene Arten von Datensätzen mit Spark SQL analysiert werden.
Am Ende dieser Schulung können die Teilnehmer:
- Installieren und konfigurieren Sie Spark SQL .
- Führen Sie eine Datenanalyse mit Spark SQL .
- Abfragen von Datensätzen in verschiedenen Formaten.
- Daten visualisieren und Ergebnisse abfragen.
Format des Kurses
- Interaktiver Vortrag und Diskussion.
- Viele Übungen und Übungen.
- Praktische Implementierung in einer Live-Laborumgebung.
Anpassungsoptionen für den Kurs
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren.
Apache Spark MLlib
35 StundenMLlib ist die ML-Bibliothek (Machine Learning) von Spark. Ziel ist es, praktisches maschinelles Lernen skalierbar und einfach zu machen. Es besteht aus allgemeinen Lernalgorithmen und Dienstprogrammen, einschließlich Klassifizierung, Regression, Clustering, kollaborativer Filterung, Dimensionsreduzierung sowie Optimierungsprimitiven auf niedrigerer Ebene und Pipeline-APIs auf höherer Ebene.
Es teilt sich in zwei Pakete:
spark.mllib enthält die ursprüngliche API, die auf RDDs basiert.
spark.ml bietet eine API auf höherer Ebene, die auf DataFrames zum Erstellen von ML-Pipelines basiert.
Publikum
Dieser Kurs richtet sich an Ingenieure und Entwickler, die eine integrierte Maschinenbibliothek für Apache Spark