Apache Spark Fundamentals Schulung
Apache Spark ist ein Analyse-Motor, der für die Verteilung von Daten über einen Cluster entwickelt wurde, um diese parallel zu verarbeiten. Es enthält Module für Streaming, SQL, Machine Learning und Graphic Processing.
Dieser Instructor-leitet, Live-Training (online oder online) richtet sich an Ingenieure, die ein System für die Verarbeitung sehr großer Datenmengen implementieren möchten.
Am Ende dieser Ausbildung können die Teilnehmer:
- Installation und Konfiguration Apache Spark.
- Die Unterschiede zwischen Apache Spark und Hadoop MapReduce und wann zu verwenden.
- Schnell lesen und analysieren Sie sehr große Datensätze.
- Integrieren Apache Spark mit anderen Maschinenlernen.
Format des Kurses
- Interaktive Unterricht und Diskussion.
- Viele Übungen und Übungen.
- Hand-on Implementierung in einem Live-Lab-Umfeld.
Kursanpassungsoptionen
- Um eine benutzerdefinierte Ausbildung für diesen Kurs zu beantragen, wenden Sie sich bitte an uns, um zu arrangieren.
Schulungsübersicht
Einführung
- Apache Spark gegenüber Hadoop MapReduce
Überblick über Apache Spark Funktionen und Architektur
Auswahl einer Programming Sprache
Einrichten Apache Spark
Erstellen einer Beispielanwendung
Auswahl des Datensatzes
Durchführung von Data Analysis auf den Daten
Verarbeitung von strukturierten Daten mit Spark SQL
Verarbeitung von Streaming-Daten mit Spark Streaming
Integration von Apache Spark mit 3rd Part Machine Learning Tools
Verwendung von Apache Spark für die Graphverarbeitung
Optimieren Apache Spark
Fehlersuche
Zusammenfassung und Schlussfolgerung
Voraussetzungen
- Erfahrung im Umgang mit der Linux-Befehlszeile
- Allgemeines Verständnis für Datenverarbeitung
- Programmiererfahrung mit Java, Scala, Python oder R
Publikum
- Entwickler
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
Apache Spark Fundamentals Schulung - Booking
Apache Spark Fundamentals Schulung - Enquiry
Apache Spark Fundamentals - Beratungsanfrage
Beratungsanfrage
Erfahrungsberichte (5)
Viele praktische Beispiele, verschiedene Wege, das gleiche Problem anzugehen, und manchmal nicht so offensichtliche Tricks, wie man die aktuelle Lösung verbessern kann
Rafal - Nordea
Kurs - Apache Spark MLlib
Maschinelle Übersetzung
Die Live-Beispiele
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
Maschinelle Übersetzung
sehr interaktiv...
Richard Langford
Kurs - SMACK Stack for Data Science
Maschinelle Übersetzung
Genügend praktische Umsetzung, der Trainer ist kompetent
Chris Tan
Kurs - A Practical Introduction to Stream Processing
Maschinelle Übersetzung
Lernen Sie Spark Streaming, Databricks und AWS Redshift kennen
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurs - Apache Spark in the Cloud
Maschinelle Übersetzung
Kommende Kurse
Kombinierte Kurse
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 StundenDieser Kurs richtet sich an Entwickler und Datenwissenschaftler, die KI verstehen und in ihre Anwendungen implementieren wollen. Besonderes Augenmerk wird auf Datenanalyse, verteilte KI und natürliche Sprachverarbeitung gelegt.
Big Data Analytics in Health
21 StundenBei der Big-Data-Analyse werden große Mengen unterschiedlicher Datensätze untersucht, um Korrelationen, verborgene Muster und andere nützliche Erkenntnisse aufzudecken.
Die Gesundheitsbranche verfügt über riesige Mengen komplexer heterogener medizinischer und klinischer Daten. Die Anwendung von Big-Data-Analysen auf Gesundheitsdaten bietet ein großes Potenzial für die Gewinnung von Erkenntnissen zur Verbesserung der Gesundheitsversorgung. Die enorme Anzahl dieser Datensätze ist jedoch eine große Herausforderung für Analysen und praktische Anwendungen in einem klinischen Umfeld.
In diesem von Lehrern geleiteten Live-Training (Remote) lernen die Teilnehmer, wie Big-Data-Analysen im Gesundheitsbereich durchgeführt werden, während sie eine Reihe von praktischen Live-Laborübungen absolvieren.
Am Ende dieser Schulung können die Teilnehmer:
- Installieren und konfigurieren Sie Big Data-Analysetools wie Hadoop MapReduce und Spark
- Verstehen Sie die Eigenschaften von medizinischen Daten
- Wenden Sie Big-Data-Techniken an, um mit medizinischen Daten umzugehen
- Studieren Sie Big-Data-Systeme und -Algorithmen im Kontext von Gesundheitsanwendungen
Publikum
- Entwickler
- Data Scientists
Format des Kurses
- Teilvorlesung, Teildiskussion, Übungen und viel praktisches Üben.
Hinweis
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren.
Introduction to Graph Computing
28 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Schweiz lernen die Teilnehmer die Technologieangebote und Implementierungsansätze für die Verarbeitung von Graphdaten kennen. Ziel ist es, Objekte der realen Welt, ihre Eigenschaften und Beziehungen zu identifizieren, diese Beziehungen zu modellieren und sie als Daten mit einem Graph Computing (auch bekannt als Graph Analytics) Ansatz zu verarbeiten. Wir beginnen mit einem breiten Überblick und konzentrieren uns auf spezifische Tools, während wir eine Reihe von Fallstudien, praktischen Übungen und Live-Einsätzen durchführen.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein
- Verstehen, wie Graphdaten persistiert und durchlaufen werden.
- das beste Framework für eine bestimmte Aufgabe auszuwählen (von Graphdatenbanken bis hin zu Stapelverarbeitungs-Frameworks).
- Implementierung von Hadoop, Spark, GraphX und Pregel, um Graphenberechnungen auf vielen Rechnern parallel durchzuführen.
- Big-Data-Probleme aus der realen Welt in Form von Graphen, Prozessen und Traversalen zu betrachten.
Hadoop and Spark for Administrators
35 StundenDiese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Systemadministratoren, die lernen möchten, wie sie Hadoop Cluster in ihrem Unternehmen einrichten, einsetzen und verwalten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installation und Konfiguration von Apache Hadoop.
- Die vier Hauptkomponenten des Hadoop-Ökosystems verstehen: HDFS, MapReduce, YARN und Hadoop Common.
- Das Hadoop Distributed File System (HDFS) zur Skalierung eines Clusters auf Hunderte oder Tausende von Knoten verwenden.
- HDFS als Speichermaschine für lokale Spark-Implementierungen einrichten.
- Einrichten von Spark für den Zugriff auf alternative Speicherlösungen wie Amazon S3 und NoSQL-Datenbanksysteme wie Redis, Elasticsearch, Couchbase, Aerospike usw.
- Ausführen von administrativen Aufgaben wie Bereitstellung, Verwaltung, Überwachung und Sicherung eines Apache Hadoop-Clusters.
Hortonworks Data Platform (HDP) for Administrators
21 StundenDiese Live-Schulung mit Kursleiter in Schweiz (online oder vor Ort) führt die Teilnehmer in die Hortonworks Data Platform (HDP) ein und begleitet sie durch den Einsatz der Spark + Hadoop Lösung.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Hortonworks verwenden, um Hadoop in großem Maßstab zuverlässig auszuführen.
- Die Sicherheits-, Governance- und Betriebsfunktionen von Hadoop mit den agilen analytischen Workflows von Spark zu vereinen.
- Verwenden Sie Hortonworks, um jede Komponente in einem Spark-Projekt zu untersuchen, zu validieren, zu zertifizieren und zu unterstützen.
- Verarbeiten Sie verschiedene Datentypen, einschließlich strukturierter und unstrukturierter Daten sowie Daten in Bewegung und im Ruhezustand.
A Practical Introduction to Stream Processing
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie sie verschiedene Stream Processing Frameworks mit bestehenden Big-Data-Speichersystemen und zugehörigen Softwareanwendungen und Microservices einrichten und integrieren können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und Konfigurieren verschiedener Stream Processing Frameworks, wie Spark Streaming und Kafka Streaming.
- Das am besten geeignete Framework für die jeweilige Aufgabe verstehen und auswählen.
- Daten kontinuierlich, gleichzeitig und Datensatz für Datensatz verarbeiten.
- Lösungen mit bestehenden Datenbanken, Data Warehouses, Data Lakes usw. integrieren Stream Processing.
- Integrieren Sie die am besten geeignete Stream-Processing-Bibliothek in Unternehmensanwendungen und Microservices.
SMACK Stack for Data Science
14 StundenDiese von einem Trainer geleitete Live-Schulung (online oder vor Ort) richtet sich an Datenwissenschaftler, die den SMACK-Stack zum Aufbau von Datenverarbeitungsplattformen für Big-Data-Lösungen nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Implementierung einer Datenpipeline-Architektur zur Verarbeitung von Big Data.
- Entwickeln einer Cluster-Infrastruktur mit Apache Mesos und Docker.
- Daten mit Spark und Scala analysieren.
- Verwaltung unstrukturierter Daten mit Apache Cassandra.
Administration of Apache Spark
35 StundenDiese von einem Trainer geleitete Live-Schulung in Schweiz (online oder vor Ort) richtet sich an Anfänger bis fortgeschrittene Systemadministratoren, die Spark-Cluster einsetzen, warten und optimieren möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Installieren und konfigurieren Sie Apache Spark in verschiedenen Umgebungen.
- Cluster-Ressourcen zu verwalten und Spark-Anwendungen zu überwachen.
- Die Leistung von Spark-Clustern zu optimieren.
- Sicherheitsmaßnahmen zu implementieren und Hochverfügbarkeit zu gewährleisten.
- Allgemeine Spark-Probleme zu debuggen und zu beheben.
Apache Spark in the Cloud
21 StundenApache Spark Lernkurve von Apache Spark nimmt zu Beginn langsam zu, es erfordert viel Mühe, um die erste Rendite zu erzielen. Dieser Kurs zielt darauf ab, durch den ersten schwierigen Teil zu springen. Nach dem Besuch dieses Kurses werden die Teilnehmer die Grundlagen von Apache Spark verstehen, RDD klar von DataFrame unterscheiden, Python und Scala API erlernen, Ausführende und Aufgaben verstehen usw. Auch nach den bewährten Methoden konzentriert sich dieser Kurs stark auf Cloud-Bereitstellung, Databricks und AWS. Die Schüler werden auch die Unterschiede zwischen AWS EMR und AWS Glue, einem der neuesten Spark-Services von AWS, verstehen.
PUBLIKUM:
Dateningenieur, DevOps , Datenwissenschaftler
Spark for Developers
21 StundenZIELSETZUNG:
Dieser Kurs wird Apache Spark vorstellen. Die Schüler lernen, wie Spark in das Big Data Ökosystem passt und wie Spark für die Datenanalyse verwendet wird. Der Kurs behandelt die Spark-Shell für die interaktive Datenanalyse, Spark-Interna, Spark-APIs, Spark- SQL , Spark-Streaming sowie maschinelles Lernen und graphX.
PUBLIKUM:
Entwickler / Datenanalysten
Scaling Data Pipelines with Spark NLP
14 StundenDiese von einem Dozenten geleitete Live-Schulung in Schweiz (online oder vor Ort) richtet sich an Datenwissenschaftler und Entwickler, die Spark NLP, das auf Apache Spark aufbaut, zur Entwicklung, Implementierung und Skalierung von Modellen und Pipelines für die Verarbeitung natürlicher Sprache nutzen möchten.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- die notwendige Entwicklungsumgebung einzurichten, um mit dem Aufbau von NLP-Pipelines mit Spark NLP zu beginnen.
- die Funktionen, die Architektur und die Vorteile der Verwendung von Spark NLP zu verstehen.
- die in Spark NLP verfügbaren vortrainierten Modelle zur Implementierung von Textverarbeitung zu verwenden.
- Lernen Sie, wie Sie Spark NLP-Modelle für produktionsreife Projekte erstellen, trainieren und skalieren können.
- Anwendung von Klassifizierung, Inferenz und Sentiment-Analyse auf reale Anwendungsfälle (klinische Daten, Einblicke in das Kundenverhalten usw.).
Python and Spark for Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Schweiz lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen, wie man Spark mit Python verwendet, um Big Data zu analysieren.
- An Übungen arbeiten, die reale Fälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark verwenden.
Python, Spark, and Hadoop for Big Data
21 StundenDiese von einem Trainer geleitete Live-Schulung in Schweiz (online oder vor Ort) richtet sich an Entwickler, die Spark, Hadoop und Python verwenden und integrieren möchten, um große und komplexe Datensätze zu verarbeiten, zu analysieren und zu transformieren.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- die notwendige Umgebung einzurichten, um mit der Verarbeitung von Big Data mit Spark, Hadoop und Python zu beginnen.
- die Funktionen, Kernkomponenten und Architektur von Spark und Hadoop zu verstehen.
- Lernen, wie man Spark, Hadoop und Python für die Verarbeitung von Big Data integriert.
- Erkunden Sie die Werkzeuge im Spark-Ökosystem (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka und Flume).
- Erstellen Sie Empfehlungssysteme mit kollaborativer Filterung ähnlich wie bei Netflix, YouTube, Amazon, Spotify und Google.
- Apache Mahout zur Skalierung von maschinellen Lernalgorithmen verwenden.
Apache Spark SQL
7 Stunden Spark SQL ist das Modul von Apache Spark zum Arbeiten mit strukturierten und unstrukturierten Daten. Spark SQL bietet Informationen zur Struktur der Daten sowie zur ausgeführten Berechnung. Mit diesen Informationen können Optimierungen durchgeführt werden. Zwei häufige Verwendungen von Spark SQL sind:
- um SQL Abfragen auszuführen.
- um Daten aus einer vorhandenen Hive Installation zu lesen.
In diesem vom Kursleiter durchgeführten Live-Training (vor Ort oder remote) lernen die Teilnehmer, wie verschiedene Arten von Datensätzen mit Spark SQL analysiert werden.
Am Ende dieser Schulung können die Teilnehmer:
- Installieren und konfigurieren Sie Spark SQL .
- Führen Sie eine Datenanalyse mit Spark SQL .
- Abfragen von Datensätzen in verschiedenen Formaten.
- Daten visualisieren und Ergebnisse abfragen.
Format des Kurses
- Interaktiver Vortrag und Diskussion.
- Viele Übungen und Übungen.
- Praktische Implementierung in einer Live-Laborumgebung.
Anpassungsoptionen für den Kurs
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren.
Apache Spark MLlib
35 StundenMLlib ist die ML-Bibliothek (Machine Learning) von Spark. Ziel ist es, praktisches maschinelles Lernen skalierbar und einfach zu machen. Es besteht aus allgemeinen Lernalgorithmen und Dienstprogrammen, einschließlich Klassifizierung, Regression, Clustering, kollaborativer Filterung, Dimensionsreduzierung sowie Optimierungsprimitiven auf niedrigerer Ebene und Pipeline-APIs auf höherer Ebene.
Es teilt sich in zwei Pakete:
spark.mllib enthält die ursprüngliche API, die auf RDDs basiert.
spark.ml bietet eine API auf höherer Ebene, die auf DataFrames zum Erstellen von ML-Pipelines basiert.
Publikum
Dieser Kurs richtet sich an Ingenieure und Entwickler, die eine integrierte Maschinenbibliothek für Apache Spark