Unified Batch and Stream Processing with Apache Beam Schulung

Kurs Code

beam

Dauer

14 hours (üblicherweise 2 Tage inklusive Pausen)

Voraussetzungen

  • Experience with Python Programming.
  • Experience with the Linux command line.

Audience

  • Developers

Überblick

Apache Beam ist ein Open-Source-Programm zur einheitlichen Definition und Ausführung von parallelen Datenverarbeitungspipelines Seine Stärke liegt in der Fähigkeit, sowohl Batch- als auch Streaming-Pipelines auszuführen, wobei die Ausführung durch eines der von Beam unterstützten verteilten Verarbeitungs-Backends ausgeführt wird: Apache Apex, Apache Fink, Apache Spark und Google Cloud Dataflow Apache Beam ist nützlich für ETL-Aufgaben (Extrahieren, Transformieren und Laden), z B zum Verschieben von Daten zwischen verschiedenen Speichermedien und Datenquellen, zum Umwandeln von Daten in ein wünschenswertes Format und zum Laden von Daten in ein neues System In diesem instruierten Live-Training (vor Ort oder remote) lernen die Teilnehmer, wie sie die Apache Beam SDKs in einer Java- oder Python-Anwendung implementieren, die eine Datenverarbeitungspipeline zum Zerlegen eines großen Datensatzes in kleinere Blöcke für die unabhängige, parallele Verarbeitung definiert Am Ende dieses Trainings werden die Teilnehmer in der Lage sein: Installieren und konfigurieren Sie Apache Beam Verwenden Sie ein einzelnes Programmiermodell, um sowohl die Batch- als auch die Stream-Verarbeitung auszuführen, indem Sie ihre Java- oder Python-Anwendung verwenden Führen Sie Pipelines über mehrere Umgebungen hinweg aus Publikum Entwickler Format des Kurses Teilvorlesung, Teildiskussion, Übungen und schwere Handsonsübungen Hinweis Dieser Kurs wird in Zukunft Scala zur Verfügung stehen Bitte kontaktieren Sie uns, um zu vereinbaren .

Machine Translated

Schulungsübersicht

Introduction

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm and Flink

Installing and Configuring Apache Beam

Overview of Apache Beam Features and Architecture

  • Beam Model, SDKs, Beam Pipeline Runners
  • Distributed processing back-ends

Understanding the Apache Beam Programming Model

  • How a pipeline is executed

Running a sample pipeline

  • Preparing a WordCount pipeline
  • Executing the Pipeline locally

Designing a Pipeline

  • Planning the structure, choosing the transforms, and determining the input and output methods

Creating the Pipeline

  • Writing the driver program and defining the pipeline
  • Using Apache Beam classes
  • Data sets, transforms, I/O, data encoding, etc.

Executing the Pipeline

  • Executing the pipeline locally, on remote machines, and on a public cloud
  • Choosing a runner
  • Runner-specific configurations

Testing and Debugging Apache Beam

  • Using type hints to emulate static typing
  • Managing Python Pipeline Dependencies

Processing Bounded and Unbounded Datasets

  • Windowing and Triggers

Making Your Pipelines Reusable and Maintainable

Create New Data Sources and Sinks

  • Apache Beam Source and Sink API

Integrating Apache Beam with other Big Data Systems

  • Apache Hadoop, Apache Spark, Apache Kafka

Troubleshooting

Summary and Conclusion

Erfahrungsberichte

★★★★★
★★★★★

Verwandte Kategorien

EINIGE UNSERER KUNDEN

is growing fast!

We are looking to expand our presence in Switzerland!

As a Business Development Manager you will:

  • expand business in Switzerland
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!