IBM
ETL und Datenpipelines mit Shell, Airflow und Kafka
IBM

ETL und Datenpipelines mit Shell, Airflow und Kafka

Dieser Kurs ist Teil mehrerer Programme.

Jeff Grossman
Yan Luo
Lavanya Thiruvali Sunderarajan

Dozenten: Jeff Grossman

50.830 bereits angemeldet

Bei Coursera Plus enthalten

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
4.5

(369 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan
Ca. 17 Stunden
In Ihrem eigenen Lerntempo lernen
87%
Den meisten Lernenden hat dieser Kurs gefallen
Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
4.5

(369 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan
Ca. 17 Stunden
In Ihrem eigenen Lerntempo lernen
87%
Den meisten Lernenden hat dieser Kurs gefallen

Was Sie lernen werden

  • Beschreiben und vergleichen Sie Extrahieren, Transformieren, Laden (ETL)-Prozesse und Extrahieren, Laden, Transformieren (ELT)-Prozesse.

  • Erklären Sie die Batch- und die gleichzeitige Ausführung.

  • Implementierung des ETL-Workflows durch Bash- und Python-Funktionen.

  • Beschreiben Sie die Komponenten, Prozesse, Tools und Technologien der Datenpipeline.

Kompetenzen, die Sie erwerben

  • Kategorie: Extrahieren, Transformieren und Laden (ETL)
  • Kategorie: Daten-Ingenieur
  • Kategorie: Apache Kafka
  • Kategorie: Apache Airflow
  • Kategorie: Daten-Pipelines

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

11 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Platzhalter

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist als Teil verfügbar
Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.
  • Lernen Sie neue Konzepte von Branchenexperten
  • Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
  • Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
  • Erwerben Sie ein Berufszertifikat zur Vorlage
Platzhalter
Platzhalter

Erwerben Sie ein Karrierezertifikat.

Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.

Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.

Platzhalter

In diesem Kurs gibt es 5 Module

ETL oder Extrahier-, Transformier- und Ladeprozesse werden in Fällen eingesetzt, in denen Flexibilität, Geschwindigkeit und Skalierbarkeit von Daten wichtig sind. Sie werden einige wichtige Unterschiede zwischen ähnlichen Prozessen, ETL und ELT, kennenlernen, darunter den Ort der Transformation, die Flexibilität, die Unterstützung von Big Data und die Zeit bis zur Einsichtnahme. Sie werden erfahren, dass die steigende Nachfrage nach Zugriff auf Rohdaten die Entwicklung von ETL zu ELT vorantreibt. Die Datenextraktion umfasst fortschrittliche Technologien wie Datenbankabfragen, Web Scraping und APIs. Sie werden auch erfahren, dass es bei der Datentransformation darum geht, Daten so zu formatieren, dass sie für die Anwendung geeignet sind, und dass Daten in Stapeln geladen oder kontinuierlich gestreamt werden.

Das ist alles enthalten

7 Videos2 Lektüren2 Aufgaben1 Plug-in

ETL-Pipelines (Extrahieren, Transformieren und Laden) werden mit Bash-Skripten erstellt, die mit cron nach einem Zeitplan ausgeführt werden können. Datenpipelines verschieben Daten von einem Ort oder einer Form zu einem anderen. Zu den Prozessen von Datenpipelines gehören Planung oder Auslösung, Überwachung, Wartung und Optimierung. Außerdem extrahieren und bearbeiten Batch-Pipelines Datenstapel. Streaming Data Pipelines hingegen nehmen Datenpakete einzeln und in schneller Folge auf. In diesem Modul lernen Sie, dass Streaming-Pipelines dann eingesetzt werden, wenn die aktuellsten Daten benötigt werden. Sie werden erfahren, dass Parallelisierung und E/A-Puffer helfen, Engpässe zu vermeiden. Außerdem lernen Sie, wie Sie die Leistung von Datenpipelines in Form von Latenz und Durchsatz beschreiben können.

Das ist alles enthalten

5 Videos4 Lektüren4 Aufgaben1 App-Element1 Plug-in

Der Hauptvorteil des Ansatzes von Apache Airflow, Datenpipelines als DAGs darzustellen, besteht darin, dass sie als Code ausgedrückt werden, wodurch Ihre Datenpipelines besser wartbar, testbar und kollaborativ sind. Aufgaben, die Knoten in einer DAG, werden durch die Implementierung der in Airflow integrierten Operatoren erstellt. In diesem Modul lernen Sie die reichhaltige Benutzeroberfläche von Apache Airflow kennen, die die Arbeit mit Datenpipelines vereinfacht. Sie werden erfahren, wie Sie Ihre DAG im Graphen- oder Baummodus visualisieren können. Sie lernen auch die wichtigsten Komponenten einer DAG-Definitionsdatei kennen und erfahren, dass Airflow-Protokolle in lokalen Dateisystemen gespeichert und dann an Cloud-Speicher, Suchmaschinen und Protokollanalysatoren gesendet werden.

Das ist alles enthalten

5 Videos1 Lektüre2 Aufgaben4 App-Elemente1 Plug-in

Apache Kafka ist eine sehr beliebte Open-Source-Ereignis-Streaming-Pipeline. Ein Ereignis ist ein Datentyp, der die beobachtbaren Zustandsänderungen einer Entität im Laufe der Zeit beschreibt. Zu den beliebten Kafka-Dienstleistern gehören Confluent Cloud, IBM Event Stream und Amazon MSK. Außerdem ist die Kafka Streams API eine Client-Bibliothek, die Sie bei der Datenverarbeitung in Event-Streaming-Pipelines unterstützt. In diesem Modul werden Sie lernen, dass die Kernkomponenten von Kafka Broker, Topics, Partitionen, Replikationen, Producer und Consumer sind. Sie werden zwei spezielle Typen von Prozessoren in der Kafka Stream API Stream-Processing-Topologie kennenlernen: Den Quellprozessor und den Senkenprozessor. Außerdem lernen Sie, wie Sie mit Kafka Ereignis-Streaming-Pipelines aufbauen.

Das ist alles enthalten

4 Videos1 Lektüre2 Aufgaben3 App-Elemente1 Plug-in

In diesem letzten Aufgabemodul werden Sie Ihr neu erworbenes Wissen anwenden, um zwei sehr spannende praktische Übungen durchzuführen. "Erstellen von ETL-Datenpipelines mit Apache Airflow" und "Erstellen von Streaming-Datenpipelines mit Kafka". Sie werden den Aufbau dieser ETL-Pipelines anhand realer Szenarien erkunden. Sie werden Daten extrahieren, transformieren und in eine CSV-Datei laden. Außerdem erstellen Sie ein Topic mit dem Namen "toll" in Apache Kafka, laden einen Streaming Data Consumer herunter und passen ihn an. Außerdem überprüfen Sie, ob die Streaming-Daten in der Datenbanktabelle gesammelt wurden.

Das ist alles enthalten

4 Lektüren1 Aufgabe1 peer review3 App-Elemente

Dozenten

Lehrkraftbewertungen
4.7 (101 Bewertungen)
Jeff Grossman
IBM
2 Kurse64.011 Lernende
Yan Luo
IBM
7 Kurse321.616 Lernende

von

IBM

Empfohlen, wenn Sie sich für Datenmanagement interessieren

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

4.5

369 Bewertungen

  • 5 stars

    70,16 %

  • 4 stars

    17,20 %

  • 3 stars

    6,98 %

  • 2 stars

    2,95 %

  • 1 star

    2,68 %

Zeigt 3 von 369 an

ED
5

Geprüft am 28. Sep. 2021

KB
5

Geprüft am 23. Apr. 2022

UN
5

Geprüft am 30. Dez. 2022

Platzhalter

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Häufig gestellte Fragen