ETL und Datenpipelines mit Shell, Airflow und Kafka

ETL und Datenpipelines mit Shell, Airflow und Kafka

Name: ETL und Datenpipelines mit Shell, Airflow und Kafka
Rating: 4.487804878048781 (369 reviews)

Dieser Kurs ist Teil mehrerer Programme.

Dozenten: Jeff Grossman

50.830 bereits angemeldet

Bei Coursera Plus enthalten

Mehr erfahren

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.5

(369 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

Ca. 17 Stunden

In Ihrem eigenen Lerntempo lernen

87%

Den meisten Lernenden hat dieser Kurs gefallen

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.5

(369 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

Ca. 17 Stunden

In Ihrem eigenen Lerntempo lernen

87%

Den meisten Lernenden hat dieser Kurs gefallen

Was Sie lernen werden

Beschreiben und vergleichen Sie Extrahieren, Transformieren, Laden (ETL)-Prozesse und Extrahieren, Laden, Transformieren (ELT)-Prozesse.
Erklären Sie die Batch- und die gleichzeitige Ausführung.
Implementierung des ETL-Workflows durch Bash- und Python-Funktionen.
Beschreiben Sie die Komponenten, Prozesse, Tools und Technologien der Datenpipeline.

Kompetenzen, die Sie erwerben

Kategorie: Extrahieren, Transformieren und Laden (ETL)
Kategorie: Daten-Ingenieur
Kategorie: Apache Kafka
Kategorie: Apache Airflow
Kategorie: Daten-Pipelines

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

11 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist als Teil verfügbar

Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

Erwerben Sie ein Karrierezertifikat.

Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.

Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.

In diesem Kurs gibt es 5 Module

Informieren Sie sich über die zwei verschiedenen Ansätze zur Umwandlung von Rohdaten in analysereife Daten. Ein Ansatz ist das Extrahieren, Transformieren und Laden (ETL). Der andere Ansatz ist der Extrahier-, Lade- und Transformierprozess (ELT). ETL-Prozesse werden für Data Warehouses und Data Marts verwendet. ELT-Prozesse kommen bei Data Lakes zum Einsatz, wo die Daten bei Bedarf von der anfordernden/aufrufenden Anwendung umgewandelt werden.

In diesem Kurs lernen Sie die verschiedenen Tools und Techniken kennen, die bei ETL und Data Pipelines zum Einsatz kommen. Sowohl ETL als auch ELT extrahieren Daten aus Quellsystemen, bewegen die Daten durch die Datenpipeline und speichern die Daten in Zielsystemen. In diesem Kurs erfahren Sie, wie sich die ELT- und die ETL-Verarbeitung unterscheiden und welche Anwendungsfälle es für beide gibt. Sie werden die Methoden und Tools kennenlernen, die für die Extraktion der Daten, die logische oder physische Zusammenführung der extrahierten Daten und das Laden der Daten in Daten-Repositories verwendet werden. Sie werden auch Transformationen definieren, die Sie auf die Quelldaten anwenden können, um die Daten glaubwürdig, kontextbezogen und für die Datennutzer zugänglich zu machen. Sie werden in der Lage sein, einige der zahlreichen Methoden zum Laden von Daten in das Zielsystem, zur Überprüfung der Datenqualität, zur Überwachung von Ladefehlern und zum Einsatz von Wiederherstellungsmechanismen im Falle eines Fehlers zu erläutern. Am Ende dieses Kurses wissen Sie auch, wie Sie Apache Airflow zum Aufbau von Datenpipelines verwenden können und kennen die Vorteile dieses Ansatzes. Außerdem lernen Sie, wie Sie Apache Kafka zum Aufbau von Streaming-Pipelines verwenden und die Kernkomponenten von Kafka kennen, darunter Broker, Topics, Partitionen, Replikationen, Producer und Consumer. Schließlich werden Sie ein gemeinsames Abschlussprojekt durchführen, mit dem Sie die in den einzelnen Modulen erworbenen Fähigkeiten unter Beweis stellen können.

ETL oder Extrahier-, Transformier- und Ladeprozesse werden in Fällen eingesetzt, in denen Flexibilität, Geschwindigkeit und Skalierbarkeit von Daten wichtig sind. Sie werden einige wichtige Unterschiede zwischen ähnlichen Prozessen, ETL und ELT, kennenlernen, darunter den Ort der Transformation, die Flexibilität, die Unterstützung von Big Data und die Zeit bis zur Einsichtnahme. Sie werden erfahren, dass die steigende Nachfrage nach Zugriff auf Rohdaten die Entwicklung von ETL zu ELT vorantreibt. Die Datenextraktion umfasst fortschrittliche Technologien wie Datenbankabfragen, Web Scraping und APIs. Sie werden auch erfahren, dass es bei der Datentransformation darum geht, Daten so zu formatieren, dass sie für die Anwendung geeignet sind, und dass Daten in Stapeln geladen oder kontinuierlich gestreamt werden.

Das ist alles enthalten

7 Videos2 Lektüren2 Aufgaben1 Plug-in

7 VideosInsgesamt 32 Minuten

Kurs-Einführungsvideo5 MinutenModulvorschau
ETL-Grundlagen5 Minuten
ELT-Grundlagen4 Minuten
ETL und ELT im Vergleich4 Minuten
Techniken zur Datenextraktion4 Minuten
Einführung in Datenumwandlungstechniken4 Minuten
Techniken zum Laden von Daten3 Minuten

2 LektürenInsgesamt 7 Minuten

Kurs Einführung4 Minuten
Zusammenfassung & Highlights3 Minuten

2 AufgabenInsgesamt 40 Minuten

ETL- und ELT-Prozesse10 Minuten
Benotetes Quiz: ETL- und ELT-Prozesse30 Minuten

1 Plug-inInsgesamt 5 Minuten

Interaktivität: Unterscheiden Sie zwischen ETL und ELT5 Minuten

ETL-Pipelines (Extrahieren, Transformieren und Laden) werden mit Bash-Skripten erstellt, die mit cron nach einem Zeitplan ausgeführt werden können. Datenpipelines verschieben Daten von einem Ort oder einer Form zu einem anderen. Zu den Prozessen von Datenpipelines gehören Planung oder Auslösung, Überwachung, Wartung und Optimierung. Außerdem extrahieren und bearbeiten Batch-Pipelines Datenstapel. Streaming Data Pipelines hingegen nehmen Datenpakete einzeln und in schneller Folge auf. In diesem Modul lernen Sie, dass Streaming-Pipelines dann eingesetzt werden, wenn die aktuellsten Daten benötigt werden. Sie werden erfahren, dass Parallelisierung und E/A-Puffer helfen, Engpässe zu vermeiden. Außerdem lernen Sie, wie Sie die Leistung von Datenpipelines in Form von Latenz und Durchsatz beschreiben können.

Das ist alles enthalten

5 Videos4 Lektüren4 Aufgaben1 App-Element1 Plug-in

5 VideosInsgesamt 25 Minuten

ETL mit Shell-Skripting4 MinutenModulvorschau
Einführung in Daten-Pipelines4 Minuten
Wichtige Daten-Pipeline-Prozesse4 Minuten
Batch versus Streaming Data Pipeline Anwendungsfälle4 Minuten
Tools und Technologien für die Datenleitung6 Minuten

4 LektürenInsgesamt 15 Minuten

Linux-Befehle und Shell-Scripting2 Minuten
ETL-Techniken10 Minuten
Zusammenfassung & Highlights1 Minute
Zusammenfassung & Highlights2 Minuten

4 AufgabenInsgesamt 80 Minuten

Praxis-Quiz: ETL mit Shell-Skripten10 Minuten
Praxis-Quiz: Eine Einführung in Daten-Pipelines10 Minuten
Benotetes Quiz: ETL mit Shell-Skripten30 Minuten
Benotetes Quiz: Eine Einführung in Daten-Pipelines30 Minuten

1 App-ElementInsgesamt 30 Minuten

Praktische Übung: ETL mit Shell-Skripten30 Minuten

1 Plug-inInsgesamt 10 Minuten

Interaktivität: Unterscheiden Sie zwischen Batch-Verarbeitung und Stream-Verarbeitung10 Minuten

Der Hauptvorteil des Ansatzes von Apache Airflow, Datenpipelines als DAGs darzustellen, besteht darin, dass sie als Code ausgedrückt werden, wodurch Ihre Datenpipelines besser wartbar, testbar und kollaborativ sind. Aufgaben, die Knoten in einer DAG, werden durch die Implementierung der in Airflow integrierten Operatoren erstellt. In diesem Modul lernen Sie die reichhaltige Benutzeroberfläche von Apache Airflow kennen, die die Arbeit mit Datenpipelines vereinfacht. Sie werden erfahren, wie Sie Ihre DAG im Graphen- oder Baummodus visualisieren können. Sie lernen auch die wichtigsten Komponenten einer DAG-Definitionsdatei kennen und erfahren, dass Airflow-Protokolle in lokalen Dateisystemen gespeichert und dann an Cloud-Speicher, Suchmaschinen und Protokollanalysatoren gesendet werden.

Das ist alles enthalten

5 Videos1 Lektüre2 Aufgaben4 App-Elemente1 Plug-in

5 VideosInsgesamt 25 Minuten

Apache Airflow Übersicht6 MinutenModulvorschau
Vorteile der Darstellung von Datenpipelines als DAGs in Apache Airflow6 Minuten
Apache Airflow UI3 Minuten
Erstellen Sie eine DAG mit Airflow4 Minuten
Luftstromaufzeichnung und -überwachung4 Minuten

1 LektüreInsgesamt 3 Minuten

Zusammenfassung & Highlights3 Minuten

2 AufgabenInsgesamt 40 Minuten

Praxis-Quiz: Aufbau von Datenpipelines mit Airflow10 Minuten
Benotetes Quiz: Aufbau von Datenpipelines mit Airflow30 Minuten

4 App-ElementeInsgesamt 120 Minuten

Praktisches Labor: Erste Schritte mit Apache Airflow20 Minuten
Praktisches Labor: Erstellen eines DAG für Apache Airflow mit PythonOperator40 Minuten
Praktisches Labor: Eine DAG für Apache Airflow mit BashOperator erstellen40 Minuten
Praktisches Labor: Überwachung einer DAG20 Minuten

1 Plug-inInsgesamt 15 Minuten

Lesen: DAG-Struktur und Operatoren15 Minuten

Apache Kafka ist eine sehr beliebte Open-Source-Ereignis-Streaming-Pipeline. Ein Ereignis ist ein Datentyp, der die beobachtbaren Zustandsänderungen einer Entität im Laufe der Zeit beschreibt. Zu den beliebten Kafka-Dienstleistern gehören Confluent Cloud, IBM Event Stream und Amazon MSK. Außerdem ist die Kafka Streams API eine Client-Bibliothek, die Sie bei der Datenverarbeitung in Event-Streaming-Pipelines unterstützt. In diesem Modul werden Sie lernen, dass die Kernkomponenten von Kafka Broker, Topics, Partitionen, Replikationen, Producer und Consumer sind. Sie werden zwei spezielle Typen von Prozessoren in der Kafka Stream API Stream-Processing-Topologie kennenlernen: Den Quellprozessor und den Senkenprozessor. Außerdem lernen Sie, wie Sie mit Kafka Ereignis-Streaming-Pipelines aufbauen.

Das ist alles enthalten

4 Videos1 Lektüre2 Aufgaben3 App-Elemente1 Plug-in

4 VideosInsgesamt 26 Minuten

Komponenten der Plattform für verteiltes Ereignis-Streaming5 MinutenModulvorschau
Apache Kafka Überblick6 Minuten
Aufbau von Ereignis-Streaming-Pipelines mit Kafka9 Minuten
Kafka Streaming-Prozess5 Minuten

1 Lektüre

Zusammenfassung & Highlights0 Minuten

2 AufgabenInsgesamt 40 Minuten

Praxis-Quiz: Aufbau von Streaming-Pipelines mit Kafka10 Minuten
Benotetes Quiz: Aufbau von Streaming-Pipelines mit Kafka30 Minuten

3 App-ElementeInsgesamt 90 Minuten

Praktisches Labor: Arbeiten mit Streaming-Daten mit Kafka20 Minuten
[Optional] Praktische Übung: Kafka-Nachrichtenschlüssel und Offset40 Minuten
[Optional] Praktische Übung: Kafka-Python-Client30 Minuten

1 Plug-inInsgesamt 30 Minuten

Kafka Python Client30 Minuten

In diesem letzten Aufgabemodul werden Sie Ihr neu erworbenes Wissen anwenden, um zwei sehr spannende praktische Übungen durchzuführen. "Erstellen von ETL-Datenpipelines mit Apache Airflow" und "Erstellen von Streaming-Datenpipelines mit Kafka". Sie werden den Aufbau dieser ETL-Pipelines anhand realer Szenarien erkunden. Sie werden Daten extrahieren, transformieren und in eine CSV-Datei laden. Außerdem erstellen Sie ein Topic mit dem Namen "toll" in Apache Kafka, laden einen Streaming Data Consumer herunter und passen ihn an. Außerdem überprüfen Sie, ob die Streaming-Daten in der Datenbanktabelle gesammelt wurden.

Das ist alles enthalten

4 Lektüren1 Aufgabe1 peer review3 App-Elemente

4 LektürenInsgesamt 24 Minuten

Projekt Übersicht10 Minuten
Benotete Abschlussprüfung mit Zeitmessung Anweisungen10 Minuten
Glückwünsche & Nächste Schritte2 Minuten
Dank des Kursteams2 Minuten

1 AufgabeInsgesamt 90 Minuten

Zeitgesteuertes Abschlussquiz90 Minuten

1 peer reviewInsgesamt 60 Minuten

Peer Review: Projekteinreichung und Peer Review60 Minuten

3 App-ElementeInsgesamt 225 Minuten

Praktisches Labor: ETL-Datenpipelines mit BashOperator und Apache Airflow erstellen90 Minuten
[Optional] Praktische Übung: Aufbau einer ETL-Pipeline mit PythonOperator und Apache Airflow90 Minuten
[Optional] Praktische Übung: Aufbau einer Streaming ETL-Pipeline mit Kafka45 Minuten

Dozenten

Lehrkraftbewertungen

4.7 (101 Bewertungen)

Jeff Grossman

IBM

2 Kurse64.011 Lernende

Yan Luo

IBM

7 Kurse321.616 Lernende

von

IBM

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

4.5

369 Bewertungen

5 stars
70,16 %
4 stars
17,20 %
3 stars
6,98 %
2 stars
2,95 %
1 star
2,68 %

Zeigt 3 von 369 an

Geprüft am 28. Sep. 2021

It's one of the most challenging courses I've been enrolled!

Geprüft am 23. Apr. 2022

Nice intro to ETL and Data Pipelines. Beginner level easy to follow hands on Airflow and Kafka.

Geprüft am 30. Dez. 2022

This was my first introduction to Apache airflow and i found the course detailed and practical.

Weitere Bewertungen anzeigen

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Mehr erfahren

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Erkunden Sie die Abschlüsse

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Mehr erfahren

Häufig gestellte Fragen

Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:

Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen des Zertifikats und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.

Wenn Sie ein Abonnement abgeschlossen haben, erhalten Sie eine kostenlose 7-tägige Testphase, in der Sie kostenlos kündigen können. Danach gewähren wir keine Rückerstattung, aber Sie können Ihr Abonnement jederzeit kündigen. Siehe unsere vollständigen Rückerstattungsbedingungen.

Weitere Fragen

Besuchen Sie die das Hilfe-Center für Kursteilnehmer.

ETL und Datenpipelines mit Shell, Airflow und Kafka

Was Sie lernen werden

Kompetenzen, die Sie erwerben

Wichtige Details

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Erweitern Sie Ihre Fachkenntnisse

Erwerben Sie ein Karrierezertifikat.

In diesem Kurs gibt es 5 Module

Techniken der Datenverarbeitung

Das ist alles enthalten

ETL & Daten-Pipelines: Tools und Techniken

Das ist alles enthalten

Aufbau von Datenpipelines mit Airflow

Das ist alles enthalten

Aufbau von Streaming-Pipelines mit Kafka

Das ist alles enthalten

Abschließende Zuweisung

Das ist alles enthalten

Dozenten

von

Empfohlen, wenn Sie sich für Datenmanagement interessieren

ML Pipelines on Google Cloud - 한국어

ML-Pipelines in der Google Cloud

Datenbankdesign und betriebliche Business Intelligence

Serverless Data Processing with Dataflow: Foundations em Português Brasileiro

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Bewertungen von Lernenden

Neue Karrieremöglichkeiten mit Coursera Plus

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Häufig gestellte Fragen

Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?

Was bekomme ich, wenn ich dieses Zertifikat abonniere?

Wie sieht die Erstattungspolitik aus?

Weitere Fragen