Informieren Sie sich über die zwei verschiedenen Ansätze zur Umwandlung von Rohdaten in analysereife Daten. Ein Ansatz ist das Extrahieren, Transformieren und Laden (ETL). Der andere Ansatz ist der Extrahier-, Lade- und Transformierprozess (ELT). ETL-Prozesse werden für Data Warehouses und Data Marts verwendet. ELT-Prozesse kommen bei Data Lakes zum Einsatz, wo die Daten bei Bedarf von der anfordernden/aufrufenden Anwendung umgewandelt werden.
ETL und Datenpipelines mit Shell, Airflow und Kafka
Dieser Kurs ist Teil mehrerer Programme.
Dozenten: Jeff Grossman
50.830 bereits angemeldet
Bei enthalten
(369 Bewertungen)
Empfohlene Erfahrung
Was Sie lernen werden
Beschreiben und vergleichen Sie Extrahieren, Transformieren, Laden (ETL)-Prozesse und Extrahieren, Laden, Transformieren (ELT)-Prozesse.
Erklären Sie die Batch- und die gleichzeitige Ausführung.
Implementierung des ETL-Workflows durch Bash- und Python-Funktionen.
Beschreiben Sie die Komponenten, Prozesse, Tools und Technologien der Datenpipeline.
Kompetenzen, die Sie erwerben
- Kategorie: Extrahieren, Transformieren und Laden (ETL)
- Kategorie: Daten-Ingenieur
- Kategorie: Apache Kafka
- Kategorie: Apache Airflow
- Kategorie: Daten-Pipelines
Wichtige Details
Zu Ihrem LinkedIn-Profil hinzufügen
11 Aufgaben
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Erweitern Sie Ihre Fachkenntnisse
- Lernen Sie neue Konzepte von Branchenexperten
- Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
- Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
- Erwerben Sie ein Berufszertifikat zur Vorlage
Erwerben Sie ein Karrierezertifikat.
Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.
Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.
In diesem Kurs gibt es 5 Module
ETL oder Extrahier-, Transformier- und Ladeprozesse werden in Fällen eingesetzt, in denen Flexibilität, Geschwindigkeit und Skalierbarkeit von Daten wichtig sind. Sie werden einige wichtige Unterschiede zwischen ähnlichen Prozessen, ETL und ELT, kennenlernen, darunter den Ort der Transformation, die Flexibilität, die Unterstützung von Big Data und die Zeit bis zur Einsichtnahme. Sie werden erfahren, dass die steigende Nachfrage nach Zugriff auf Rohdaten die Entwicklung von ETL zu ELT vorantreibt. Die Datenextraktion umfasst fortschrittliche Technologien wie Datenbankabfragen, Web Scraping und APIs. Sie werden auch erfahren, dass es bei der Datentransformation darum geht, Daten so zu formatieren, dass sie für die Anwendung geeignet sind, und dass Daten in Stapeln geladen oder kontinuierlich gestreamt werden.
Das ist alles enthalten
7 Videos2 Lektüren2 Aufgaben1 Plug-in
ETL-Pipelines (Extrahieren, Transformieren und Laden) werden mit Bash-Skripten erstellt, die mit cron nach einem Zeitplan ausgeführt werden können. Datenpipelines verschieben Daten von einem Ort oder einer Form zu einem anderen. Zu den Prozessen von Datenpipelines gehören Planung oder Auslösung, Überwachung, Wartung und Optimierung. Außerdem extrahieren und bearbeiten Batch-Pipelines Datenstapel. Streaming Data Pipelines hingegen nehmen Datenpakete einzeln und in schneller Folge auf. In diesem Modul lernen Sie, dass Streaming-Pipelines dann eingesetzt werden, wenn die aktuellsten Daten benötigt werden. Sie werden erfahren, dass Parallelisierung und E/A-Puffer helfen, Engpässe zu vermeiden. Außerdem lernen Sie, wie Sie die Leistung von Datenpipelines in Form von Latenz und Durchsatz beschreiben können.
Das ist alles enthalten
5 Videos4 Lektüren4 Aufgaben1 App-Element1 Plug-in
Der Hauptvorteil des Ansatzes von Apache Airflow, Datenpipelines als DAGs darzustellen, besteht darin, dass sie als Code ausgedrückt werden, wodurch Ihre Datenpipelines besser wartbar, testbar und kollaborativ sind. Aufgaben, die Knoten in einer DAG, werden durch die Implementierung der in Airflow integrierten Operatoren erstellt. In diesem Modul lernen Sie die reichhaltige Benutzeroberfläche von Apache Airflow kennen, die die Arbeit mit Datenpipelines vereinfacht. Sie werden erfahren, wie Sie Ihre DAG im Graphen- oder Baummodus visualisieren können. Sie lernen auch die wichtigsten Komponenten einer DAG-Definitionsdatei kennen und erfahren, dass Airflow-Protokolle in lokalen Dateisystemen gespeichert und dann an Cloud-Speicher, Suchmaschinen und Protokollanalysatoren gesendet werden.
Das ist alles enthalten
5 Videos1 Lektüre2 Aufgaben4 App-Elemente1 Plug-in
Apache Kafka ist eine sehr beliebte Open-Source-Ereignis-Streaming-Pipeline. Ein Ereignis ist ein Datentyp, der die beobachtbaren Zustandsänderungen einer Entität im Laufe der Zeit beschreibt. Zu den beliebten Kafka-Dienstleistern gehören Confluent Cloud, IBM Event Stream und Amazon MSK. Außerdem ist die Kafka Streams API eine Client-Bibliothek, die Sie bei der Datenverarbeitung in Event-Streaming-Pipelines unterstützt. In diesem Modul werden Sie lernen, dass die Kernkomponenten von Kafka Broker, Topics, Partitionen, Replikationen, Producer und Consumer sind. Sie werden zwei spezielle Typen von Prozessoren in der Kafka Stream API Stream-Processing-Topologie kennenlernen: Den Quellprozessor und den Senkenprozessor. Außerdem lernen Sie, wie Sie mit Kafka Ereignis-Streaming-Pipelines aufbauen.
Das ist alles enthalten
4 Videos1 Lektüre2 Aufgaben3 App-Elemente1 Plug-in
In diesem letzten Aufgabemodul werden Sie Ihr neu erworbenes Wissen anwenden, um zwei sehr spannende praktische Übungen durchzuführen. "Erstellen von ETL-Datenpipelines mit Apache Airflow" und "Erstellen von Streaming-Datenpipelines mit Kafka". Sie werden den Aufbau dieser ETL-Pipelines anhand realer Szenarien erkunden. Sie werden Daten extrahieren, transformieren und in eine CSV-Datei laden. Außerdem erstellen Sie ein Topic mit dem Namen "toll" in Apache Kafka, laden einen Streaming Data Consumer herunter und passen ihn an. Außerdem überprüfen Sie, ob die Streaming-Daten in der Datenbanktabelle gesammelt wurden.
Das ist alles enthalten
4 Lektüren1 Aufgabe1 peer review3 App-Elemente
Dozenten
von
Empfohlen, wenn Sie sich für Datenmanagement interessieren
Google Cloud
Google Cloud
University of California, Irvine
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Bewertungen von Lernenden
369 Bewertungen
- 5 stars
70,16 %
- 4 stars
17,20 %
- 3 stars
6,98 %
- 2 stars
2,95 %
- 1 star
2,68 %
Zeigt 3 von 369 an
Geprüft am 28. Sep. 2021
It's one of the most challenging courses I've been enrolled!
Geprüft am 23. Apr. 2022
Nice intro to ETL and Data Pipelines. Beginner level easy to follow hands on Airflow and Kafka.
Geprüft am 30. Dez. 2022
This was my first introduction to Apache airflow and i found the course detailed and practical.
Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:
Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen des Zertifikats und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.
Wenn Sie ein Abonnement abgeschlossen haben, erhalten Sie eine kostenlose 7-tägige Testphase, in der Sie kostenlos kündigen können. Danach gewähren wir keine Rückerstattung, aber Sie können Ihr Abonnement jederzeit kündigen. Siehe unsere vollständigen Rückerstattungsbedingungen.