Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.
Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage
In diesem Kurs gibt es 5 Module
Informieren Sie sich über die zwei verschiedenen Ansätze zur Umwandlung von Rohdaten in analysereife Daten. Ein Ansatz ist das Extrahieren, Transformieren und Laden (ETL). Der andere Ansatz ist der Extrahier-, Lade- und Transformierprozess (ELT). ETL-Prozesse werden für Data Warehouses und Data Marts verwendet. ELT-Prozesse kommen bei Data Lakes zum Einsatz, wo die Daten bei Bedarf von der anfordernden/aufrufenden Anwendung umgewandelt werden.
In diesem Kurs lernen Sie die verschiedenen Tools und Techniken kennen, die bei ETL und Data Pipelines zum Einsatz kommen. Sowohl ETL als auch ELT extrahieren Daten aus Quellsystemen, bewegen die Daten durch die Datenpipeline und speichern die Daten in Zielsystemen. In diesem Kurs erfahren Sie, wie sich die ELT- und die ETL-Verarbeitung unterscheiden und welche Anwendungsfälle es für beide gibt. Sie werden die Methoden und Tools kennenlernen, die für die Extraktion der Daten, die logische oder physische Zusammenführung der extrahierten Daten und das Laden der Daten in Daten-Repositories verwendet werden.
Sie werden auch Transformationen definieren, die Sie auf die Quelldaten anwenden können, um die Daten glaubwürdig, kontextbezogen und für die Datennutzer zugänglich zu machen. Sie werden in der Lage sein, einige der zahlreichen Methoden zum Laden von Daten in das Zielsystem, zur Überprüfung der Datenqualität, zur Überwachung von Ladefehlern und zum Einsatz von Wiederherstellungsmechanismen im Falle eines Fehlers zu erläutern.
Am Ende dieses Kurses wissen Sie auch, wie Sie Apache Airflow zum Aufbau von Datenpipelines verwenden können und kennen die Vorteile dieses Ansatzes. Außerdem lernen Sie, wie Sie Apache Kafka zum Aufbau von Streaming-Pipelines verwenden und die Kernkomponenten von Kafka kennen, darunter Broker, Topics, Partitionen, Replikationen, Producer und Consumer.
Schließlich werden Sie ein gemeinsames Abschlussprojekt durchführen, mit dem Sie die in den einzelnen Modulen erworbenen Fähigkeiten unter Beweis stellen können.
ETL oder Extrahier-, Transformier- und Ladeprozesse werden in Fällen eingesetzt, in denen Flexibilität, Geschwindigkeit und Skalierbarkeit von Daten wichtig sind. Sie werden einige wichtige Unterschiede zwischen ähnlichen Prozessen, ETL und ELT, kennenlernen, darunter den Ort der Transformation, die Flexibilität, die Unterstützung von Big Data und die Zeit bis zur Einsichtnahme. Sie werden erfahren, dass die steigende Nachfrage nach Zugriff auf Rohdaten die Entwicklung von ETL zu ELT vorantreibt. Die Datenextraktion umfasst fortschrittliche Technologien wie Datenbankabfragen, Web Scraping und APIs. Sie werden auch erfahren, dass es bei der Datentransformation darum geht, Daten so zu formatieren, dass sie für die Anwendung geeignet sind, und dass Daten in Stapeln geladen oder kontinuierlich gestreamt werden.
Das ist alles enthalten
7 Videos3 LektĂĽren2 Aufgaben1 Plug-in
Infos zu Modulinhalt anzeigen
7 Videos•Insgesamt 32 Minuten
Kurs-Einführungsvideo•5 Minuten
ETL-Grundlagen•5 Minuten
ELT-Grundlagen•4 Minuten
ETL und ELT im Vergleich•4 Minuten
Techniken zur Datenextraktion•4 Minuten
Einführung in Datenumwandlungstechniken•4 Minuten
Techniken zum Laden von Daten•4 Minuten
3 Lektüren•Insgesamt 9 Minuten
IBM Produkt-Spotlight: IBM Instana•2 Minuten
Einführung in den Kurs•4 Minuten
Zusammenfassung & Highlights•3 Minuten
2 Aufgaben•Insgesamt 40 Minuten
Benotetes Quiz: ETL- und ELT-Prozesse•30 Minuten
ETL- und ELT-Prozesse•10 Minuten
1 Plug-in•Insgesamt 5 Minuten
Interaktivität: Unterscheiden Sie zwischen ETL und ELT•5 Minuten
ETL und Daten-Pipelines: Tools und Techniken
Modul 2•3 Stunden abzuschließen
Moduldetails
ETL-Pipelines (Extrahieren, Transformieren und Laden) werden mit Bash-Skripten erstellt, die mit cron nach einem Zeitplan ausgeführt werden können. Datenpipelines verschieben Daten von einem Ort oder einer Form zu einem anderen. Zu den Prozessen von Datenpipelines gehören Planung oder Auslösung, Überwachung, Wartung und Optimierung. Außerdem extrahieren und bearbeiten Batch-Pipelines Datenstapel. Streaming Data Pipelines hingegen nehmen Datenpakete einzeln und in schneller Folge auf. In diesem Modul lernen Sie, dass Streaming-Pipelines dann eingesetzt werden, wenn die aktuellsten Daten benötigt werden. Sie werden erfahren, dass Parallelisierung und E/A-Puffer helfen, Engpässe zu vermeiden. Außerdem lernen Sie, wie Sie die Leistung von Datenpipelines in Form von Latenz und Durchsatz beschreiben können.
Batch versus Streaming Data Pipeline Anwendungsfälle•5 Minuten
Tools und Technologien für die Datenleitung•7 Minuten
4 Lektüren•Insgesamt 15 Minuten
Linux-Befehle und Shell-Scripting•2 Minuten
ETL-Techniken•10 Minuten
Zusammenfassung & Highlights•1 Minute
Zusammenfassung & Highlights•2 Minuten
4 Aufgaben•Insgesamt 80 Minuten
Benotetes Quiz: ETL mit Shell-Skripten•30 Minuten
Benotetes Quiz: Eine Einführung in Daten-Pipelines•30 Minuten
Praxis-Quiz: ETL mit Shell-Skripten•10 Minuten
Praxis-Quiz: Eine Einführung in Daten-Pipelines•10 Minuten
1 App-Element•Insgesamt 30 Minuten
Praktische Übung: ETL mit Shell-Skripten•30 Minuten
1 Plug-in•Insgesamt 10 Minuten
Interaktivität: Unterscheiden Sie zwischen Batch-Verarbeitung und Stream-Verarbeitung•10 Minuten
Aufbau von Datenpipelines mit Airflow
Modul 3•3 Stunden abzuschließen
Moduldetails
Der Hauptvorteil des Ansatzes von Apache Airflow, Datenpipelines als DAGs darzustellen, besteht darin, dass sie als Code ausgedrückt werden, was Ihre Datenpipelines besser wartbar, testbar und kollaborativ macht. Aufgaben, die Knoten in einer DAG, werden durch die Implementierung der in Airflow integrierten Operatoren erstellt. In diesem Modul lernen Sie die reichhaltige Benutzeroberfläche von Apache Airflow kennen, die die Arbeit mit Datenpipelines vereinfacht. Sie werden erkunden, wie Sie Ihre DAG im Graphen- oder Baummodus visualisieren können. Sie werden auch die Schlüsselkomponenten einer DAG-Definitionsdatei kennenlernen und erfahren, dass Airflow-Protokolle in lokalen Dateisystemen gespeichert und dann an Cloud-Speicher, Suchmaschinen und Protokollanalysatoren gesendet werden.
Vorteile der Darstellung von Datenpipelines als DAGs in Apache Airflow•7 Minuten
Apache Airflow UI•4 Minuten
Eine DAG mit Airflow aufbauen•4 Minuten
Luftstromaufzeichnung und -überwachung•4 Minuten
1 Lektüre•Insgesamt 3 Minuten
Zusammenfassung & Highlights•3 Minuten
2 Aufgaben•Insgesamt 40 Minuten
Benotetes Quiz: Aufbau von Datenpipelines mit Airflow•30 Minuten
Praxis-Quiz: Aufbau von Datenpipelines mit Airflow•10 Minuten
4 App-Elemente•Insgesamt 120 Minuten
Praktisches Labor: Erste Schritte mit Apache Airflow•20 Minuten
Praktisches Labor: Erstellen eines DAG für Apache Airflow mit PythonOperator•40 Minuten
Praktisches Labor: Eine DAG für Apache Airflow mit BashOperator erstellen•40 Minuten
Praktisches Labor: Überwachung einer DAG•20 Minuten
1 Plug-in•Insgesamt 15 Minuten
Lesen: DAG-Struktur und Operatoren•15 Minuten
Aufbau von Streaming-Pipelines mit Kafka
Modul 4•3 Stunden abzuschließen
Moduldetails
Apache Kafka ist eine sehr beliebte Open-Source-Ereignis-Streaming-Pipeline. Ein Ereignis ist ein Datentyp, der die beobachtbaren Zustandsänderungen einer Entität im Laufe der Zeit beschreibt. Zu den beliebten Kafka-Dienstleistern gehören Confluent Cloud, IBM Event Stream und Amazon MSK. Außerdem ist die Kafka Streams API eine Client-Bibliothek, die Sie bei der Datenverarbeitung in Event-Streaming-Pipelines unterstützt.
In diesem Modul werden Sie lernen, dass die Kernkomponenten von Kafka Broker, Topics, Partitionen, Replikationen, Producer und Consumer sind. Sie werden zwei spezielle Typen von Prozessoren in der Kafka Stream API Stream-Processing-Topologie kennenlernen: Den Quellprozessor und den Senkenprozessor. AuĂźerdem lernen Sie, wie Sie mit Kafka Ereignis-Streaming-Pipelines aufbauen.
In diesem letzten Modul werden Sie Ihr neu erworbenes Wissen anwenden, um sehr spannende praktische Ăśbungen zu erforschen. "Extrahieren, Transformieren, Laden (ETL) von Datenpipelines mit Apache Airflow". Sie werden den Aufbau dieser ETL-Pipelines anhand realer Szenarien erkunden.
Wir bei IBM wissen, wie schnell sich die Technologie entwickelt, und sind uns bewusst, wie wichtig es für Unternehmen und Fachkräfte ist, schnell einsatzbereite, praxisnahe Fähigkeiten zu erwerben. Als marktführender Tech-Innovator setzen wir uns dafür ein, dass Sie in diesem dynamischen Umfeld erfolgreich sind. Über das IBM Skills Network bieten unsere von Experten entwickelten Schulungsprogramme in den Bereichen künstliche Intelligenz, Softwareentwicklung, Cybersicherheit, Datenwissenschaft, Unternehmensführung und mehr die grundlegenden Fähigkeiten, die Sie benötigen, um sich Ihren ersten Job zu sichern, Ihre Karriere voranzutreiben oder Ihren geschäftlichen Erfolg zu steigern. Ganz gleich, ob Sie sich selbst oder Ihr Team weiterbilden möchten, unsere Kurse, Spezialisierungen und professionellen Zertifikate vermitteln Ihnen das technische Fachwissen, das Sie und Ihr Unternehmen in einer wettbewerbsorientierten Welt auszeichnet.
Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?
Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Was bekomme ich, wenn ich dieses Zertifikat abonniere?
Wenn Sie sich für den Kurs anmelden, erhalten Sie Zugang zu allen Kursen des Zertifikats, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird zu Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen.
Finanzielle UnterstĂĽtzung verfĂĽgbar, weitere Informationen
Âą Einige Aufgaben in diesem Kurs werden mit AI bewertet. FĂĽr diese Aufgaben werden Ihre Daten in Ăśbereinstimmung mit Datenschutzhinweis von Courseraverwendet.