ETL et pipelines de données avec Shell, Airflow et Kafka

ETL et pipelines de données avec Shell, Airflow et Kafka

Name: ETL et pipelines de données avec Shell, Airflow et Kafka
Rating: 4.489637305699482 (386 reviews)

Ce cours fait partie de plusieurs programmes.

Instructeurs : Jeff Grossman

53 758 déjà inscrits

Inclus avec Coursera Plus

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.5

(386 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 17 heures

Apprenez à votre propre rythme

87%

La plupart des étudiants ont apprécié ce cours

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.5

(386 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 17 heures

Apprenez à votre propre rythme

87%

La plupart des étudiants ont apprécié ce cours

Ce que vous apprendrez

Décrire et comparer les processus d'extraction, de transformation et de chargement (ETL) et les processus d'extraction, de chargement et de transformation (ELT).
Expliquez les modes d'exécution batch et concurrent.
Mettre en œuvre le flux de travail ETL à l'aide de fonctions Bash et Python.
Décrire les composants, les processus, les outils et les technologies des pipelines de données.

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

11 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de

Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 5 modules dans ce cours

Découvrez les deux approches différentes pour convertir des données brutes en données prêtes à être analysées. La première est le processus d'extraction, de transformation et de chargement (ETL). L'autre est le processus d'extraction, de chargement et de transformation (ELT). Les processus ETL s'appliquent aux entrepôts de données et aux marteaux de données. Les processus ELT s'appliquent aux lacs de données, où les données sont transformées à la demande par l'application requérante/appelante.

Dans ce cours, vous découvrirez les différents outils et techniques utilisés pour l'ETL et les pipelines de données. L'ETL et l'ELT extraient les données des systèmes sources, les déplacent à travers le pipeline de données et les stockent dans les systèmes de destination. Au cours de ce cours, vous découvrirez les différences entre le traitement ELT et ETL et vous identifierez des cas d'utilisation pour les deux. Vous identifierez les méthodes et les outils utilisés pour extraire les données, fusionner les données extraites soit logiquement soit physiquement, et pour charger les données dans les référentiels de données. Vous définirez également les transformations à appliquer aux données sources pour les rendre crédibles, contextuelles et accessibles aux utilisateurs. Vous serez en mesure de présenter quelques-unes des multiples méthodes de chargement des données dans le système de destination, de vérifier la qualité des données, de surveiller les échecs de chargement et d'utiliser des mécanismes de récupération en cas d'échec. À la fin de ce cours, vous saurez également comment utiliser Apache Airflow pour construire des pipelines de données et connaîtrez les avantages de cette approche. Vous apprendrez également à utiliser Apache Kafka pour construire des pipelines de streaming ainsi que les composants de base de Kafka qui incluent : les brokers, les topics, les partitions, les réplications, les producteurs et les consommateurs. Enfin, vous réaliserez un projet final partageable qui vous permettra de démontrer les compétences acquises dans chaque module.

Les processus ETL ou Extraction, transformation et chargement sont utilisés dans les cas où la flexibilité, la vitesse et l'évolutivité des données sont importantes. Vous explorerez certaines différences clés entre des processus similaires, ETL et ELT, qui incluent la place de la transformation, la flexibilité, la prise en charge du Big data et le time-to-insight. Vous apprendrez qu'il y a une demande croissante d'accès aux données brutes qui motive l'évolution de l'ETL vers l'ELT. L'extraction de données implique des technologies avancées, notamment l'interrogation de bases de données, le web scraping et les API. Vous apprendrez également que la transformation des données consiste à formater les données pour les adapter à l'application et que les données sont chargées par lots ou en flux continu.

Inclus

7 vidéos2 lectures2 devoirs1 plugin

7 vidéosTotal 32 minutes

Vidéo d'introduction au cours5 minutesPrévisualiser le module
Principes de base de l'ETL5 minutes
Les bases de l'ELT4 minutes
Comparaison entre ETL et ELT4 minutes
Techniques d'extraction de données4 minutes
Introduction aux techniques de transformation des données4 minutes
Techniques de chargement des données3 minutes

2 lecturesTotal 7 minutes

Introduction au cours4 minutes
Résumé et points forts3 minutes

2 devoirsTotal 40 minutes

Processus ETL et ELT10 minutes
Quiz noté : Processus ETL et ELT30 minutes

1 pluginTotal 5 minutes

Interactivité : Faites la différence entre ETL et ELT5 minutes

Les pipelines d'extraction, de transformation et de chargement (ETL) sont créés à l'aide de scripts Bash qui peuvent être exécutés selon un calendrier à l'aide de cron. Les pipelines de données déplacent les données d'un endroit, ou d'une forme, à un autre. Les processus de pipeline de données comprennent la planification ou le déclenchement, la surveillance, la maintenance et l'optimisation. En outre, les pipelines de traitement par lots extraient et exploitent des lots de données. Les pipelines de données en continu, quant à eux, ingèrent des paquets de données un par un en succession rapide. Dans ce module, vous apprendrez que les pipelines de streaming s'appliquent lorsque les données les plus récentes sont nécessaires. Vous découvrirez que la parallélisation et les tampons d'E/S permettent d'atténuer les goulets d'étranglement. Vous apprendrez également à décrire les performances des pipelines de données en termes de latence et de débit.

Inclus

5 vidéos4 lectures4 devoirs1 élément d'application1 plugin

5 vidéosTotal 25 minutes

ETL à l'aide de Shell Scripting4 minutesPrévisualiser le module
Introduction aux pipelines de données4 minutes
Processus clés du pipeline de données4 minutes
Cas d'utilisation des données en cours d'utilisation (Batch ou Streaming)4 minutes
Outils et technologies pour les pipelines de données6 minutes

4 lecturesTotal 15 minutes

Commandes Linux et scripts Shell2 minutes
Techniques ETL10 minutes
Résumé et points forts1 minute
Résumé et points forts2 minutes

4 devoirsTotal 80 minutes

Quiz pratique : ETL à l'aide de scripts Shell10 minutes
Quiz pratique : Introduction aux pipelines de données10 minutes
Quiz noté : ETL à l'aide de scripts Shell30 minutes
Quiz noté : Introduction aux pipelines de données30 minutes

1 élément d'applicationTotal 30 minutes

Laboratoire pratique : ETL à l'aide de scripts Shell30 minutes

1 pluginTotal 10 minutes

Interactivité : Faites la différence entre le traitement par lots et le traitement en flux10 minutes

Le principal avantage de l'approche d'Apache Airflow pour représenter les pipelines de données sous forme de DAG est qu'ils sont exprimés sous forme de code, ce qui rend vos pipelines de données plus faciles à maintenir, à tester et à collaborer. Les tâches, les nœuds d'un DAG, sont créées en implémentant les opérateurs intégrés d'Airflow. Dans ce module, vous apprendrez qu'Apache Airflow possède une interface utilisateur riche qui simplifie le travail avec les pipelines de données. Vous explorerez comment visualiser votre DAG en mode graphe ou en mode arbre. Vous découvrirez également les composants clés d'un fichier de définition de DAG, et vous apprendrez que les logs Airflow sont sauvegardés dans des systèmes de fichiers locaux et ensuite envoyés vers un stockage en nuage, des moteurs de recherche, et des analyseurs de logs.

Inclus

5 vidéos1 lecture2 devoirs4 éléments d'application1 plugin

5 vidéosTotal 25 minutes

Présentation d'Apache Airflow6 minutesPrévisualiser le module
Avantages de la représentation des pipelines de données sous forme de DAG dans Apache Airflow6 minutes
L'interface utilisateur d'Apache Airflow3 minutes
Construire un DAG en utilisant le flux d'air4 minutes
Enregistrement et surveillance du débit d'air4 minutes

1 lectureTotal 3 minutes

Résumé et points forts3 minutes

2 devoirsTotal 40 minutes

Quiz pratique : Données en cours d'utilisation d'Airflow10 minutes
Quiz noté : Données en cours d'utilisation d'Airflow30 minutes

4 éléments d'applicationTotal 120 minutes

Labo pratique : Premiers pas avec Apache Airflow20 minutes
Labo pratique : Créer un DAG pour Apache Airflow avec PythonOperator40 minutes
Labo pratique : Créer un DAG pour Apache Airflow avec BashOperator40 minutes
Labo pratique : Surveillance d'un DAG20 minutes

1 pluginTotal 15 minutes

Lecture : Structure et opérateurs DAG15 minutes

Apache Kafka est un pipeline de streaming d'événements open source très populaire. Un événement est un type de données qui décrit les mises à jour de l'état observable de l'entité au fil du temps. Les fournisseurs de services Kafka les plus populaires sont Confluent Cloud, IBM Event Stream et Amazon MSK. En outre, l'API Kafka Streams est une bibliothèque client qui vous aide à traiter les données dans les pipelines de streaming d'événements. Dans ce module, vous apprendrez que les principaux composants de Kafka sont les courtiers, les sujets, les partitions, les réplications, les producteurs et les consommateurs. Vous explorerez deux types particuliers de processeurs dans la topologie de traitement des flux de l'API Kafka Stream : Le processeur de source et le processeur de puits. Vous apprendrez également à construire des pipelines de streaming d'événements à l'aide de Kafka.

Inclus

4 vidéos1 lecture2 devoirs3 éléments d'application1 plugin

4 vidéosTotal 26 minutes

Composants de la plate-forme de diffusion en continu d'événements distribués5 minutesPrévisualiser le module
Présentation d'Apache Kafka6 minutes
Construire des pipelines de streaming d'événements avec Kafka9 minutes
Processus de streaming Kafka5 minutes

1 lecture

Résumé et points forts0 minutes

2 devoirsTotal 40 minutes

Quiz pratique : Construire des pipelines de streaming avec Kafka10 minutes
Quiz noté : Construire des pipelines de streaming avec Kafka30 minutes

3 éléments d'applicationTotal 90 minutes

Labo pratique : Travailler avec des données en continu en utilisant Kafka20 minutes
[Optionnel] Labo pratique : Clés et décalages de messages Kafka40 minutes
[Optionnel] Labo pratique : Client Kafka Python30 minutes

1 pluginTotal 30 minutes

Client Kafka Python30 minutes

Dans ce dernier module de travail, vous appliquerez vos nouvelles connaissances pour explorer deux laboratoires pratiques très intéressants. "Création de pipelines de données ETL à l'aide d'Apache Airflow" et "Création de pipelines de données en continu à l'aide de Kafka". Vous explorerez la construction de ces pipelines ETL en utilisant des scénarios du monde réel. Vous extrairez, transformerez et chargerez des données dans un fichier CSV. Vous créerez également un sujet nommé "toll" dans Apache Kafka, vous téléchargerez et personnaliserez un consommateur de données en continu, et vous vérifierez que les données en continu ont été collectées dans la table de la base de données.

Inclus

4 lectures1 devoir1 évaluation par les pairs3 éléments d'application

4 lecturesTotal 24 minutes

Aperçu du projet10 minutes
Instructions pour l'examen final noté et chronométré10 minutes
Félicitations et prochaines étapes2 minutes
Remerciements de l'équipe du cours2 minutes

1 devoirTotal 90 minutes

Quiz final chronométré90 minutes

1 évaluation par les pairsTotal 60 minutes

Examen par les pairs : Soumission des projets et examen par les pairs60 minutes

3 éléments d'applicationTotal 225 minutes

Labo pratique : Construire des pipelines de données ETL en cours d'utilisation avec BashOperator en utilisant Apache Airflow90 minutes
[Optionnel] Labo pratique : Construire un pipeline ETL en utilisant PythonOperator avec Apache Airflow90 minutes
[Optionnel] Labo pratique : Construire un pipeline ETL en continu avec Kafka45 minutes

Instructeurs

Évaluations de l’enseignant

4.7 (102 évaluations)

Jeff Grossman

IBM

3 Cours569 078 apprenants

Yan Luo

IBM

7 Cours335 579 apprenants

Offert par

IBM

Recommandé si vous êtes intéressé(e) par Gestion des données

Coursera Instructor Network
Data Engineering: Pipelines, ETL, Hadoop
Cours
Coursera Instructor Network
Engineering Data Ecosystems: Pipelines, ETL, Spark
Cours
Google Cloud
Building Batch Data Pipelines on Google Cloud - 한국어
Cours
DeepLearning.AI
Source Systems, Data Ingestion, and Pipelines
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.5

386 avis

5 stars
69,97 %
4 stars
17,55 %
3 stars
7,12 %
2 stars
2,79 %
1 star
2,54 %

Affichage de 3 sur 386

Révisé le 23 mars 2023

it was good course should have also given an information on industry related solution and they can implement the same.

Révisé le 22 juil. 2023

Labs in this course are very helpful and to the point. It took me a while to complete this course but i learned a lot.

Révisé le 28 sept. 2021

It's one of the most challenging courses I've been enrolled!

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations. De là, vous pourrez l'imprimer ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.

Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.