IBM
ETL et pipelines de données avec Shell, Airflow et Kafka
IBM

ETL et pipelines de données avec Shell, Airflow et Kafka

Ce cours fait partie de plusieurs programmes.

Jeff Grossman
Yan Luo
Lavanya Thiruvali Sunderarajan

Instructeurs : Jeff Grossman

50 863 déjà inscrits

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.5

(369 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible
Env. 17 heures
Apprenez à votre propre rythme
87%
La plupart des étudiants ont apprécié ce cours
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.5

(369 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible
Env. 17 heures
Apprenez à votre propre rythme
87%
La plupart des étudiants ont apprécié ce cours

Ce que vous apprendrez

  • Décrire et comparer les processus d'extraction, de transformation et de chargement (ETL) et les processus d'extraction, de chargement et de transformation (ELT).

  • Expliquez les modes d'exécution batch et concurrent.

  • Mettre en œuvre le flux de travail ETL à l'aide de fonctions Bash et Python.

  • Décrire les composants, les processus, les outils et les technologies des pipelines de données.

Compétences que vous acquerrez

  • Catégorie : Extraction, transformation et chargement (ETL)
  • Catégorie : Ingénieur de données
  • Catégorie : Apache Kafka
  • Catégorie : Flux d'air Apache
  • Catégorie : Pipelines de données

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

11 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Emplacement réservé

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de
Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable
Emplacement réservé
Emplacement réservé

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Emplacement réservé

Il y a 5 modules dans ce cours

Les processus ETL ou Extraction, transformation et chargement sont utilisés dans les cas où la flexibilité, la vitesse et l'évolutivité des données sont importantes. Vous explorerez certaines différences clés entre des processus similaires, ETL et ELT, qui incluent la place de la transformation, la flexibilité, la prise en charge du Big data et le time-to-insight. Vous apprendrez qu'il y a une demande croissante d'accès aux données brutes qui motive l'évolution de l'ETL vers l'ELT. L'extraction de données implique des technologies avancées, notamment l'interrogation de bases de données, le web scraping et les API. Vous apprendrez également que la transformation des données consiste à formater les données pour les adapter à l'application et que les données sont chargées par lots ou en flux continu.

Inclus

7 vidéos2 lectures2 devoirs1 plugin

Les pipelines d'extraction, de transformation et de chargement (ETL) sont créés à l'aide de scripts Bash qui peuvent être exécutés selon un calendrier à l'aide de cron. Les pipelines de données déplacent les données d'un endroit, ou d'une forme, à un autre. Les processus de pipeline de données comprennent la planification ou le déclenchement, la surveillance, la maintenance et l'optimisation. En outre, les pipelines de traitement par lots extraient et exploitent des lots de données. Les pipelines de données en continu, quant à eux, ingèrent des paquets de données un par un en succession rapide. Dans ce module, vous apprendrez que les pipelines de streaming s'appliquent lorsque les données les plus récentes sont nécessaires. Vous découvrirez que la parallélisation et les tampons d'E/S permettent d'atténuer les goulets d'étranglement. Vous apprendrez également à décrire les performances des pipelines de données en termes de latence et de débit.

Inclus

5 vidéos4 lectures4 devoirs1 élément d'application1 plugin

Le principal avantage de l'approche d'Apache Airflow pour représenter les pipelines de données sous forme de DAG est qu'ils sont exprimés sous forme de code, ce qui rend vos pipelines de données plus faciles à maintenir, à tester et à collaborer. Les tâches, les nœuds d'un DAG, sont créées en implémentant les opérateurs intégrés d'Airflow. Dans ce module, vous apprendrez qu'Apache Airflow possède une interface utilisateur riche qui simplifie le travail avec les pipelines de données. Vous explorerez comment visualiser votre DAG en mode graphe ou en mode arbre. Vous découvrirez également les composants clés d'un fichier de définition de DAG, et vous apprendrez que les logs Airflow sont sauvegardés dans des systèmes de fichiers locaux et ensuite envoyés vers un stockage en nuage, des moteurs de recherche, et des analyseurs de logs.

Inclus

5 vidéos1 lecture2 devoirs4 éléments d'application1 plugin

Apache Kafka est un pipeline de streaming d'événements open source très populaire. Un événement est un type de données qui décrit les mises à jour de l'état observable de l'entité au fil du temps. Les fournisseurs de services Kafka les plus populaires sont Confluent Cloud, IBM Event Stream et Amazon MSK. En outre, l'API Kafka Streams est une bibliothèque client qui vous aide à traiter les données dans les pipelines de streaming d'événements. Dans ce module, vous apprendrez que les principaux composants de Kafka sont les courtiers, les sujets, les partitions, les réplications, les producteurs et les consommateurs. Vous explorerez deux types particuliers de processeurs dans la topologie de traitement des flux de l'API Kafka Stream : Le processeur de source et le processeur de puits. Vous apprendrez également à construire des pipelines de streaming d'événements à l'aide de Kafka.

Inclus

4 vidéos1 lecture2 devoirs3 éléments d'application1 plugin

Dans ce dernier module de travail, vous appliquerez vos nouvelles connaissances pour explorer deux laboratoires pratiques très intéressants. "Création de pipelines de données ETL à l'aide d'Apache Airflow" et "Création de pipelines de données en continu à l'aide de Kafka". Vous explorerez la construction de ces pipelines ETL en utilisant des scénarios du monde réel. Vous extrairez, transformerez et chargerez des données dans un fichier CSV. Vous créerez également un sujet nommé "toll" dans Apache Kafka, vous téléchargerez et personnaliserez un consommateur de données en continu, et vous vérifierez que les données en continu ont été collectées dans la table de la base de données.

Inclus

4 lectures1 devoir1 évaluation par les pairs3 éléments d'application

Instructeurs

Évaluations de l’enseignant
4.7 (101 évaluations)
Jeff Grossman
IBM
2 Cours64 048 apprenants
Yan Luo
IBM
7 Cours321 745 apprenants

Offert par

IBM

Recommandé si vous êtes intéressé(e) par Gestion des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.5

369 avis

  • 5 stars

    70,16 %

  • 4 stars

    17,20 %

  • 3 stars

    6,98 %

  • 2 stars

    2,95 %

  • 1 star

    2,68 %

Affichage de 3 sur 369

ED
5

Révisé le 28 sept. 2021

DL
5

Révisé le 6 sept. 2022

JJ
5

Révisé le 22 juil. 2023

Emplacement réservé

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions