IBM

ETL et pipelines de données avec Shell, Airflow et Kafka

IBM

ETL et pipelines de données avec Shell, Airflow et Kafka

Jeff Grossman
Yan Luo
Lavanya Thiruvali Sunderarajan

Instructeurs : Jeff Grossman

69 800 déjà inscrits

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

459 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible
2 semaines à 10 heures une semaine
Apprenez à votre propre rythme
87%
La plupart des étudiants ont apprécié ce cours
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

459 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible
2 semaines à 10 heures une semaine
Apprenez à votre propre rythme
87%
La plupart des étudiants ont apprécié ce cours

Ce que vous apprendrez

  • Décrire et comparer les processus d'extraction, de transformation et de chargement (ETL) et les processus d'extraction, de chargement et de transformation (ELT).

  • Expliquez les modes d'exécution batch et concurrent.

  • Mettre en œuvre le flux de travail ETL à l'aide de fonctions Bash et Python.

  • Décrire les composants, les processus, les outils et les technologies des pipelines de données.

Compétences que vous acquerrez

  • Catégorie : Intégration des données
  • Catégorie : Optimisation des performances
  • Catégorie : Traitement des données
  • Catégorie : Entreposage de données
  • Catégorie : Data Mart
  • Catégorie : Transformation des données
  • Catégorie : Pipelines de données
  • Catégorie : Extraire, transformer, charger
  • Catégorie : Nettoyage des données

Outils que vous découvrirez

  • Catégorie : Flux d'air Apache
  • Catégorie : Script Shell
  • Catégorie : Bash (langage de script)
  • Catégorie : Apache Kafka
  • Catégorie : Lacs de données
  • Catégorie : Interface de ligne de commande

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de
Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable

Il y a 5 modules dans ce cours

Les processus ETL ou Extraction, transformation et chargement sont utilisés dans les cas où la flexibilité, la vitesse et l'évolutivité des données sont importantes. Vous explorerez certaines différences clés entre des processus similaires, ETL et ELT, qui incluent la place de la transformation, la flexibilité, la prise en charge du Big data et le time-to-insight. Vous apprendrez qu'il y a une demande croissante d'accès aux données brutes qui motive l'évolution de l'ETL vers l'ELT. L'extraction de données implique des technologies avancées, notamment l'interrogation de bases de données, le web scraping et les API. Vous apprendrez également que la transformation des données consiste à formater les données pour les adapter à l'application et que les données sont chargées par lots ou en flux continu.

Inclus

7 vidéos3 lectures2 devoirs1 plugin

Les pipelines d'extraction, de transformation et de chargement (ETL) sont créés à l'aide de scripts Bash qui peuvent être exécutés selon un calendrier à l'aide de cron. Les pipelines de données déplacent les données d'un endroit, ou d'une forme, à un autre. Les processus de pipeline de données comprennent la planification ou le déclenchement, la surveillance, la maintenance et l'optimisation. En outre, les pipelines de lots extraient et exploitent des lots de données. Les pipelines de données en continu, quant à eux, ingèrent des paquets de données un par un en succession rapide. Dans ce module, vous apprendrez que les pipelines de streaming s'appliquent lorsque les données les plus récentes sont nécessaires. Vous découvrirez que la parallélisation et les tampons d'E/S permettent d'atténuer les goulets d'étranglement. Vous apprendrez également à décrire les performances des pipelines de données en termes de latence et de débit.

Inclus

5 vidéos4 lectures4 devoirs1 élément d'application1 plugin

Le principal avantage de l'approche d'Apache Airflow pour représenter les pipelines de données sous forme de DAG est qu'ils sont exprimés sous forme de code, ce qui rend vos pipelines de données plus faciles à maintenir, à tester et à collaborer. Les tâches, les nœuds d'un DAG, sont créées en implémentant les opérateurs intégrés d'Airflow. Dans ce module, vous apprendrez qu'Apache Airflow possède une interface utilisateur riche qui simplifie le travail avec les pipelines de données. Vous explorerez comment visualiser votre DAG en mode graphe ou en mode arbre. Vous découvrirez également les composants clés d'un fichier de définition de DAG, et vous apprendrez que les logs Airflow sont sauvegardés dans des systèmes de fichiers locaux et ensuite envoyés vers un stockage en nuage, des moteurs de recherche, et des analyseurs de logs.

Inclus

5 vidéos1 lecture2 devoirs4 éléments d'application1 plugin

Apache Kafka est un pipeline de streaming d'événements open source très populaire. Un événement est un type de données qui décrit les mises à jour de l'état observable de l'entité au fil du temps. Les fournisseurs de services Kafka les plus populaires sont Confluent Cloud, IBM Event Stream et Amazon MSK. En outre, l'API Kafka Streams est une bibliothèque client qui vous aide à traiter les données dans les pipelines de streaming d'événements. Dans ce module, vous apprendrez que les composants de base de CORE sont les courtiers, les sujets, les partitions, les réplications, les producteurs et les consommateurs. Vous explorerez deux types de processeurs spécialisés dans la topologie de traitement des flux de l'API Kafka Stream : Le processeur de source et le processeur de puits. Vous apprendrez également à construire des pipelines de streaming d'événements à l'aide de Kafka.

Inclus

4 vidéos1 lecture2 devoirs3 éléments d'application1 plugin

Dans ce module d'affectation finale, vous appliquerez vos connaissances nouvellement acquises pour explorer des laboratoires pratiques très passionnants. "Créer des pipelines de données ETL en cours d'utilisation avec Apache Airflow". Vous explorerez la construction de ces pipelines ETL en utilisant des scénarios du monde réel.

Inclus

5 lectures1 devoir1 évaluation par les pairs4 éléments d'application1 plugin

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant
(111 évaluations)
Jeff Grossman
IBM
3 Cours749 403 apprenants
Yan Luo
IBM
7 Cours407 794 apprenants

Offert par

IBM

En savoir plus sur Gestion des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

  • 5 stars

    71,45 %

  • 4 stars

    17,42 %

  • 3 stars

    6,31 %

  • 2 stars

    2,39 %

  • 1 star

    2,39 %

Affichage de 3 sur 459

JJ

Révisé le 22 juil. 2023

SK

Révisé le 20 janv. 2025

RR

Révisé le 27 août 2024

Foire Aux Questions

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.