Découvrez les deux approches différentes pour convertir des données brutes en données prêtes à être analysées. La première est le processus d'extraction, de transformation et de chargement (ETL). L'autre est le processus d'extraction, de chargement et de transformation (ELT). Les processus ETL s'appliquent aux entrepôts de données et aux marteaux de données. Les processus ELT s'appliquent aux lacs de données, où les données sont transformées à la demande par l'application requérante/appelante.
ETL et pipelines de données avec Shell, Airflow et Kafka
Ce cours fait partie de plusieurs programmes.
Instructeurs : Jeff Grossman
50 863 déjà inscrits
Inclus avec
(369 avis)
Expérience recommandée
Ce que vous apprendrez
Décrire et comparer les processus d'extraction, de transformation et de chargement (ETL) et les processus d'extraction, de chargement et de transformation (ELT).
Expliquez les modes d'exécution batch et concurrent.
Mettre en œuvre le flux de travail ETL à l'aide de fonctions Bash et Python.
Décrire les composants, les processus, les outils et les technologies des pipelines de données.
Compétences que vous acquerrez
- Catégorie : Extraction, transformation et chargement (ETL)
- Catégorie : Ingénieur de données
- Catégorie : Apache Kafka
- Catégorie : Flux d'air Apache
- Catégorie : Pipelines de données
Détails à connaître
Ajouter à votre profil LinkedIn
11 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 5 modules dans ce cours
Les processus ETL ou Extraction, transformation et chargement sont utilisés dans les cas où la flexibilité, la vitesse et l'évolutivité des données sont importantes. Vous explorerez certaines différences clés entre des processus similaires, ETL et ELT, qui incluent la place de la transformation, la flexibilité, la prise en charge du Big data et le time-to-insight. Vous apprendrez qu'il y a une demande croissante d'accès aux données brutes qui motive l'évolution de l'ETL vers l'ELT. L'extraction de données implique des technologies avancées, notamment l'interrogation de bases de données, le web scraping et les API. Vous apprendrez également que la transformation des données consiste à formater les données pour les adapter à l'application et que les données sont chargées par lots ou en flux continu.
Inclus
7 vidéos2 lectures2 devoirs1 plugin
Les pipelines d'extraction, de transformation et de chargement (ETL) sont créés à l'aide de scripts Bash qui peuvent être exécutés selon un calendrier à l'aide de cron. Les pipelines de données déplacent les données d'un endroit, ou d'une forme, à un autre. Les processus de pipeline de données comprennent la planification ou le déclenchement, la surveillance, la maintenance et l'optimisation. En outre, les pipelines de traitement par lots extraient et exploitent des lots de données. Les pipelines de données en continu, quant à eux, ingèrent des paquets de données un par un en succession rapide. Dans ce module, vous apprendrez que les pipelines de streaming s'appliquent lorsque les données les plus récentes sont nécessaires. Vous découvrirez que la parallélisation et les tampons d'E/S permettent d'atténuer les goulets d'étranglement. Vous apprendrez également à décrire les performances des pipelines de données en termes de latence et de débit.
Inclus
5 vidéos4 lectures4 devoirs1 élément d'application1 plugin
Le principal avantage de l'approche d'Apache Airflow pour représenter les pipelines de données sous forme de DAG est qu'ils sont exprimés sous forme de code, ce qui rend vos pipelines de données plus faciles à maintenir, à tester et à collaborer. Les tâches, les nœuds d'un DAG, sont créées en implémentant les opérateurs intégrés d'Airflow. Dans ce module, vous apprendrez qu'Apache Airflow possède une interface utilisateur riche qui simplifie le travail avec les pipelines de données. Vous explorerez comment visualiser votre DAG en mode graphe ou en mode arbre. Vous découvrirez également les composants clés d'un fichier de définition de DAG, et vous apprendrez que les logs Airflow sont sauvegardés dans des systèmes de fichiers locaux et ensuite envoyés vers un stockage en nuage, des moteurs de recherche, et des analyseurs de logs.
Inclus
5 vidéos1 lecture2 devoirs4 éléments d'application1 plugin
Apache Kafka est un pipeline de streaming d'événements open source très populaire. Un événement est un type de données qui décrit les mises à jour de l'état observable de l'entité au fil du temps. Les fournisseurs de services Kafka les plus populaires sont Confluent Cloud, IBM Event Stream et Amazon MSK. En outre, l'API Kafka Streams est une bibliothèque client qui vous aide à traiter les données dans les pipelines de streaming d'événements. Dans ce module, vous apprendrez que les principaux composants de Kafka sont les courtiers, les sujets, les partitions, les réplications, les producteurs et les consommateurs. Vous explorerez deux types particuliers de processeurs dans la topologie de traitement des flux de l'API Kafka Stream : Le processeur de source et le processeur de puits. Vous apprendrez également à construire des pipelines de streaming d'événements à l'aide de Kafka.
Inclus
4 vidéos1 lecture2 devoirs3 éléments d'application1 plugin
Dans ce dernier module de travail, vous appliquerez vos nouvelles connaissances pour explorer deux laboratoires pratiques très intéressants. "Création de pipelines de données ETL à l'aide d'Apache Airflow" et "Création de pipelines de données en continu à l'aide de Kafka". Vous explorerez la construction de ces pipelines ETL en utilisant des scénarios du monde réel. Vous extrairez, transformerez et chargerez des données dans un fichier CSV. Vous créerez également un sujet nommé "toll" dans Apache Kafka, vous téléchargerez et personnaliserez un consommateur de données en continu, et vous vérifierez que les données en continu ont été collectées dans la table de la base de données.
Inclus
4 lectures1 devoir1 évaluation par les pairs3 éléments d'application
Instructeurs
Offert par
Recommandé si vous êtes intéressé(e) par Gestion des données
Google Cloud
Google Cloud
University of California, Irvine
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Avis des étudiants
369 avis
- 5 stars
70,16 %
- 4 stars
17,20 %
- 3 stars
6,98 %
- 2 stars
2,95 %
- 1 star
2,68 %
Affichage de 3 sur 369
Révisé le 28 sept. 2021
It's one of the most challenging courses I've been enrolled!
Révisé le 6 sept. 2022
Very useful high-level overview with practical examples of the major technologies that drive modern data pipelines.
Révisé le 22 juil. 2023
Labs in this course are very helpful and to the point. It took me a while to complete this course but i learned a lot.
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :
Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations. De là, vous pourrez l'imprimer ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.
Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.