Introduction au Big Data avec Spark et Hadoop

Introduction au Big Data avec Spark et Hadoop

Name: Introduction au Big Data avec Spark et Hadoop
Rating: 4.385390428211587 (397 reviews)

Ce cours fait partie de plusieurs programmes.

Instructeurs : Aije Egwaikhide

56 688 déjà inscrits

Inclus avec Coursera Plus

7 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.4

(397 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 19 heures

Apprenez à votre propre rythme

91%

La plupart des étudiants ont apprécié ce cours

7 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.4

(397 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 19 heures

Apprenez à votre propre rythme

91%

La plupart des étudiants ont apprécié ce cours

Ce que vous apprendrez

Expliquer l'impact du big data, y compris les cas d'utilisation, les outils et les méthodes de traitement.
Décrire l'architecture, l'écosystème, les pratiques et les applications liées à l'utilisateur d'Apache Hadoop, y compris Hive, HDFS, HBase, Spark et MapReduce.
Appliquer les bases de la programmation Spark, y compris les bases de la programmation parallèle pour les DataFrames, les ensembles de données et Spark SQL.
Utilisez les RDD et les ensembles de données de Spark, optimisez Spark SQL à l'aide de Catalyst et Tungsten, et utilisez les options de l'environnement de développement et d'exécution de Spark.

Compétences que vous acquerrez

Catégorie : Big Data
Catégorie : SparkSQL
Catégorie : SparkML
Catégorie : Apache Hadoop
Catégorie : Apache Spark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

14 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de

Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 7 modules dans ce cours

Ce cours IBM autodidacte vous apprendra tout sur les big data ! Vous vous familiariserez avec les caractéristiques des big data et leur application dans l'analyse des big data. Vous acquerrez également une expérience pratique avec des outils de traitement des big data comme Apache Hadoop et Apache Spark.

Bernard Marr définit le big data comme la trace numérique que nous générons dans cette ère numérique. Vous commencerez le cours en comprenant ce qu'est le big data et en explorant comment les informations issues du big data peuvent être exploitées pour une variété de cas d'utilisation. Vous découvrirez également comment le big data utilise des technologies telles que le traitement parallèle, la mise à l'échelle et le parallélisme des données. Ensuite, vous découvrirez Hadoop, un cadre open-source qui permet le traitement distribué de données volumineuses, ainsi que son écosystème. Vous découvrirez des applications importantes qui vont de pair avec Hadoop, comme le système de fichiers distribués (HDFS), MapReduce et HBase. Vous vous familiariserez avec Hive, un logiciel d'entrepôt de données qui fournit une interface de type SQL pour interroger et manipuler efficacement de grands ensembles de données. Vous découvrirez ensuite Apache Spark, un moteur de traitement open-source qui offre aux utilisateurs de nouvelles façons de stocker et d'utiliser les données volumineuses. Dans ce cours, vous découvrirez comment tirer parti de Spark pour obtenir des informations fiables. Le cours fournit une vue d'ensemble de la plateforme, en passant en revue les composants qui constituent Apache Spark. Vous découvrirez les DataFrames et effectuerez des opérations de base sur les DataFrames et travaillerez avec SparkSQL. Vous découvrirez comment Spark traite et surveille les requêtes que votre application soumet et comment vous pouvez suivre le travail en utilisant l'interface utilisateur de l'application Spark. Ce cours comporte plusieurs travaux pratiques pour vous aider à appliquer et à mettre en pratique les concepts que vous apprenez. Vous effectuerez des travaux pratiques sur Hadoop et Spark en utilisant divers outils et technologies, y compris Docker, Kubernetes, Python et Jupyter Notebooks.

Dans ce module, vous commencerez à acquérir des connaissances sur les Big Data en vous appuyant sur la définition la plus récente des Big Data. Vous explorerez l'impact des Big Data sur les tâches personnelles quotidiennes et les transactions commerciales à l'aide de cas d'utilisation des Big Data. Vous apprendrez également comment le Big Data utilise le traitement parallèle, la mise à l'échelle et le parallélisme des données. En outre, vous explorerez les outils de Big Data couramment utilisés et expliquerez le rôle de l'open-source dans le Big Data. Enfin, vous irez au-delà du battage médiatique et explorerez d'autres points de vue sur les Big Data.

Inclus

8 vidéos1 lecture2 devoirs2 plugins

8 vidéosTotal 47 minutes

Introduction au cours5 minutesPrévisualiser le module
Qu'est-ce que le Big Data ?7 minutes
L'impact du Big Data5 minutes
Traitement parallèle, mise à l'échelle et parallélisme des données7 minutes
Outils et écosystème Big Data4 minutes
Open Source et Big Data6 minutes
Au-delà du battage médiatique4 minutes
Cas d'utilisation des Big Data5 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction au Big Data2 minutes

2 devoirsTotal 41 minutes

Quiz noté : Qu'est-ce que le Big Data ?27 minutes
Quiz pratique : Introduction au Big Data14 minutes

2 pluginsTotal 27 minutes

Introduction aux technologies émergentes du Big data15 minutes
Module 1 Glossaire : Qu'est-ce que le Big Data ?12 minutes

Dans ce module, vous acquerrez une compréhension fondamentale de l'architecture, de l'écosystème et des pratiques d'Apache Hadoop, ainsi que des applications couramment utilisées, notamment le système de fichiers distribués (HDFS), MapReduce, Hive et HBase. Vous acquerrez également des compétences pratiques lors de travaux pratiques au cours desquels vous interrogerez les données ajoutées à l'aide de Hive, lancerez un cluster Hadoop à un seul nœud à l'aide de Docker et exécuterez des tâches MapReduce.

Inclus

6 vidéos1 lecture2 devoirs3 éléments d'application2 plugins

6 vidéosTotal 37 minutes

Introduction à Hadoop7 minutesPrévisualiser le module
Introduction à MapReduce5 minutes
L'écosystème Hadoop4 minutes
HDFS8 minutes
HIVE5 minutes
HBASE5 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction à Hadoop2 minutes

2 devoirsTotal 36 minutes

Quiz noté : Introduction à l'écosystème Hadoop24 minutes
Quiz pratique : Introduction à Hadoop12 minutes

3 éléments d'applicationTotal 60 minutes

Laboratoire pratique : Premiers pas avec Hive20 minutes
Laboratoire pratique : Hadoop MapReduce20 minutes
Travaux pratiques : Cluster Hadoop (optionnel)20 minutes

2 pluginsTotal 30 minutes

Aide-mémoire : Introduction à l'écosystème Hadoop15 minutes
Module 2 Glossaire : Introduction à l'écosystème Hadoop15 minutes

Dans ce module, vous porterez votre attention sur la populaire plateforme Apache Spark, où vous explorerez les attributs et les avantages d'Apache Spark et de l'informatique distribuée. Vous obtiendrez des informations clés sur la programmation fonctionnelle et les fonctions Lambda. Vous explorerez également les RDD (Resilient Distributed Datasets), la programmation parallèle, la résilience dans Apache Spark, et ferez le lien entre les RDD et la programmation parallèle avec Apache Spark. Ensuite, vous plongerez dans les composants supplémentaires d'Apache Spark et apprendrez comment Apache Spark évolue avec les Big Data. Travailler avec les Big Data nécessite de travailler avec des requêtes, y compris des requêtes structurées utilisant SQL. Vous apprendrez également les fonctions, les parties et les avantages de Spark SQL et des requêtes DataFrame, et découvrirez comment les DataFrames fonctionnent avec Spark SQL.

Inclus

5 vidéos1 lecture2 devoirs2 éléments d'application2 plugins

5 vidéosTotal 24 minutes

Pourquoi utiliser Apache Spark ?5 minutesPrévisualiser le module
Les bases de la programmation fonctionnelle5 minutes
Programmation parallèle à l'aide d'ensembles de données distribuées résilientes5 minutes
Scale out / Parallélisme de données dans Apache Spark3 minutes
Dataframes et SparkSQL4 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction à Apache Spark2 minutes

2 devoirsTotal 31 minutes

Quiz noté : Apache Spark21 minutes
Quiz pratique : Introduction à Apache Spark10 minutes

2 éléments d'applicationTotal 75 minutes

Labo pratique : Premiers pas avec Pyspark et Pandas60 minutes
Laboratoire pratique : Premiers pas avec Spark en utilisant Python15 minutes

2 pluginsTotal 30 minutes

Aide-mémoire : Apache Spark15 minutes
Module 3 Glossaire : Apache Spark15 minutes

Dans ce module, vous découvrirez les Resilient Distributed Datasets (RDD), leur utilisation dans Apache Spark, ainsi que les transformations et actions RDD. Vous comparerez l'utilisation des datasets avec la dernière abstraction de données de Spark, les DataFrames. Vous apprendrez à identifier et à appliquer les opérations de base des DataFrames. Vous explorerez l'optimisation SQL d'Apache Spark et apprendrez comment Spark SQL et l'optimisation de la mémoire bénéficient de l'utilisation de Catalyst et Tungsten. Enfin, vous renforcerez vos compétences avec des travaux pratiques guidés pour créer une vue de table et appliquer des techniques d'agrégation de données.

Inclus

5 vidéos1 lecture2 devoirs2 éléments d'application4 plugins

5 vidéosTotal 25 minutes

Les RDD dans la programmation parallèle et Spark5 minutesPrévisualiser le module
Cadres de données et ensembles de données4 minutes
Catalyseur et tungstène5 minutes
ETL avec DataFrames6 minutes
Utilisation de SparkSQL dans le monde réel4 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction aux DataFrames et à Spark SQL2 minutes

2 devoirsTotal 31 minutes

Quiz noté : DataFrames et Spark SQL21 minutes
Quiz pratique : Introduction aux DataFrames et à Spark SQL10 minutes

2 éléments d'applicationTotal 30 minutes

Laboratoire pratique : Introduction aux DataFrames15 minutes
Laboratoire pratique : Introduction à SparkSQL15 minutes

4 pluginsTotal 60 minutes

Lecture : Schéma défini par l'utilisateur (UDS) pour DSL et SQL10 minutes
Lecture : Transformations courantes et techniques d'optimisation dans Spark20 minutes
Aide-mémoire : DataFrames et Spark SQL15 minutes
Module 4 Glossaire : DataFrames et Spark SQL15 minutes

Dans ce module, vous découvrirez comment Spark traite les requêtes que votre application soumet et comment vous pouvez suivre le travail à l'aide de l'interface utilisateur de l'application Spark. Comme le travail de l'application Spark se fait sur le cluster, vous devez être capable d'identifier les Apache Cluster Managers, leurs composants et leurs avantages. Vous saurez également comment vous connecter à chaque gestionnaire de cluster et quand et comment vous voudrez peut-être configurer une instance Spark locale et autonome. Ensuite, vous apprendrez à soumettre une application Apache Spark, y compris l'utilisation de l'interface unifiée de Spark, "spark-submit", et vous vous familiariserez avec les options et les dépendances. Vous décrirez et appliquerez également les options de soumission des applications, identifierez les techniques de gestion des dépendances des applications externes et énumérerez les avantages de Spark Shell. Vous examinerez également les pratiques recommandées pour les options de configuration statique et dynamique de Spark et effectuerez des travaux pratiques pour utiliser Apache Spark sur IBM Cloud et exécuter Spark sur Kubernetes.

Inclus

6 vidéos2 lectures3 devoirs2 éléments d'application4 plugins

6 vidéosTotal 32 minutes

Architecture Apache Spark5 minutesPrévisualiser le module
Vue d'ensemble des modes de cluster d'Apache Spark6 minutes
Comment exécuter une application Apache Spark6 minutes
Utiliser Apache Spark sur IBM Cloud4 minutes
Configuration d'Apache Spark5 minutes
Exécuter Spark sur Kubernetes4 minutes

2 lecturesTotal 4 minutes

Résumé et points forts : Architecture de Spark2 minutes
Résumé et points forts : Environnements d'exécution Spark2 minutes

3 devoirsTotal 33 minutes

Quiz noté : Options de l'environnement de développement et d'exécution21 minutes
Quiz pratique : Architecture Spark6 minutes
Quiz pratique : Environnements d'exécution Spark6 minutes

2 éléments d'applicationTotal 80 minutes

Labo pratique : Soumettre des applications Apache Spark60 minutes
Laboratoire pratique : Apache Spark sur Kubernetes20 minutes

4 pluginsTotal 40 minutes

Environnements Spark - Vue d'ensemble et options5 minutes
Comment configurer vos propres environnements Spark (optionnel)5 minutes
Aide-mémoire : Options de l'environnement de développement et d'exécution15 minutes
Module 5 Glossaire : Options de l'environnement de développement et d'exécution15 minutes

Les plateformes et les applications nécessitent une surveillance et un réglage pour gérer les problèmes qui surviennent inévitablement. Dans ce module, vous apprendrez à connecter le serveur web de l'interface utilisateur Apache Spark et à utiliser ce même serveur web pour gérer les processus de l'application. Vous identifierez également les problèmes courants des applications Apache Spark et apprendrez à déboguer les problèmes en utilisant l'interface utilisateur de l'application et en localisant les fichiers journaux correspondants. En outre, vous découvrirez et acquerrez des connaissances concrètes sur la façon dont Spark gère la mémoire et les ressources du processeur grâce à un laboratoire pratique.

Inclus

5 vidéos1 lecture2 devoirs1 élément d'application3 plugins

5 vidéosTotal 30 minutes

L'interface utilisateur d'Apache Spark5 minutesPrévisualiser le module
Suivi de l'état d'avancement de la demande7 minutes
Déboguer les problèmes des applications Apache Spark5 minutes
Comprendre les ressources de la mémoire5 minutes
Comprendre les ressources du processeur5 minutes

1 lectureTotal 2 minutes

Résumé et points forts : Introduction à la surveillance et à l'optimisation2 minutes

2 devoirsTotal 31 minutes

Quiz noté : Surveillance et réglage21 minutes
Quiz pratique : Introduction à la surveillance et à l'optimisation10 minutes

1 élément d'applicationTotal 30 minutes

Laboratoire pratique : Surveillance et optimisation des performances30 minutes

3 pluginsTotal 35 minutes

[Méthodes d'ingestion de données par lots5 minutes
Aide-mémoire : Surveillance et optimisation15 minutes
Module 6 Glossaire : Surveillance et réglage15 minutes

Dans ce module, vous effectuerez un laboratoire pratique où vous explorerez deux aspects critiques du traitement des données à l'aide de Spark : travailler avec des RDD (Resilient Distributed Datasets) et construire des DataFrames à partir de données JSON. Vous appliquerez également diverses transformations et actions sur les RDD et les DataFrames afin d'obtenir des informations et de manipuler les données de manière efficace. En outre, vous appliquerez vos connaissances dans un projet final où vous créerez un DataFrame en chargeant des données à partir d'un fichier CSV et en appliquant des transformations et des actions à l'aide de Spark SQL. Enfin, vous serez évalué sur la base de ce que vous aurez appris pendant le cours.

Inclus

3 lectures1 devoir2 éléments d'application2 plugins

3 lecturesTotal 5 minutes

Instructions pour l'évaluation finale1 minute
Félicitations et prochaines étapes2 minutes
Remerciements de l'équipe du cours2 minutes

1 devoirTotal 100 minutes

Évaluation finale100 minutes

2 éléments d'applicationTotal 120 minutes

Projet pratique : Traitement des données à l'aide de Spark60 minutes
Projet final : Analyse de données à l'aide de Spark60 minutes

2 pluginsTotal 35 minutes

Aperçu du projet final15 minutes
Glossaire : Introduction au Big Data avec Spark et Hadoop20 minutes

Instructeurs

Évaluations de l’enseignant

4.3 (95 évaluations)

Aije Egwaikhide

IBM

6 Cours660 424 apprenants

Romeo Kienzler

IBM

10 Cours708 410 apprenants

Rav Ahuja

IBM

53 Cours3 130 412 apprenants

Offert par

IBM

Recommandé si vous êtes intéressé(e) par Gestion des données

IBM
Introduction aux Bases de Données Relationnelles (SGBDR)
Cours
Google Cloud
Explorer et préparer vos données avec BigQuery
Cours
University of Washington
La science des données à grande échelle
Spécialisation
Meta
Introduction à l'Analyse de Données
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.4

397 avis

5 stars
64,57 %
4 stars
20,10 %
3 stars
8,29 %
2 stars
3,26 %
1 star
3,76 %

Affichage de 3 sur 397

Révisé le 27 oct. 2022

well-structured course with comprehensive content and practical skills

Révisé le 1 mai 2022

hands on lab and quizzes at the end of each session was very helpful

Révisé le 11 nov. 2022

This is really helpful for me to understand Big Data and Apache Spark!

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations. De là, vous pourrez l'imprimer ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.

Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.