IBM
Introduction au Big Data avec Spark et Hadoop
IBM

Introduction au Big Data avec Spark et Hadoop

Ce cours fait partie de plusieurs programmes.

Enseigné en Anglais

Certains éléments de contenu peuvent ne pas être traduits

Aije Egwaikhide
Romeo Kienzler
Rav Ahuja

Instructeurs : Aije Egwaikhide

50 998 déjà inscrits

Inclus avec Coursera Plus

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.4

(358 avis)

|

91%

niveau Intermédiaire

Expérience recommandée

18 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Expliquer l'impact du big data, y compris les cas d'utilisation, les outils et les méthodes de traitement.

  • Décrire l'architecture, l'écosystème, les pratiques et les applications liées à l'utilisateur d'Apache Hadoop, y compris Hive, HDFS, HBase, Spark et MapReduce.

  • Appliquer les bases de la programmation Spark, y compris les bases de la programmation parallèle pour les DataFrames, les ensembles de données et Spark SQL.

  • Utilisez les RDD et les ensembles de données de Spark, optimisez Spark SQL à l'aide de Catalyst et Tungsten, et utilisez les options de l'environnement de développement et d'exécution de Spark.

Compétences que vous acquerrez

  • Catégorie : Big Data
  • Catégorie : SparkSQL
  • Catégorie : SparkML
  • Catégorie : Apache Hadoop
  • Catégorie : Apache Spark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

14 devoirs

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.4

(358 avis)

|

91%

niveau Intermédiaire

Expérience recommandée

18 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Placeholder

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de
Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable
Placeholder
Placeholder

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Placeholder

Il y a 7 modules dans ce cours

Dans ce module, vous commencerez à acquérir des connaissances sur les Big Data en vous appuyant sur la définition la plus récente des Big Data. Vous explorerez l'impact des Big Data sur les tâches personnelles quotidiennes et les transactions commerciales à l'aide de cas d'utilisation des Big Data. Vous apprendrez également comment le Big Data utilise le traitement parallèle, la mise à l'échelle et le parallélisme des données. En outre, vous explorerez les outils de Big Data couramment utilisés et expliquerez le rôle de l'open-source dans le Big Data. Enfin, vous irez au-delà du battage médiatique et explorerez d'autres points de vue sur les Big Data.

Inclus

8 vidéos1 lecture2 devoirs2 plugins

Dans ce module, vous acquerrez une compréhension fondamentale de l'architecture, de l'écosystème et des pratiques d'Apache Hadoop, ainsi que des applications couramment utilisées, notamment le système de fichiers distribués (HDFS), MapReduce, Hive et HBase. Vous acquerrez également des compétences pratiques lors de travaux pratiques au cours desquels vous interrogerez les données ajoutées à l'aide de Hive, lancerez un cluster Hadoop à un seul nœud à l'aide de Docker et exécuterez des tâches MapReduce.

Inclus

6 vidéos1 lecture2 devoirs3 éléments d'application2 plugins

Dans ce module, vous porterez votre attention sur la populaire plateforme Apache Spark, où vous explorerez les attributs et les avantages d'Apache Spark et de l'informatique distribuée. Vous obtiendrez des informations clés sur la programmation fonctionnelle et les fonctions Lambda. Vous explorerez également les RDD (Resilient Distributed Datasets), la programmation parallèle, la résilience dans Apache Spark, et ferez le lien entre les RDD et la programmation parallèle avec Apache Spark. Ensuite, vous plongerez dans les composants supplémentaires d'Apache Spark et apprendrez comment Apache Spark évolue avec les Big Data. Travailler avec les Big Data nécessite de travailler avec des requêtes, y compris des requêtes structurées utilisant SQL. Vous apprendrez également les fonctions, les parties et les avantages de Spark SQL et des requêtes DataFrame, et découvrirez comment les DataFrames fonctionnent avec Spark SQL.

Inclus

5 vidéos1 lecture2 devoirs1 élément d'application2 plugins

Dans ce module, vous découvrirez les Resilient Distributed Datasets (RDD), leur utilisation dans Apache Spark, ainsi que les transformations et actions RDD. Vous comparerez l'utilisation des datasets avec la dernière abstraction de données de Spark, les DataFrames. Vous apprendrez à identifier et à appliquer les opérations de base des DataFrames. Vous explorerez l'optimisation SQL d'Apache Spark et apprendrez comment Spark SQL et l'optimisation de la mémoire bénéficient de l'utilisation de Catalyst et Tungsten. Enfin, vous renforcerez vos compétences avec des travaux pratiques guidés pour créer une vue de table et appliquer des techniques d'agrégation de données.

Inclus

5 vidéos1 lecture2 devoirs2 éléments d'application4 plugins

Dans ce module, vous découvrirez comment Spark traite les requêtes que votre application soumet et comment vous pouvez suivre le travail à l'aide de l'interface utilisateur de l'application Spark. Comme le travail de l'application Spark se fait sur le cluster, vous devez être capable d'identifier les Apache Cluster Managers, leurs composants et leurs avantages. Vous saurez également comment vous connecter à chaque gestionnaire de cluster et quand et comment vous voudrez peut-être configurer une instance Spark locale et autonome. Ensuite, vous apprendrez à soumettre une application Apache Spark, y compris l'utilisation de l'interface unifiée de Spark, "spark-submit", et vous vous familiariserez avec les options et les dépendances. Vous décrirez et appliquerez également les options de soumission des applications, identifierez les techniques de gestion des dépendances des applications externes et énumérerez les avantages de Spark Shell. Vous examinerez également les pratiques recommandées pour les options de configuration statique et dynamique de Spark et effectuerez des travaux pratiques pour utiliser Apache Spark sur IBM Cloud et exécuter Spark sur Kubernetes.

Inclus

6 vidéos2 lectures3 devoirs2 éléments d'application4 plugins

Les plateformes et les applications nécessitent une surveillance et un réglage pour gérer les problèmes qui surviennent inévitablement. Dans ce module, vous apprendrez à connecter le serveur web de l'interface utilisateur Apache Spark et à utiliser ce même serveur web pour gérer les processus de l'application. Vous identifierez également les problèmes courants des applications Apache Spark et apprendrez à déboguer les problèmes en utilisant l'interface utilisateur de l'application et en localisant les fichiers journaux correspondants. En outre, vous découvrirez et acquerrez des connaissances concrètes sur la façon dont Spark gère la mémoire et les ressources du processeur grâce à un laboratoire pratique.

Inclus

5 vidéos1 lecture2 devoirs1 élément d'application3 plugins

Dans ce module, vous effectuerez un laboratoire pratique où vous explorerez deux aspects critiques du traitement des données à l'aide de Spark : travailler avec des RDD (Resilient Distributed Datasets) et construire des DataFrames à partir de données JSON. Vous appliquerez également diverses transformations et actions sur les RDD et les DataFrames afin d'obtenir des informations et de manipuler les données de manière efficace. En outre, vous appliquerez vos connaissances dans un projet final où vous créerez un DataFrame en chargeant des données à partir d'un fichier CSV et en appliquant des transformations et des actions à l'aide de Spark SQL. Enfin, vous serez évalué sur la base de ce que vous aurez appris pendant le cours.

Inclus

3 lectures1 devoir2 éléments d'application2 plugins

Instructeurs

Évaluations de l’enseignant
4.3 (87 évaluations)
Aije Egwaikhide
IBM
6 Cours629 286 apprenants
Romeo Kienzler
IBM
10 Cours682 183 apprenants
Rav Ahuja
IBM
52 Cours2 838 251 apprenants

Offert par

IBM

Recommandé si vous êtes intéressé(e) par Gestion des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

Affichage de 3 sur 358

4.4

358 avis

  • 5 stars

    65,37 %

  • 4 stars

    18,83 %

  • 3 stars

    8,58 %

  • 2 stars

    3,32 %

  • 1 star

    3,87 %

JO
5

Révisé le 7 juin 2024

CS
5

Révisé le 27 oct. 2022

JS
4

Révisé le 1 mai 2022

Placeholder

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions