Yonsei University

Big Data Technologies émergentes

Ce cours fait partie de Spécialisation Technologies émergentes : Des smartphones aux technologies de l'information et de la communication (IdO) en passant par les données massives (Big Data)

Enseigné en Anglais

Certains éléments de contenu peuvent ne pas être traduits

Jong-Moon Chung

Instructeur : Jong-Moon Chung

26 802 déjà inscrits

Inclus avec Coursera Plus

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.7

(270 avis)

|

94%

niveau Débutant
Aucune connaissance prérequise
29 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

10 quizzes

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.7

(270 avis)

|

94%

niveau Débutant
Aucune connaissance prérequise
29 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Placeholder

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Technologies émergentes : Des smartphones aux technologies de l'information et de la communication (IdO) en passant par les données massives (Big Data)
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable
Placeholder
Placeholder

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Placeholder

Il y a 6 modules dans ce cours

Le premier module "Classements et produits Big Data" se concentre sur les relations et les parts de marché du matériel, des logiciels et des services professionnels Big Data. Ces informations donnent un aperçu de la manière dont l'industrie, les produits, les services, les écoles et les organisations gouvernementales seront influencés par la technologie des big data. Pour avoir une vision plus approfondie de la ligne de produits et des types de services des big data dans le monde, l'exposé donne un aperçu des principales sociétés de big data, notamment IBM, SAP, Oracle, HPE, Splunk, Dell, Teradata, Microsoft, Cisco et AWS. Afin de comprendre la puissance de la technologie des big data, la différence entre l'analyse des big data et l'analyse traditionnelle des données est expliquée. Cette présentation est suivie d'un exposé sur les 4 grands défis de la technologie des big data, qui traitent des problèmes liés au volume, à la variété, à la vitesse et à la véracité des données massives. Sur la base de ces informations introductives, la technologie des big data utilisée par Wal-Mart, Amazon et Citibank pour ajouter des informations globales sur les investissements, aider à localiser de nouveaux magasins et usines, et exécuter des systèmes de recommandation en temps réel est présentée.

Inclus

6 vidéos2 quizzes

Le deuxième module "Big Data & Hadoop" se concentre sur les caractéristiques et les opérations de Hadoop, qui est le système original de big data utilisé par Google. Les cours expliquent la fonctionnalité de MapReduce, HDFS (Hadoop Distributed FileSystem) et le traitement des blocs de données. Ces fonctions sont exécutées sur un cluster de nœuds qui se voient attribuer le rôle de NameNode ou de DataNodes, où le traitement des données est effectué par le JobTracker et le TaskTracker, qui sont expliqués dans les cours. En outre, les caractéristiques des types de métadonnées et les différences entre les processus d'analyse des données de Hadoop et de SQL (Structured Query Language) sont expliquées. Ensuite, la série de versions Hadoop est présentée et comprend les descriptions de la technologie big data Hadoop YARN (Yet Another Resource Negotiator), HDFS Federation et HDFS HA (High Availability).

Inclus

8 vidéos2 quizzes

Le troisième module "Spark" se concentre sur les opérations et les caractéristiques de Spark, qui est actuellement la technologie big data la plus populaire au monde. La conférence couvre d'abord les différences entre les caractéristiques d'analyse de données de Spark et de Hadoop, puis les caractéristiques du traitement de big data Spark basé sur les unités centrales RDD (Resilient Distributed Datasets), Spark Core, Spark SQL, Spark Streaming, MLlib (Machine Learning Library), et GraphX. Les détails des caractéristiques des étapes Spark DAG (Directed Acyclic Graph) et des processus de pipeline qui sont formés sur la base des transformations et des actions Spark sont expliqués. En particulier, la définition et les avantages des transformations paresseuses et des opérations DAG sont décrits, ainsi que les caractéristiques des variables Spark et de la sérialisation. En outre, le processus des opérations de cluster Spark basées sur Mesos, Standalone et YARN est introduit.

Inclus

11 vidéos2 quizzes

Le quatrième module "Spark ML & Streaming" se concentre sur le fonctionnement de Spark ML (Machine Learning) et sur la manière dont les opérations de streaming Spark sont menées. Les algorithmes Spark ML comprennent la featurisation, les pipelines, la persistance et les utilitaires qui opèrent sur les RDD (Resilient Distributed Datasets) pour extraire des informations des énormes ensembles de données. Les conférences expliquent les caractéristiques de l'API basée sur le DataFrame, qui est la principale API ML dans le package spark.ml. Les algorithmes statistiques de base de Spark ML basés sur la corrélation et les tests d'hypothèse (valeur P) sont d'abord introduits, suivis par les algorithmes de classification et de régression de Spark ML basés sur des modèles linéaires, des Bayes naïfs et des techniques d'arbre de décision. Ensuite, les caractéristiques du streaming Spark, l'entrée et la sortie du streaming, ainsi que les types de récepteurs de streaming (qui incluent le basique, le personnalisé et l'avancé) sont expliqués, suivis par la façon dont le processus de streaming Spark et DStream (Discretized Stream) permettent des opérations de streaming de big data pour des applications en temps réel et en temps quasi-réel.

Inclus

4 vidéos2 quizzes

Le cinquième module "Storm" se concentre sur les caractéristiques et les opérations des systèmes de big data Storm. La conférence couvre d'abord les différences entre les caractéristiques d'analyse des données des technologies Storm, Spark et Hadoop. Ensuite, les caractéristiques du traitement des big data Storm basées sur le nimbus, les spouts et les bolts sont décrites, suivies des détails sur les flux Storm, le superviseur et ZooKeeper. D'autres détails sur les spouts et les bolts fiables et non fiables de Storm sont fournis, suivis des avantages de Storm DAG (Directed Acyclic Graph) et de la gestion de la file d'attente des flux de données. En outre, les avantages de l'utilisation de Storm pour les applications rapides en temps réel, qui comprennent l'analyse en temps réel, l'apprentissage automatique en ligne, le calcul continu, DRPC (Distributed Remote Procedure Call) et ETL (Extract, Transform, Load) sont présentés.

Inclus

5 vidéos2 quizzes

Le sixième et dernier module "IBM SPSS Statistics Project" se concentre sur l'acquisition d'une expérience sur l'un des systèmes d'analyse statistique des données les plus célèbres et les plus largement utilisés dans le monde. L'exposé commence par la configuration et l'utilisation d'IBM SPSS Statistics, puis décrit comment IBM SPSS Statistics peut être utilisé pour acquérir de l'expérience en matière d'analyse de données d'entreprise. Ensuite, les résultats statistiques du traitement des données de deux projets basés sur l'utilisation du système big data d'IBM SPSS Statistics sont présentés. Les projets sont menés afin que l'étudiant puisse découvrir de nouvelles façons d'utiliser, d'analyser et de dessiner des graphiques de la relation entre les ensembles de données, et aussi de comparer les résultats statistiques en utilisant IBM SPSS Statistics.

Inclus

1 vidéo1 évaluation par les pairs

Instructeur

Évaluations de l’enseignant
4.9 (67 évaluations)
Jong-Moon Chung
Yonsei University
12 Cours360 285 apprenants

Offert par

Yonsei University

Recommandé si vous êtes intéressé(e) par Gestion des données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

Affichage de 3 sur 270

4.7

270 avis

  • 5 stars

    79,70 %

  • 4 stars

    14,02 %

  • 3 stars

    2,95 %

  • 2 stars

    1,47 %

  • 1 star

    1,84 %

AI
4

Révisé le 12 avr. 2021

AS
4

Révisé le 28 déc. 2021

AM
5

Révisé le 11 sept. 2022

Placeholder

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions