Analyse de Big Data avec Scala et Spark

Name: Analyse de Big Data avec Scala et Spark
Rating: 4.646308465403942 (2587 reviews)

Ce cours fait partie de Spécialisation Programmation fonctionnelle en Scala

Instructeur : Prof. Heather Miller

100 926 déjà inscrits

Inclus avec Coursera Plus

4 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.6

(2,587 avis)

niveau Intermédiaire

Certaines connaissances prérequises

Planning flexible

Env. 27 heures

Apprenez à votre propre rythme

92%

La plupart des étudiants ont apprécié ce cours

4 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.6

(2,587 avis)

niveau Intermédiaire

Certaines connaissances prérequises

Planning flexible

Env. 27 heures

Apprenez à votre propre rythme

92%

La plupart des étudiants ont apprécié ce cours

Compétences que vous acquerrez

Catégorie : Programmation en Scala
Catégorie : Big Data
Catégorie : SQL
Catégorie : Apache Spark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Programmation fonctionnelle en Scala

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 4 modules dans ce cours

La manipulation de données volumineuses distribuées sur un cluster à l'aide de concepts fonctionnels est très répandue dans l'industrie et constitue sans doute l'une des premières utilisations industrielles généralisées des idées fonctionnelles. La popularité de MapReduce et de Hadoop, et plus récemment d'Apache Spark, un cadre de collecte distribuée rapide et en mémoire écrit en Scala, en est la preuve. Dans ce cours, nous verrons comment le paradigme des données parallèles peut être étendu au cas distribué, en utilisant Spark. Nous couvrirons le modèle de programmation de Spark en détail, en prenant soin de comprendre comment et quand il diffère des modèles de programmation familiers, comme les collections parallèles en mémoire partagée ou les collections séquentielles en Scala. A travers des exemples pratiques en Spark et Scala, nous apprendrons quand les questions importantes liées à la distribution comme la latence et la communication réseau doivent être prises en compte et comment elles peuvent être traitées efficacement pour améliorer les performances. Objectifs d'apprentissage. A la fin de ce cours, vous serez capable de : - lire des données à partir d'un stockage persistant et les charger dans Apache Spark, - manipuler des données avec Spark et Scala, - exprimer des algorithmes pour l'analyse des données dans un style fonctionnel, - reconnaître comment éviter les mélanges et les recalculs dans Spark, Contexte recommandé : Vous devez avoir au moins un an d'expérience en programmation. La maîtrise de Java ou de C# est idéale, mais une expérience dans d'autres langages tels que C/C++, Python, Javascript ou Ruby est également suffisante. Vous devez avoir une certaine familiarité avec l'utilisation de la ligne de commande. Ce cours est destiné à être suivi après le cours Parallel Programming : https://www.coursera.org/learn/parprog1.

Démarrez avec Scala sur votre ordinateur. Complétez un exemple de travail pour vous familiariser avec notre méthode unique de soumission des travaux. Cette semaine, nous allons combler le fossé entre le parallélisme des données dans le scénario de mémoire partagée (appris dans le cours de programmation parallèle, prérequis) et le scénario distribué. Nous examinerons les problèmes importants qui se posent dans les systèmes distribués, comme la latence et les pannes. Nous continuerons à couvrir les bases de Spark, un framework orienté fonction pour le traitement des big data en Scala. Nous terminerons la première semaine en mettant en pratique ce que nous avons appris sur Spark en analysant immédiatement un ensemble de données du monde réel.

Inclus

7 vidéos7 lectures3 devoirs de programmation

7 vidéosTotal 104 minutes

Introduction, Logistique, Ce que vous apprendrez15 minutesPrévisualiser le module
Data-Parallel à Data-Parallel distribué10 minutes
Latence24 minutes
RDDs, la collection distribuée de Spark9 minutes
RDDs : Transformation et actions16 minutes
L'évaluation dans Spark : Contrairement aux collections Scala !20 minutes
La topologie des grappes est importante !8 minutes

7 lecturesTotal 65 minutes

Travailler sur les devoirs5 minutes
Configuration des outils (Veuillez lire)10 minutes
Scala 3 REPL et feuilles de travail10 minutes
Aide-mémoire10 minutes
Didacticiel SBT et soumission des travaux (à lire)10 minutes
Ressources pédagogiques10 minutes
Guide de style Scala10 minutes

3 devoirs de programmationTotal 540 minutes

Exemple180 minutes
Wikipedia (audit)180 minutes
Wikipédia (en anglais)180 minutes

Cette semaine, nous allons nous pencher sur un type particulier de RDD appelé RDD par paires. Avec ce type de RDD spécialisé en main, nous couvrirons les opérations essentielles sur les grands ensembles de données, telles que les réductions et les jointures.

Inclus

4 vidéos2 devoirs de programmation

Cette semaine, nous examinerons certaines des implications en termes de performances de l'utilisation d'opérations telles que les jointures. Est-il possible d'obtenir le même résultat sans avoir à payer les frais généraux liés au déplacement des données sur le réseau ? Nous répondrons à cette question en examinant comment nous pouvons partitionner nos données pour obtenir une meilleure localisation des données, ce qui nous permettra d'optimiser certains de nos travaux Spark.

Inclus

4 vidéos

Grâce à notre nouvelle compréhension du coût du mouvement des données dans un travail Spark et à notre expérience de l'optimisation des travaux pour la localité des données la semaine dernière, nous nous concentrerons cette semaine sur la façon dont nous pouvons plus facilement réaliser des optimisations similaires. Les données structurées peuvent-elles nous aider ? Nous examinerons Spark SQL et son puissant optimiseur qui utilise la structure pour appliquer des optimisations impressionnantes. Nous aborderons ensuite les DataFrames et les Datasets, qui nous permettent de combiner les RDD avec les puissantes optimisations automatiques de Spark SQL.

Inclus

5 vidéos2 devoirs de programmation

Instructeur

Évaluations de l’enseignant

4.7 (148 évaluations)

Prof. Heather Miller

École Polytechnique Fédérale de Lausanne

2 Cours102 373 apprenants

Offert par

École Polytechnique Fédérale de Lausanne

Recommandé si vous êtes intéressé(e) par Algorithmes

University of California San Diego
L'apprentissage automatique avec les données massives (Big Data)
Cours
University of Colorado Boulder
Architecture logicielle pour le Big Data
Spécialisation
Korea Advanced Institute of Science and Technology(KAIST)
Big data et langue 2
Cours
University of California San Diego
Introduction aux Big Data
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.6

2 587 avis

5 stars
72,94 %
4 stars
21,10 %
3 stars
4,44 %
2 stars
0,65 %
1 star
0,85 %

Affichage de 3 sur 2587

Révisé le 8 avr. 2017

Excellent material. Very good flow. Heather has an amazing way of walking through the flow and simplifying the concepts. Great assignments -- takes a bit longer than 3 hours.

Révisé le 7 juin 2017

The sessions where clearly explained and focused. Some of the exercises contained slightly confusing hints and information, but I'm sure those mistakes will be ironed out in future iterations. Thanks!

Révisé le 30 nov. 2017

It surely opens your mind, even on unrelated topics, I found myself able to apply some of the distributed computing logics even to imperative sequential programming. Good job.

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.

Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Analyse de Big Data avec Scala et Spark

Compétences que vous acquerrez

Détails à connaître

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Élaborez votre expertise du sujet

Obtenez un certificat professionnel

Il y a 4 modules dans ce cours

Démarrage + Les bases de Spark

Inclus

7 vidéosTotal 104 minutes

7 lecturesTotal 65 minutes

3 devoirs de programmationTotal 540 minutes

Opérations de réduction et paires clé-valeur distribuées

Inclus

4 vidéosTotal 58 minutes

2 devoirs de programmationTotal 360 minutes

Partitionnement et brassage

Inclus

4 vidéosTotal 56 minutes

Données structurées : SQL, cadres de données et ensembles de données

Inclus

5 vidéosTotal 132 minutes

2 devoirs de programmationTotal 360 minutes

Instructeur

Offert par

Recommandé si vous êtes intéressé(e) par Algorithmes

L'apprentissage automatique avec les données massives (Big Data)

Architecture logicielle pour le Big Data

Big data et langue 2

Introduction aux Big Data

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Avis des étudiants

Ouvrez de nouvelles portes avec Coursera Plus

Faites progresser votre carrière avec un diplôme en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Foire Aux Questions

Plus de questions

Analyse de Big Data avec Scala et Spark

Compétences que vous acquerrez

Détails à connaître

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Élaborez votre expertise du sujet

Obtenez un certificat professionnel

Il y a 4 modules dans ce cours

Démarrage + Les bases de Spark

Inclus

Opérations de réduction et paires clé-valeur distribuées

Inclus

Partitionnement et brassage

Inclus

Données structurées : SQL, cadres de données et ensembles de données

Inclus

Instructeur

Offert par

Recommandé si vous êtes intéressé(e) par Algorithmes

L'apprentissage automatique avec les données massives (Big Data)

Architecture logicielle pour le Big Data

Big data et langue 2

Introduction aux Big Data

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Avis des étudiants

Ouvrez de nouvelles portes avec Coursera Plus

Faites progresser votre carrière avec un diplôme en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Foire Aux Questions

Quand aurai-je accès aux cours et aux devoirs ?

Qu'est-ce que je recevrai si je souscris à cette Specializations ?

Quelle est la politique de remboursement ?

Plus de questions