Ce cours porte sur le big data. Il s'adresse aux étudiants ayant une expérience du langage SQL et qui souhaitent passer à l'étape suivante de leur voyage dans les données en apprenant le calcul distribué à l'aide d'Apache Spark. Les étudiants acquerront une compréhension approfondie de ce standard open-source pour travailler avec de grands ensembles de données. Les étudiants comprendront les principes fondamentaux de l'analyse de données en utilisant SQL sur Spark, jetant les bases pour combiner les données avec des analyses avancées à l'échelle et dans des environnements de production. Les quatre modules s'appuient les uns sur les autres et, à la fin du cours, vous comprendrez : l'architecture Spark, les requêtes au sein de Spark, les moyens courants d'optimiser Spark SQL, et comment construire des pipelines de données fiables.
Calcul distribué avec Spark SQL
Ce cours fait partie de Spécialisation Apprenez les bases de SQL pour la science des données
Enseigné en Anglais
Certains éléments de contenu peuvent ne pas être traduits
Instructeurs : Brooke Wenig
48 263 déjà inscrits
Inclus avec
Cours
(680 avis)
86%
Ce que vous apprendrez
Utilisez l'espace de travail collaboratif Databricks pour écrire du code Spark SQL évolutif qui s'exécute sur un cluster de machines
Inspecter l'interface utilisateur de Spark pour analyser les performances des requêtes et identifier les goulots d'étranglement
Créez un pipeline de bout en bout qui lit les données, les transforme et enregistre le résultat
Construisez une architecture de type médaillon (bronze, argent, or) avec Delta Lake pour garantir la fiabilité, l'évolutivité et la performance de vos données
Compétences que vous acquerrez
- Catégorie : Science des données
- Catégorie : SQL
- Catégorie : Apache Spark
- Catégorie : Lac Delta
Détails à connaître
Ajouter à votre profil LinkedIn
8 quizzes
Cours
(680 avis)
86%
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 4 modules dans ce cours
Dans ce module, vous serez en mesure de discuter des concepts fondamentaux de l'informatique distribuée et de reconnaître quand et où les appliquer. Vous serez en mesure d'identifier la structure de données de base d'Apache Spark™, connue sous le nom de DataFrame. En outre, vous utiliserez l'espace de travail collaboratif Databricks et écrirez du code SQL qui s'exécute contre un cluster de machines.
Inclus
6 vidéos3 lectures2 quizzes1 sujet de discussion
Dans ce module, vous serez en mesure d'expliquer les concepts fondamentaux de Spark. Vous apprendrez les méthodes courantes pour augmenter les performances des requêtes en mettant en cache les données et en modifiant les configurations de Spark. Vous utiliserez également l'interface utilisateur de Spark pour analyser les performances et identifier les goulots d'étranglement, ainsi que pour optimiser les requêtes avec Adaptive Query Execution.
Inclus
6 vidéos2 lectures2 quizzes
Dans ce module, vous serez en mesure d'identifier et de discuter les exigences générales des applications de données. Vous serez en mesure d'accéder aux données dans une variété de formats et de comparer les compromis entre ces formats. Vous explorerez et examinerez les données JSON semi-structurées (courantes dans les environnements big data) ainsi que les schémas et les écritures de données parallèles. Vous serez en mesure de créer un pipeline de bout en bout qui lit les données, les transforme et enregistre le résultat.
Inclus
7 vidéos2 lectures2 quizzes
Dans ce module, vous identifierez les principales caractéristiques des lacs de données, des entrepôts de données et des entrepôts lacustres. Les entrepôts de données combinent l'évolutivité et le stockage à faible coût des lacs de données avec la vitesse et les garanties transactionnelles ACID des entrepôts de données. Vous construirez un lac de production en combinant Spark et le projet open-source Delta Lake. Celui qui a dit que le voyage dans le temps n'était pas possible n'a jamais visité une maison de lac !
Inclus
8 vidéos2 lectures2 quizzes1 évaluation par les pairs1 sujet de discussion
Instructeurs
Offert par
Recommandé si vous êtes intéressé(e) par Analyse des Données
Duke University
École Polytechnique Fédérale de Lausanne
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Avis des étudiants
Affichage de 3 sur 680
680 avis
- 5 stars
64,56 %
- 4 stars
23,27 %
- 3 stars
6,44 %
- 2 stars
2,34 %
- 1 star
3,36 %
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :
Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.
Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.