Ce cours est entièrement consacré au Big data. Il s'adresse aux étudiants ayant une expérience de SQL qui veulent passer à l'étape suivante de leur voyage de données en apprenant l'informatique distribuée à l'aide d'Apache Spark. Les étudiants acquerront une compréhension approfondie de cette norme open source pour travailler avec de grands ensembles de données. Les étudiants comprendront les principes fondamentaux de l'analyse des données à l'aide de SQL sur Spark, jetant les bases de la façon de combiner les données avec des analyses avancées à l'échelle et dans des environnements de production. Les quatre modules s'appuient les uns sur les autres et, à la fin du cours, vous comprendrez : l'architecture de Spark, les requêtes au sein de Spark, les moyens courants d'optimiser Spark SQL et la façon de construire des pipelines de données fiables.
Offrez à votre carrière le cadeau de Coursera Plus avec $160 de réduction, facturé annuellement. Économisez aujourd’hui.
Calcul distribué avec Spark SQL
Ce cours fait partie de Spécialisation Apprenez les bases de SQL pour la science des données
Instructeurs : Brooke Wenig
49 096 déjà inscrits
Inclus avec
(687 avis)
Ce que vous apprendrez
Utilisez l'espace de travail collaboratif Databricks pour écrire du code Spark SQL évolutif qui s'exécute sur un cluster de machines
Inspecter l'interface utilisateur de Spark pour analyser les performances des requêtes et identifier les goulots d'étranglement
Créez un pipeline de bout en bout qui lit les données, les transforme et enregistre le résultat
Construisez une architecture de type médaillon (bronze, argent, or) avec Delta Lake pour garantir la fiabilité, l'évolutivité et la performance de vos données
Compétences que vous acquerrez
- Catégorie : Science des données
- Catégorie : SQL
- Catégorie : Apache Spark
- Catégorie : Lac Delta
Détails à connaître
Ajouter à votre profil LinkedIn
4 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 4 modules dans ce cours
Dans ce module, vous serez en mesure de discuter des concepts fondamentaux de l'informatique distribuée et de reconnaître quand et où les appliquer. Vous serez en mesure d'identifier la structure de données de base d'Apache Spark™, connue sous le nom de DataFrame. En outre, vous passerez en revue l'espace de travail collaboratif Databricks.
Inclus
6 vidéos3 lectures1 devoir1 sujet de discussion
Dans ce module, vous serez en mesure d'expliquer les concepts fondamentaux de Spark. Nous discuterons des moyens courants d'augmenter les performances des requêtes en mettant en cache les données et en modifiant les configurations de Spark. Nous passerons également en revue l'UI de Spark pour analyser les performances et identifier les goulots d'étranglement, ainsi que pour optimiser les requêtes avec Adaptive Query Execution.
Inclus
6 vidéos1 lecture1 devoir
Dans ce module, vous serez en mesure d'identifier et de discuter les exigences générales des applications de données. Vous serez en mesure d'examiner les données dans une variété de formats et de comparer les compromis entre ces formats. Vous explorerez et examinerez les données JSON semi-structurées (courantes dans les environnements Big data) ainsi que les schémas et les écritures de données parallèles. Vous serez en mesure de comprendre un pipeline de bout en bout qui lit les données, les transforme et comment il enregistre le résultat.
Inclus
7 vidéos1 lecture1 devoir
Dans ce module, vous identifierez les principales caractéristiques des lacs de données, des entrepôts de données et des lakehouses. Les lakehouses combinent l'évolutivité et le stockage à faible coût des lacs de données avec la vitesse et les garanties transactionnelles ACID des entrepôts de données. Vous examinerez un lakehouse de niveau de production combiné à Spark dans un projet open-source, Delta Lake. Celui qui a dit que le voyage dans le temps n'était pas possible n'a jamais visité un lakehouse !
Inclus
8 vidéos1 lecture1 devoir1 sujet de discussion
Instructeurs
Offert par
Recommandé si vous êtes intéressé(e) par Analyse des Données
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Avis des étudiants
Affichage de 3 sur 687
687 avis
- 5 stars
64,38 %
- 4 stars
23,11 %
- 3 stars
6,39 %
- 2 stars
2,32 %
- 1 star
3,77 %
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :
Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.
Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.