PySpark in Action: Hands-on Data Processing is a foundational course designed to help you begin working with PySpark and distributed data processing. You will explore the essential concepts of Big Data, Hadoop, and Apache Spark, and gain practical experience using PySpark to process and analyze large datasets. Through hands-on exercises, you will work with RDDs, DataFrames, and SQL queries in PySpark, giving you the skills to manage data at scale.
PySpark in Action: Hands-On Data Processing
Ce cours fait partie de Spécialisation PySpark for Data Science
Instructeur : Edureka
Inclus avec
Expérience recommandée
Ce que vous apprendrez
Explore the fundamental concepts of Big Data and the components of the Hadoop ecosystem.
Explain the architecture and key principles of Apache Spark and its role in big data processing.
Utilize RDD transformations and actions to effectively process large-scale datasets with PySpark.
Execute advanced DataFrame operations, including data manipulation and aggregation techniques.
Compétences que vous acquerrez
- Catégorie : Data Processing
- Catégorie : RDD Transformations
- Catégorie : Advanced DataFrame Operations
- Catégorie : SQL Querying with PySpark
- Catégorie : Data Engineering
Détails à connaître
Ajouter à votre profil LinkedIn
octobre 2024
17 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 5 modules dans ce cours
This module introduces you to the fundamental concepts of Big Data and Hadoop. You will explore the Hadoop ecosystem, its components, and the Hadoop Distributed File System (HDFS), setting the foundation for understanding big data processing and storage solutions.
Inclus
15 vidéos5 lectures4 devoirs1 sujet de discussion
Dive into the core of PySpark by learning about Resilient Distributed Datasets (RDDs). This module covers the fundamentals of RDDs, how they work, and their key transformations and actions, enabling efficient distributed data processing in PySpark.
Inclus
25 vidéos4 lectures4 devoirs3 sujets de discussion
This module covers the creation and manipulation of DataFrames in PySpark. You will learn how to perform basic and advanced operations, including aggregation, grouping, and handling missing data, with a focus on optimizing large-scale data processing tasks.
Inclus
22 vidéos4 lectures4 devoirs1 sujet de discussion
In this module, you will explore the SQL capabilities of PySpark. Learn how to perform CRUD operations, execute SQL commands, and merge and aggregate data using PySpark SQL. You'll also discover best practices for using SQL with PySpark to enhance data workflows.
Inclus
28 vidéos4 lectures4 devoirs2 sujets de discussion
This module is meant to test how well you understand the different ideas and lessons you've learned in this course. You will undertake a project based on these PySpark concepts and complete a comprehensive quiz that will assess your confidence and proficiency in Data Processing with PySpark.
Inclus
1 vidéo1 lecture1 devoir1 sujet de discussion
Recommandé si vous êtes intéressé(e) par Data Analysis
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
You will need access to a computer with Python and Apache Spark installed. Detailed setup instructions will be provided at the beginning of the course.
This course is designed for individuals new to big data and PySpark, providing a solid foundation to start working with distributed data processing.
While prior SQL knowledge is beneficial, it is not mandatory. The course will introduce SQL concepts as they relate to PySpark and provide practice with SQL queries.