One of the important topics that every data analyst should be familiar with is the distributed data processing technologies. As a data analyst, you should be able to apply different queries to your dataset to extract useful information out of it. but what if your data is so big that working with it on your local machine is not easy to be done. That is when the distributed data processing and Spark Technology will become handy. So in this project, we are going to work with pyspark module in python and we are going to use google colab environment in order to apply some queries to the dataset we have related to lastfm website which is an online music service where users can listen to different songs. This dataset is containing two csv files listening.csv and genre.csv. Also, we will learn how we can visualize our query results using matplotlib.
Neues Jahr. Große Ziele. Höhere Einsparungen. Schalte mit Coursera Plus für $199 ein Jahr unbegrenzten Zugang zum Lernen frei. Jetzt sparen.
(289 Bewertungen)
Empfohlene Erfahrung
Was Sie lernen werden
Learn how to setup the google colab for distributed data processing
Learn applying different queries to your dataset to extract useful Information
Learn how to visualize this information using matplotlib
Kompetenzen, die Sie festigen
- Kategorie: Google colab
- Kategorie: Data Analysis
- Kategorie: Python Programming
- Kategorie: pySpark SQL
Wichtige Details
Zu Ihrem LinkedIn-Profil hinzufügen
Nur als Desktop-Version verfügbar
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Lernen, üben und anwenden von berufsrelevanten Fähigkeiten in weniger als 2 Stunden
- Nehmen Sie an Schulungen von Branchenexperten teil
- Sammeln Sie mit Aufgaben aus der realen Welt praktische Erfahrung
- Schaffen Sie Vertrauen durch neueste Tools und Technologien
Über dieses begleitete Projekt
Schritt für Schritt lernen
In einem Video, das auf einer Hälfte Ihres Arbeitsbereichs abgespielt wird, führt Sie Ihr Dozent durch diese Schritte:
Prepare the Google Colab for distributed data processing
Mounting our Google Drive into Google Colab environment
Importing first file of our Dataset (1 Gb) into pySpark dataframe
Applying some Queries to extract useful information out of our data
Importing second file of our Dataset (3 Mb) into pySpark dataframe
Joining two dataframes and prepapre it for more advanced queries
Learn visualizing our query results using matplotlib
Empfohlene Erfahrung
Learners should be familiar with Python programming Language, Spark Technology and have a little experience working with google colab environment
5 Projektbilder
Dozent
Was Sie beim Lernen erwartet
Auf Kompetenzen basierendes, praktisches Lernen
Üben Sie die Anwendung neuer Kompetenzen anhand von berufsbezogenen Aufgabenstellungen.
Anleitung durch Experten
Lernen Sie mit vorab von Experten aufgezeichneten Videos in einer einzigartigen aufgeteilten Oberfläche.
Keine Downloads oder Installation erforderlich
Greifen Sie in einem vordefinierten Cloud-Arbeitsbereich auf die Tools und Ressourcen zu.
Nur für Desktop verfügbar
Dieses begleitete Projekt ist für die Bearbeitung an einem Laptop oder Desktop-Computer mit stabiler Internetverbindung konzipiert und nicht für Mobilgeräte.
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Bewertungen von Lernenden
289 Bewertungen
- 5 stars
63,44 %
- 4 stars
24,13 %
- 3 stars
8,62 %
- 2 stars
1,72 %
- 1 star
2,06 %
Zeigt 3 von 289 an
Geprüft am 1. Nov. 2020
This course has help equip me with a lot of experience on data analysis and i really love it. Thank you Ahmad Varasteh.
Geprüft am 14. Nov. 2020
Best guided project for an introduction to the PySpark
Geprüft am 31. Okt. 2023
Great Course, appropriate to begin the journey with Pysparks
Ihnen könnte auch Folgendes gefallen:
Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Mit dem Kauf eines angeleiteten Projekts erhalten Sie alles, was Sie zum Abschließen des angeleiteten Projekts benötigen, einschließlich des Zugriffs auf einen Cloud-Desktop-Arbeitsbereich über Ihren Webbrowser, der die Dateien und Software enthält, die Sie für den Start benötigen, sowie schrittweise Videoanweisungen von einem Fachexperten.
Da Ihr Arbeitsbereich einen Cloud-Desktop enthält, der für einen Laptop oder Desktop-Computer ausgelegt ist, sind angeleitete Projekte auf Ihrem Mobilgerät nicht verfügbar.
Die Dozenten bei angeleiteten Projekten sind Fachexperten, die Erfahrung in den Fähigkeiten, Werkzeugen oder Bereichen der jeweiligen Projekte haben und leidenschaftlich daran interessiert sind, ihr Wissen weiterzugeben und so Millionen von Lernenden auf der ganzen Welt zu beeinflussen.