Die Bearbeitung von großen Datenmengen, die über einen Cluster verteilt sind, mit funktionalen Konzepten ist in der Industrie weit verbreitet und stellt wohl eine der ersten weit verbreiteten industriellen Anwendungen funktionaler Ideen dar. Dies zeigt sich an der Popularität von MapReduce und Hadoop und seit kurzem auch von Apache Spark, einem schnellen, in Scala geschriebenen Framework für verteilte In-Memory-Sammlungen. In diesem Kurs werden wir sehen, wie das Paradigma der Datenparallelität auf den verteilten Fall ausgeweitet werden kann, wobei Spark durchgehend verwendet wird. Wir werden das Programmiermodell von Spark im Detail behandeln und dabei darauf achten, wie und wann es sich von bekannten Programmiermodellen wie parallelen Sammlungen mit gemeinsamem Speicher oder sequenziellen Scala-Sammlungen unterscheidet. Anhand von praktischen Beispielen in Spark und Scala lernen wir, wann wichtige Verteilungsfragen wie Latenz und Netzwerkkommunikation berücksichtigt werden sollten und wie sie für eine verbesserte Leistung effektiv angegangen werden können. Lernergebnisse. Am Ende dieses Kurses werden Sie in der Lage sein: - Daten aus persistenten Speichern zu lesen und in Apache Spark zu laden, - Daten mit Spark und Scala zu manipulieren, - Algorithmen für die Datenanalyse in einem funktionalen Stil auszudrücken, - zu erkennen, wie man Shuffles und Neuberechnungen in Spark vermeidet, Empfohlener Hintergrund: Sie sollten mindestens ein Jahr Programmiererfahrung haben. Ideal sind Java- oder C#-Kenntnisse, aber auch Erfahrungen mit anderen Sprachen wie C/C++, Python, Javascript oder Ruby sind ausreichend. Sie sollten mit der Kommandozeile etwas vertraut sein. Dieser Kurs sollte nach dem Kurs Parallele Programmierung: https://www.coursera.org/learn/parprog1 belegt werden.
Big Data-Analyse mit Scala und Spark
Dieser Kurs ist Teil von Spezialisierung Funktionale Programmierung in Scala
Dozent: Prof. Heather Miller
100.690 bereits angemeldet
Bei enthalten
(2,586 Bewertungen)
Kompetenzen, die Sie erwerben
- Kategorie: Scala Programmierung
- Kategorie: Big Data
- Kategorie: SQL
- Kategorie: Apache Spark
Wichtige Details
Zu Ihrem LinkedIn-Profil hinzufügen
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Erweitern Sie Ihre Fachkenntnisse
- Lernen Sie neue Konzepte von Branchenexperten
- Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
- Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
- Erwerben Sie ein Berufszertifikat zur Vorlage
Erwerben Sie ein Karrierezertifikat.
Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.
Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.
In diesem Kurs gibt es 4 Module
Machen Sie sich mit Scala auf Ihrem Computer vertraut. Erledigen Sie eine Beispielaufgabe, um sich mit unserer einzigartigen Art und Weise, Aufgaben einzureichen, vertraut zu machen. In dieser Woche schlagen wir eine Brücke zwischen der Datenparallelität im Szenario des gemeinsamen Speichers (gelernt im Kurs Parallele Programmierung, Voraussetzung) und dem verteilten Szenario. Wir befassen uns mit wichtigen Problemen, die in verteilten Systemen auftreten, wie Latenz und Ausfall. Anschließend werden wir uns mit den Grundlagen von Spark beschäftigen, einem funktionsorientierten Framework für die Verarbeitung großer Datenmengen in Scala. Zum Abschluss der ersten Woche üben wir, was wir über Spark gelernt haben, indem wir uns sofort die Hände schmutzig machen und einen realen Datensatz analysieren.
Das ist alles enthalten
7 Videos7 Lektüren3 Programmieraufgaben
Diese Woche befassen wir uns mit einer speziellen Art von RDD, den sogenannten Paar-RDDs. Mit dieser speziellen Art von RDDs in der Hand werden wir wesentliche Operationen mit großen Datensätzen, wie Reduktionen und Joins, behandeln.
Das ist alles enthalten
4 Videos2 Programmieraufgaben
Diese Woche befassen wir uns mit den Auswirkungen der Verwendung von Operationen wie Joins auf die Leistung. Ist es möglich, das gleiche Ergebnis zu erzielen, ohne für den Overhead der Datenübertragung über das Netzwerk zu bezahlen? Wir werden diese Frage beantworten, indem wir untersuchen, wie wir unsere Daten partitionieren können, um eine bessere Datenlokalisierung zu erreichen und so einige unserer Spark-Jobs zu optimieren.
Das ist alles enthalten
4 Videos
Mit unserem neu gewonnenen Verständnis für die Kosten der Datenbewegung in einem Spark-Auftrag und einigen Erfahrungen mit der Optimierung von Aufträgen für die Datenlokalität in der letzten Woche, werden wir uns diese Woche darauf konzentrieren, wie wir ähnliche Optimierungen einfacher erreichen können. Können uns strukturierte Daten helfen? Wir werden uns Spark SQL und seinen leistungsstarken Optimierer ansehen, der die Struktur nutzt, um beeindruckende Optimierungen durchzuführen. Anschließend werden wir uns mit DataFrames und Datasets beschäftigen, die uns eine Möglichkeit bieten, RDDs mit den leistungsstarken automatischen Optimierungen hinter Spark SQL zu kombinieren.
Das ist alles enthalten
5 Videos2 Programmieraufgaben
Dozent
Empfohlen, wenn Sie sich für Algorithmen interessieren
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Bewertungen von Lernenden
Zeigt 3 von 2586
2.586 Bewertungen
- 5 stars
72,96 %
- 4 stars
21,07 %
- 3 stars
4,44 %
- 2 stars
0,65 %
- 1 star
0,85 %
Geprüft am 8. Apr. 2017
Geprüft am 31. März 2017
Geprüft am 7. Juni 2017
Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu über 7.000 erstklassigen Kursen, praktischen Projekten und Zertifikatsprogrammen, die Sie auf den Beruf vorbereiten – alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:
Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Specializations, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.
Wenn Sie ein Abonnement abgeschlossen haben, erhalten Sie eine kostenlose 7-tägige Testphase, in der Sie kostenlos kündigen können. Danach gewähren wir keine Rückerstattung, aber Sie können Ihr Abonnement jederzeit kündigen. Siehe unsere vollständigen Rückerstattungsbedingungen.