Die Bearbeitung von großen Datenmengen, die über einen Cluster verteilt sind, mit funktionalen Konzepten ist in der Industrie weit verbreitet und stellt wohl eine der ersten weit verbreiteten industriellen Anwendungen funktionaler Ideen dar. Dies zeigt sich an der Popularität von MapReduce und Hadoop und seit kurzem auch von Apache Spark, einem schnellen, in Scala geschriebenen Framework für verteilte In-Memory-Sammlungen. In diesem Kurs werden wir sehen, wie das Paradigma der Datenparallelität auf den verteilten Fall ausgeweitet werden kann, wobei Spark durchgehend verwendet wird. Wir werden das Programmiermodell von Spark im Detail behandeln und dabei darauf achten, wie und wann es sich von bekannten Programmiermodellen wie parallelen Sammlungen mit gemeinsamem Speicher oder sequenziellen Scala-Sammlungen unterscheidet. Anhand von praktischen Beispielen in Spark und Scala lernen wir, wann wichtige Verteilungsfragen wie Latenz und Netzwerkkommunikation berücksichtigt werden sollten und wie sie für eine verbesserte Leistung effektiv angegangen werden können. Lernergebnisse. Am Ende dieses Kurses werden Sie in der Lage sein: - Daten aus persistenten Speichern zu lesen und in Apache Spark zu laden, - Daten mit Spark und Scala zu manipulieren, - Algorithmen für die Datenanalyse in einem funktionalen Stil auszudrücken, - zu erkennen, wie man Shuffles und Neuberechnungen in Spark vermeidet, Empfohlener Hintergrund: Sie sollten mindestens ein Jahr Programmiererfahrung haben. Ideal sind Java- oder C#-Kenntnisse, aber auch Erfahrungen mit anderen Sprachen wie C/C++, Python, Javascript oder Ruby sind ausreichend. Sie sollten mit der Kommandozeile etwas vertraut sein. Dieser Kurs sollte nach dem Kurs Parallele Programmierung: https://www.coursera.org/learn/parprog1 belegt werden. Beachten Sie, dass diese Version des Kurses Scala 2.13 verwendet. Eine aktuellere Version des Kurses, die Scala 3 verwendet, finden Sie hier: https://www.coursera.org/learn/scala-spark-big-data
Big Data-Analyse mit Scala und Spark (Version Scala 2)
Dozent: Prof. Heather Miller
2.275 bereits angemeldet
Bei enthalten
Kompetenzen, die Sie erwerben
- Kategorie: Scala Programmierung
- Kategorie: Big Data
- Kategorie: SQL
- Kategorie: Apache Spark
Wichtige Details
Zu Ihrem LinkedIn-Profil hinzufügen
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Erwerben Sie ein Karrierezertifikat.
Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.
Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.
In diesem Kurs gibt es 4 Module
Machen Sie sich mit Scala auf Ihrem Computer vertraut. Erledigen Sie eine Beispielaufgabe, um sich mit unserer einzigartigen Art und Weise, Aufgaben einzureichen, vertraut zu machen. In dieser Woche schlagen wir eine Brücke zwischen der Datenparallelität im Szenario des gemeinsamen Speichers (gelernt im Kurs Parallele Programmierung, Voraussetzung) und dem verteilten Szenario. Wir befassen uns mit wichtigen Problemen, die in verteilten Systemen auftreten, wie Latenz und Ausfall. Anschließend werden wir uns mit den Grundlagen von Spark beschäftigen, einem funktionsorientierten Framework für die Verarbeitung großer Datenmengen in Scala. Zum Abschluss der ersten Woche üben wir, was wir über Spark gelernt haben, indem wir uns sofort die Hände schmutzig machen und einen realen Datensatz analysieren.
Das ist alles enthalten
7 Videos6 Lektüren3 Programmieraufgaben
Diese Woche befassen wir uns mit einer speziellen Art von RDD, den sogenannten Paar-RDDs. Mit dieser speziellen Art von RDDs in der Hand werden wir wesentliche Operationen mit großen Datensätzen, wie Reduktionen und Joins, behandeln.
Das ist alles enthalten
4 Videos2 Programmieraufgaben
Diese Woche befassen wir uns mit den Auswirkungen der Verwendung von Operationen wie Joins auf die Leistung. Ist es möglich, das gleiche Ergebnis zu erzielen, ohne für den Overhead der Datenübertragung über das Netzwerk zu bezahlen? Wir werden diese Frage beantworten, indem wir untersuchen, wie wir unsere Daten partitionieren können, um eine bessere Datenlokalisierung zu erreichen und so einige unserer Spark-Jobs zu optimieren.
Das ist alles enthalten
4 Videos
Mit unserem neu gewonnenen Verständnis für die Kosten der Datenbewegung in einem Spark-Auftrag und einigen Erfahrungen mit der Optimierung von Aufträgen für die Datenlokalität in der letzten Woche, werden wir uns diese Woche darauf konzentrieren, wie wir ähnliche Optimierungen einfacher erreichen können. Können uns strukturierte Daten helfen? Wir werden uns Spark SQL und seinen leistungsstarken Optimierer ansehen, der die Struktur nutzt, um beeindruckende Optimierungen durchzuführen. Anschließend werden wir uns mit DataFrames und Datasets beschäftigen, die uns eine Möglichkeit bieten, RDDs mit den leistungsstarken automatischen Optimierungen hinter Spark SQL zu kombinieren.
Das ist alles enthalten
5 Videos2 Programmieraufgaben
Dozent
Empfohlen, wenn Sie sich für Algorithmen interessieren
École Polytechnique Fédérale de Lausanne
Coursera Project Network
University of California San Diego
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:
Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Wenn Sie ein Zertifikat erwerben, erhalten Sie Zugang zu allen Kursmaterialien, einschließlich der benoteten Aufgaben. Nach Abschluss des Kurses wird Ihr elektronisches Zertifikat zu Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.
Sie haben Anspruch auf eine vollständige Rückerstattung bis zwei Wochen nach Ihrem Zahlungsdatum oder (bei Kursen, die gerade erst begonnen haben) bis zwei Wochen nach Beginn der ersten Sitzung des Kurses, je nachdem, welcher Zeitpunkt später liegt. Sie können keine Rückerstattung erhalten, sobald Sie ein Kurszertifikat erworben haben, auch wenn Sie den Kurs innerhalb der zweiwöchigen Rückerstattungsfrist abschließen. Siehe unsere vollständigen Rückerstattungsbedingungen.