IBM
Einführung in Big Data mit Spark und Hadoop
IBM

Einführung in Big Data mit Spark und Hadoop

Dieser Kurs ist Teil mehrerer Programme.

Unterrichtet auf Englisch

Einige Inhalte können nicht übersetzt werden

Aije Egwaikhide
Romeo Kienzler
Rav Ahuja

Dozenten: Aije Egwaikhide

50.998 bereits angemeldet

Bei Coursera Plus enthalten

Kurs

Informieren Sie sich über ein Thema und erlernen Sie die Grundlagen.

4.4

(358 Bewertungen)

|

91%

Stufe Mittel

Empfohlene Erfahrung

18 Stunden (ungefähr)
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Erklären Sie die Auswirkungen von Big Data, einschließlich Anwendungsfällen, Tools und Verarbeitungsmethoden.

  • Beschreiben Sie die Architektur, das Ökosystem, die Praktiken und die benutzerbezogenen Anwendungen von Apache Hadoop, einschließlich Hive, HDFS, HBase, Spark und MapReduce.

  • Wenden Sie die Grundlagen der Spark-Programmierung an, einschließlich der Grundlagen der parallelen Programmierung für DataFrames, Datensätze und Spark SQL.

  • Verwenden Sie die RDDs und Datensätze von Spark, optimieren Sie Spark SQL mit Catalyst und Tungsten und nutzen Sie die Optionen der Entwicklungs- und Laufzeitumgebung von Spark.

Kompetenzen, die Sie erwerben

  • Kategorie: Big Data
  • Kategorie: SparkSQL
  • Kategorie: SparkML
  • Kategorie: Apache Hadoop
  • Kategorie: Apache Spark

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

14 Aufgaben

Kurs

Informieren Sie sich über ein Thema und erlernen Sie die Grundlagen.

4.4

(358 Bewertungen)

|

91%

Stufe Mittel

Empfohlene Erfahrung

18 Stunden (ungefähr)
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Platzhalter

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist als Teil verfügbar
Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.
  • Lernen Sie neue Konzepte von Branchenexperten
  • Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
  • Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
  • Erwerben Sie ein Berufszertifikat zur Vorlage
Platzhalter
Platzhalter

Erwerben Sie ein Karrierezertifikat.

Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.

Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.

Platzhalter

In diesem Kurs gibt es 7 Module

In diesem Modul beginnen Sie Ihren Wissenserwerb zu Big Data mit der aktuellsten Definition von Big Data. Sie werden die Auswirkungen von Big Data auf alltägliche persönliche Aufgaben und geschäftliche Transaktionen anhand von Big Data-Anwendungsfällen untersuchen. Außerdem erfahren Sie, wie Big Data parallele Verarbeitung, Skalierung und Datenparallelität nutzt. Darüber hinaus lernen Sie häufig verwendete Big Data-Tools kennen und erfahren, welche Rolle Open Source bei Big Data spielt. Schließlich werden Sie über den Hype hinausgehen und weitere Big-Data-Standpunkte erkunden.

Das ist alles enthalten

8 Videos1 Lektüre2 Aufgaben2 Plug-ins

In diesem Modul erhalten Sie ein grundlegendes Verständnis der Architektur, des Ökosystems, der Praktiken und der häufig verwendeten Anwendungen von Apache Hadoop, einschließlich des Distributed File System (HDFS), MapReduce, Hive und HBase. Darüber hinaus erwerben Sie in praktischen Übungen praktische Fähigkeiten, wenn Sie die mit Hive hinzugefügten Daten abfragen, einen Single-Node-Hadoop-Cluster mit Docker starten und MapReduce-Jobs ausführen.

Das ist alles enthalten

6 Videos1 Lektüre2 Aufgaben3 App-Elemente2 Plug-ins

In diesem Modul widmen Sie sich der beliebten Apache Spark-Plattform und lernen die Eigenschaften und Vorteile von Apache Spark und verteiltem Rechnen kennen. Sie erhalten wichtige Einblicke in die funktionale Programmierung und Lambda-Funktionen. Sie werden auch Resilient Distributed Datasets (RDDs), parallele Programmierung und Ausfallsicherheit in Apache Spark erkunden und RDDs und parallele Programmierung mit Apache Spark in Verbindung bringen. Dann tauchen Sie in weitere Apache Spark-Komponenten ein und erfahren, wie Apache Spark mit Big Data skaliert. Die Arbeit mit Big Data macht es erforderlich, mit Abfragen zu arbeiten, einschließlich strukturierter Abfragen mit SQL. Sie lernen auch die Funktionen, Teile und Vorteile von Spark SQL und DataFrame-Abfragen kennen und erfahren, wie DataFrames mit Spark SQL funktionieren.

Das ist alles enthalten

5 Videos1 Lektüre2 Aufgaben1 App-Element2 Plug-ins

In diesem Modul lernen Sie Resilient Distributed Datasets (RDDs), ihre Verwendung in Apache Spark sowie RDD-Transformationen und -Aktionen kennen. Sie vergleichen die Verwendung von Datasets mit der neuesten Datenabstraktion von Spark, DataFrames. Sie werden lernen, grundlegende DataFrame-Operationen zu identifizieren und anzuwenden. Sie lernen die Apache Spark SQL-Optimierung kennen und erfahren, wie Spark SQL und die Speicheroptimierung von der Verwendung von Catalyst und Tungsten profitieren. Abschließend vertiefen Sie Ihre Kenntnisse in einer geführten praktischen Übung zur Erstellung einer Tabellenansicht und zur Anwendung von Datenaggregationsverfahren.

Das ist alles enthalten

5 Videos1 Lektüre2 Aufgaben2 App-Elemente4 Plug-ins

In diesem Modul erfahren Sie, wie Spark die Anfragen verarbeitet, die Ihre Anwendung stellt, und wie Sie die Arbeit mit der Spark-Anwendungsschnittstelle verfolgen können. Da die Arbeit von Spark-Anwendungen auf dem Cluster stattfindet, müssen Sie die Apache Cluster Manager, ihre Komponenten und Vorteile kennen. Sie werden auch wissen, wie Sie sich mit jedem Clustermanager verbinden und wie und wann Sie eine lokale, eigenständige Spark-Instanz einrichten können. Als Nächstes lernen Sie die Einreichung von Apache Spark-Anwendungen kennen, einschließlich der Verwendung der einheitlichen Schnittstelle von Spark, "spark-submit", und erfahren mehr über Optionen und Abhängigkeiten. Sie werden auch Optionen für die Einreichung von Anwendungen beschreiben und anwenden, Techniken zur Verwaltung externer Anwendungsabhängigkeiten identifizieren und die Vorteile von Spark Shell auflisten. Sie werden sich auch mit den empfohlenen Praktiken für die statischen und dynamischen Konfigurationsoptionen von Spark befassen und praktische Übungen durchführen, um Apache Spark auf IBM Cloud zu verwenden und Spark auf Kubernetes auszuführen.

Das ist alles enthalten

6 Videos2 Lektüren3 Aufgaben2 App-Elemente4 Plug-ins

Plattformen und Anwendungen müssen überwacht und abgestimmt werden, um Probleme zu bewältigen, die unweigerlich auftreten. In diesem Modul lernen Sie, wie Sie den Webserver der Apache Spark-Benutzeroberfläche anschließen und denselben UI-Webserver zur Verwaltung von Anwendungsprozessen verwenden. Sie werden auch häufige Probleme mit Apache Spark-Anwendungen identifizieren und lernen, wie Sie Probleme mit der Benutzeroberfläche der Anwendung beheben und die entsprechenden Protokolldateien finden. Darüber hinaus lernen Sie im praktischen Labor, wie Spark Speicher- und Prozessorressourcen verwaltet, und erwerben praktische Kenntnisse darüber.

Das ist alles enthalten

5 Videos1 Lektüre2 Aufgaben1 App-Element3 Plug-ins

In diesem Modul führen Sie ein Praxislabor durch, in dem Sie zwei wichtige Aspekte der Datenverarbeitung mit Spark erkunden: die Arbeit mit Resilient Distributed Datasets (RDDs) und die Erstellung von DataFrames aus JSON-Daten. Sie werden auch verschiedene Transformationen und Aktionen auf RDDs und DataFrames anwenden, um Erkenntnisse zu gewinnen und die Daten effektiv zu bearbeiten. Außerdem wenden Sie Ihr Wissen in einem Abschlussprojekt an, in dem Sie einen DataFrame erstellen, indem Sie Daten aus einer CSV-Datei laden und mit Spark SQL Transformationen und Aktionen anwenden. Abschließend werden Sie auf der Grundlage Ihrer Kenntnisse aus dem Kurs bewertet.

Das ist alles enthalten

3 Lektüren1 Aufgabe2 App-Elemente2 Plug-ins

Dozenten

Lehrkraftbewertungen
4.3 (87 Bewertungen)
Aije Egwaikhide
IBM
6 Kurse629.286 Lernende
Romeo Kienzler
IBM
10 Kurse682.183 Lernende
Rav Ahuja
IBM
52 Kurse2.838.251 Lernende

von

IBM

Empfohlen, wenn Sie sich für Datenmanagement interessieren

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

Zeigt 3 von 358

4.4

358 Bewertungen

  • 5 stars

    65,37 %

  • 4 stars

    18,83 %

  • 3 stars

    8,58 %

  • 2 stars

    3,32 %

  • 1 star

    3,87 %

JO
5

Geprüft am 7. Juni 2024

CS
5

Geprüft am 27. Okt. 2022

JS
4

Geprüft am 1. Mai 2022

Platzhalter

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu über 7.000 erstklassigen Kursen, praktischen Projekten und Zertifikatsprogrammen, die Sie auf den Beruf vorbereiten – alles in Ihrem Abonnement enthalten

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Häufig gestellte Fragen