Dieser Kurs vermittelt Ihnen die Fähigkeiten zur Skalierung von Data Science- und Machine Learning (ML)-Aufgaben auf Big Data-Sets mit Apache Spark. Die meisten realen Aufgaben des maschinellen Lernens umfassen sehr große Datensätze, die die Grenzen von CPU, Arbeitsspeicher und Speicherplatz eines einzelnen Computers sprengen.
Apache Spark ist ein Open-Source-Framework, das Cluster-Computing und verteilten Speicher nutzt, um extrem große Datensätze auf effiziente und kostengünstige Weise zu verarbeiten. Nach Abschluss dieses Kurses werden Sie in der Lage sein: - ein praktisches Verständnis von Apache Spark zu erlangen und es anzuwenden, um Probleme des maschinellen Lernens zu lösen, die sowohl kleine als auch große Datenmengen betreffen - zu verstehen, wie paralleler Code geschrieben wird, der auf Tausenden von CPUs laufen kann. - die Nutzung von großen Rechenclustern, um Algorithmen für maschinelles Lernen auf Petabytes von Daten mit Apache SparkML Pipelines anzuwenden. - tausende von verschiedenen ML-Modellen parallel zu testen, um das beste Modell zu finden - eine Technik, die von vielen erfolgreichen Kagglern verwendet wird - (optional) SQL-Anweisungen auf sehr großen Datensätzen mit Apache SparkSQL und der Apache Spark DataFrame API auszuführen. Melden Sie sich jetzt an, um die Techniken des maschinellen Lernens für die Arbeit mit Big Data zu erlernen, die von Unternehmen wie Alibaba, Apple, Amazon, Baidu, eBay, IBM, NASA, Samsung, SAP, TripAdvisor, Yahoo! erfolgreich eingesetzt werden, Zalando und viele andere. HINWEIS: Während des Kurses üben Sie die praktische Ausführung von Machine Learning-Aufgaben auf einem Apache Spark-Cluster, der Ihnen von IBM kostenlos zur Verfügung gestellt wird und den Sie anschließend weiter nutzen können. Voraussetzungen: - Grundkenntnisse der Python-Programmierung - Grundkenntnisse des maschinellen Lernens (optionale Einführungsvideos sind ebenfalls in diesem Kurs enthalten) - Grundkenntnisse in SQL für optionale Inhalte Die folgenden Kurse werden vor der Teilnahme an diesem Kurs empfohlen (sofern Sie nicht bereits über die entsprechenden Kenntnisse verfügen) https://www.coursera.org/learn/python-for-applied-data-science oder ähnlich https://www.coursera.org/learn/machine-learning-with-python oder ähnlich https://www.coursera.org/learn/sql-data-science für optionale Vorlesungen