Big Data-Ingenieure und Fachleute mit NoSQL-Kenntnissen sind in der Datenverwaltungsbranche sehr gefragt. Diese Specialization richtet sich an diejenigen, die grundlegende Fähigkeiten für die Arbeit mit Big Data, Apache Spark und NoSQL-Datenbanken entwickeln möchten. In drei informationsreichen Kursen werden beliebte NoSQL-Datenbanken wie MongoDB und Apache Cassandra, das weit verbreitete Apache Hadoop-Ökosystem von Big Data-Tools sowie die Apache Spark-Analyse-Engine für die Verarbeitung großer Datenmengen behandelt.
Sie beginnen mit einem Überblick über die verschiedenen Kategorien von NoSQL-Datenspeichern (nicht nur SQL) und arbeiten dann praktisch mit mehreren von ihnen, darunter IBM Cloudant, MonogoDB und Cassandra. Sie führen verschiedene Datenverwaltungsaufgaben durch, wie z.B. das Erstellen und Replizieren von Datenbanken, Einfügen, Aktualisieren, Löschen, Abfragen, Indizieren, Aggregieren und Sharding von Daten. Als Nächstes erwerben Sie grundlegende Kenntnisse über Big-Data-Technologien wie Hadoop, MapReduce, HDFS, Hive und HBase, gefolgt von tiefer gehenden Kenntnissen über Apache Spark, Spark Dataframes, Spark SQL, PySpark, die Spark Application UI und die Skalierung von Spark mit Kubernetes. Im letzten Kurs lernen Sie die Arbeit mit Spark Structured Streaming Spark ML - für die Durchführung von Extract-, Transform- und Load-Verarbeitung (ETL) und maschinellen Lernaufgaben.
Diese Spezialisierung eignet sich für Anfänger in den Bereichen NoSQL und Big Data - egal ob Sie Dateningenieur, Softwareentwickler, IT-Architekt, Datenwissenschaftler oder IT-Manager sind oder sich darauf vorbereiten.
Praktisches Lernprojekt
Bei dieser Specialization liegt der Schwerpunkt auf dem Lernen durch Handeln. Daher umfasst jeder Kurs praktische Übungen, in denen Sie die in den Vorlesungen erlernten NoSQL- und Big Data-Kenntnisse anwenden können.
Im ersten Kurs arbeiten Sie praktisch mit verschiedenen NoSQL-Datenbanken - MongoDB, Apache Cassandra und IBM Cloudant - und führen eine Vielzahl von Aufgaben aus: Erstellen der Datenbank, Hinzufügen von Dokumenten, Abfragen von Daten, Nutzung der HTTP-API, Ausführen von Create, Read, Update & Delete (CRUD) Operationen, Einschränken und Sortieren von Datensätzen, Indizierung, Aggregation, Replikation, Verwendung der CQL-Shell, Keyspace-Operationen und andere Tabellenoperationen.
Im nächsten Kurs starten Sie einen Hadoop-Cluster mit Docker und führen Map Reduce-Aufträge aus. Sie werden erkunden Sie die Arbeit mit Spark mithilfe von Jupyter-Notebooks auf einem Python-Kernel. Sie bauen Ihre Spark-Kenntnisse mit DataFrames und Spark SQL aus und skalieren Ihre Aufträge mit Kubernetes.
Im letzten Kurs werden Sie Spark für die ETL-Verarbeitung und das Training und die Bereitstellung von Machine Learning-Modellen mit IBM Watson verwenden.