Willkommen zum Kurs Cloud Computing Applications, dem zweiten Teil einer zweigeteilten Kursreihe, die Ihnen einen umfassenden Einblick in die Welt des Cloud Computing und Big Data geben soll! In diesem zweiten Kurs setzen wir Cloud Computing Applications fort, indem wir untersuchen, wie die Cloud die Datenanalyse riesiger Datenmengen ermöglicht, die statisch sind oder mit hoher Geschwindigkeit gestreamt werden und eine enorme Vielfalt an Informationen darstellen. Cloud-Anwendungen und Datenanalysen stellen einen grundlegenden Wandel in der Art und Weise dar, wie die Gesellschaft mit Informationen umgeht und diese nutzt. Zu Beginn der ersten Woche stellen wir einige wichtige Systeme für die Datenanalyse vor, darunter Spark und die wichtigsten Frameworks und Distributionen von Analyseanwendungen wie Hortonworks, Cloudera und MapR. In der Mitte der ersten Woche stellen wir das verteilte und robuste Dateisystem HDFS vor, das in vielen Anwendungen wie Hadoop zum Einsatz kommt. Zum Abschluss der ersten Woche erkunden wir das leistungsstarke MapReduce-Programmiermodell und wie verteilte Betriebssysteme wie YARN und Mesos eine flexible und skalierbare Umgebung für Big Data-Analysen unterstützen. In Woche zwei führt unser Kurs in die Datenspeicherung in großem Maßstab ein und erläutert die Schwierigkeiten und Probleme der Konsistenz in riesigen Speichern, die Unmengen von Prozessoren, Speichern und Festplatten verwenden. Wir besprechen eventuelle Konsistenz, ACID und BASE sowie die in Rechenzentren verwendeten Konsensalgorithmen wie Paxos und Zookeeper. Unser Kurs stellt verteilte Key-Value Stores und In-Memory-Datenbanken wie Redis vor, die in Rechenzentren zur Leistungssteigerung eingesetzt werden. Als nächstes stellen wir NOSQL-Datenbanken vor. Wir besuchen HBase, die skalierbare Datenbank mit geringer Latenz, die Datenbankoperationen in Anwendungen unterstützt, die Hadoop verwenden. Dann zeigen wir erneut, wie Spark SQL SQL-Abfragen auf großen Datenmengen programmieren kann. Wir beenden Woche zwei mit einer Präsentation über verteilte Publish/Subscribe-Systeme unter Verwendung von Kafka, einem verteilten Log-Messaging-System, das bei der Verbindung von Big Data- und Streaming-Anwendungen zu komplexen Systemen breite Anwendung findet. In Woche drei widmen wir uns dem Streaming schneller Daten in Echtzeit und stellen die Storm-Technologie vor, die in Branchen wie Yahoo weit verbreitet ist. Weiter geht es mit Spark Streaming, Lambda- und Kappa-Architekturen und einer Präsentation des Streaming Ecosystems. Woche vier konzentriert sich auf Graph Processing, Machine Learning und Deep Learning. Wir stellen die Ideen der Graphenverarbeitung vor und präsentieren Pregel, Giraph und Spark GraphX. Dann kommen wir zum maschinellen Lernen mit Beispielen aus Mahout und Spark. Kmeans, Naive Bayes und fpm werden als Beispiele vorgestellt. Spark ML und Mllib setzen das Thema der Programmierbarkeit und Anwendungskonstruktion fort. Das letzte Thema, das wir in Woche vier behandeln, stellt Deep Learning-Technologien wie Theano, Tensor Flow, CNTK, MXnet und Caffe auf Spark vor.