Bienvenue dans le cours Applications de l'informatique en nuage, deuxième partie d'une série de deux cours conçus pour vous donner une vue d'ensemble du monde de l'informatique en nuage et du Big Data ! Dans ce deuxième cours, nous poursuivons les applications de l'informatique en nuage en explorant comment l'informatique en nuage ouvre la voie à l'analyse des données d'énormes volumes de données statiques ou diffusées à grande vitesse et représentant une énorme variété d'informations. Les applications de l'informatique en nuage et l'analyse des données représentent un changement radical dans la manière dont la société est informée et utilise l'information. Nous commençons la première semaine en présentant quelques systèmes majeurs pour l'analyse des données, notamment Spark et les principaux cadres et distributions d'applications analytiques, notamment Hortonworks, Cloudera et MapR. Au milieu de la première semaine, nous présentons le système de fichiers distribué et robuste HDFS qui est utilisé dans de nombreuses applications comme Hadoop et nous terminons la première semaine en explorant le puissant modèle de programmation MapReduce et la façon dont les systèmes d'exploitation distribués comme YARN et Mesos supportent un environnement flexible et évolutif pour l'analyse des Big Data. Au cours de la deuxième semaine, notre cours présente le stockage de données à grande échelle et les difficultés et problèmes de consensus dans d'énormes magasins qui utilisent des quantités de processeurs, de mémoires et de disques. Nous discutons de la cohérence éventuelle, ACID, et BASE et des algorithmes de consensus utilisés dans les centres de données, y compris Paxos et Zookeeper. Notre cours présente les Distributed Key-Value Stores et les bases de données en mémoire comme Redis utilisées dans les centres de données pour la performance. Nous présentons ensuite les bases de données NOSQL. Nous visitons HBase, la base de données évolutive et à faible latence qui prend en charge les opérations de base de données dans les applications qui utilisent Hadoop. Enfin, nous montrons comment Spark SQL peut programmer des requêtes SQL sur des données volumineuses. Nous terminons la deuxième semaine par une présentation sur les systèmes distribués de publication/abonnement utilisant Kafka, un système de messagerie distribué qui est largement utilisé pour connecter les Big Data et les applications de streaming afin de former des systèmes complexes. La troisième semaine est consacrée au streaming de données rapides en temps réel et présente la technologie Storm, largement utilisée dans des secteurs tels que Yahoo. Nous poursuivons avec Spark Streaming, les architectures Lambda et Kappa, et une présentation de l'écosystème de streaming. La quatrième semaine est consacrée au traitement des graphes, à l'apprentissage automatique et à l'apprentissage profond. Nous introduisons les idées de traitement des graphes et présentons Pregel, Giraph et Spark GraphX. Nous passons ensuite à l'apprentissage automatique avec des exemples tirés de Mahout et de Spark. Kmeans, Naive Bayes et fpm sont donnés en exemple. Spark ML et Mllib poursuivent le thème de la programmabilité et de la construction d'applications. Le dernier sujet abordé au cours de la quatrième semaine présente les technologies d'apprentissage profond (Deep Learning), notamment Theano, Tensor Flow, CNTK, MXnet et Caffe sur Spark.