Ce cours IBM autodidacte vous apprendra tout sur les big data ! Vous vous familiariserez avec les caractéristiques des big data et leur application dans l'analyse des big data. Vous acquerrez également une expérience pratique avec des outils de traitement des big data comme Apache Hadoop et Apache Spark.
Bernard Marr définit le big data comme la trace numérique que nous générons dans cette ère numérique. Vous commencerez le cours en comprenant ce qu'est le big data et en explorant comment les informations issues du big data peuvent être exploitées pour une variété de cas d'utilisation. Vous découvrirez également comment le big data utilise des technologies telles que le traitement parallèle, la mise à l'échelle et le parallélisme des données. Ensuite, vous découvrirez Hadoop, un cadre open-source qui permet le traitement distribué de données volumineuses, ainsi que son écosystème. Vous découvrirez des applications importantes qui vont de pair avec Hadoop, comme le système de fichiers distribués (HDFS), MapReduce et HBase. Vous vous familiariserez avec Hive, un logiciel d'entrepôt de données qui fournit une interface de type SQL pour interroger et manipuler efficacement de grands ensembles de données. Vous découvrirez ensuite Apache Spark, un moteur de traitement open-source qui offre aux utilisateurs de nouvelles façons de stocker et d'utiliser les données volumineuses. Dans ce cours, vous découvrirez comment tirer parti de Spark pour obtenir des informations fiables. Le cours fournit une vue d'ensemble de la plateforme, en passant en revue les composants qui constituent Apache Spark. Vous découvrirez les DataFrames et effectuerez des opérations de base sur les DataFrames et travaillerez avec SparkSQL. Vous découvrirez comment Spark traite et surveille les requêtes que votre application soumet et comment vous pouvez suivre le travail en utilisant l'interface utilisateur de l'application Spark. Ce cours comporte plusieurs travaux pratiques pour vous aider à appliquer et à mettre en pratique les concepts que vous apprenez. Vous effectuerez des travaux pratiques sur Hadoop et Spark en utilisant divers outils et technologies, y compris Docker, Kubernetes, Python et Jupyter Notebooks.