Les ingénieurs Big Data et les professionnels ayant des compétences NoSQL sont très recherchés dans l'industrie de la gestion des données. Cette Specializations est conçue pour ceux qui cherchent à développer des compétences fondamentales pour travailler avec le Big Data, Apache Spark et les bases de données NoSQL. Trois cours riches en informations couvrent les bases de données NoSQL populaires telles que MongoDB et Apache Cassandra, l'écosystème Apache Hadoop largement utilisé pour les outils Big Data, ainsi que le moteur analytique Apache Spark pour le traitement des données à grande échelle.
Vous commencerez par une vue d'ensemble des différentes catégories de référentiels de données NoSQL (pas seulement SQL), puis vous travaillerez sur plusieurs d'entre eux, notamment IBM Cloudant, MonogoDB et Cassandra. Vous effectuerez diverses tâches de gestion de données, telles que la création et la réplication de bases de données, l'insertion, la mise à jour, la suppression, l'interrogation, l'indexation, l'agrégation et le partage de données. Ensuite, vous acquerrez des connaissances fondamentales sur les technologies Big Data telles que Hadoop, MapReduce, HDFS, Hive et HBase, suivies d'une connaissance plus approfondie d'Apache Spark, Spark Dataframes, Spark SQL, PySpark, l'interface utilisateur de l'application Spark, et la mise à l'échelle de Spark avec Kubernetes. Dans le dernier cours, vous apprendrez à travailler avec Spark Structured Streaming Spark ML - pour effectuer des tâches d'extraction, de transformation et de chargement (ETL) et d'apprentissage automatique.
Cette spécialisation convient aux débutants dans les domaines du NoSQL et du Big Data - que vous soyez ou que vous vous prépariez à devenir un ingénieur de données, un développeur de logiciels, un architecte informatique, un scientifique des données ou un responsable informatique.
Projet d'apprentissage appliqué
L'accent dans cette spécialisation est mis sur l'apprentissage par la pratique. Ainsi, chaque cours comprend des laboratoires pratiques pour mettre en pratique et appliquer les compétences NoSQL et Big Data que vous apprenez pendant les cours magistraux.
Dans le premier cours, vous travaillerez avec plusieurs bases de données NoSQL - MongoDB, Apache Cassandra, et IBM Cloudant pour effectuer une variété de tâches : créer la base de données, ajouter des documents, interroger les données, utiliser l'API HTTP, effectuer des opérations de création, lecture, mise à jour et suppression (CRUD), limiter et trier les enregistrements, indexation, agrégation, réplication, utiliser l'interpréteur de commandes CQL, les opérations sur les espaces clés, et d'autres opérations sur les tables.
Dans le cours suivant, vous lancerez un cluster Hadoop à l'aide de Docker et exécuterez des tâches Map Reduce. Vous allez explorerez le travail avec Spark en utilisant les carnets Jupyter sur un noyau Python. Vous développerez vos compétences Spark en utilisant DataFrames, Spark SQL, et mettrez à l'échelle vos travaux en utilisant Kubernetes.
Dans le dernier cours, vous utiliserez Spark pour le traitement ETL et la formation et le déploiement de modèles d'apprentissage automatique à l'aide d'IBM Watson.