Vous souhaitez approfondir vos connaissances sur le paysage des Big Data ? Ce cours s'adresse aux personnes qui découvrent la science des données et qui souhaitent comprendre les raisons de l'avènement de l'ère des Big Data. Il s'adresse à ceux qui veulent se familiariser avec la terminologie et les concepts fondamentaux qui sous-tendent les problèmes, les applications et les systèmes liés aux Big Data. Il s'adresse à ceux qui veulent commencer à réfléchir à la manière dont les Big Data pourraient être utiles à leur entreprise ou à leur carrière. Il fournit une introduction à l'un des cadres les plus courants, Hadoop, qui a rendu l'analyse des Big Data plus facile et plus accessible - augmentant le potentiel des données pour transformer notre monde ! À la fin de ce cours, vous serez en mesure de : * Décrire le paysage des Big Data, y compris des exemples de problèmes de Big Data dans le monde réel, y compris les trois sources clés de Big Data : les personnes, les organisations et les capteurs.
* Expliquer les V du Big Data (volume, vélocité, variété, véracité, valence et valeur) et pourquoi chacun a un impact sur la collecte, le contrôle, le stockage, l'analyse et le reporting des données * Obtenir de la valeur à partir du Big Data en utilisant un processus en 5 étapes pour structurer votre analyse.
* Identifier ce qui est et ce qui n'est pas un problème de big data et être capable de reformuler les problèmes de big data en questions de science des données * Fournir une explication des composants architecturaux et des modèles de programmation utilisés pour l'analyse de big data évolutive * Résumer les caractéristiques et la valeur des principaux composants de la pile Hadoop, y compris le système de gestion des ressources et des tâches YARN, le système de fichiers HDFS et le modèle de programmation MapReduce * Installer et exécuter un programme en utilisant Hadoop ! Ce cours s'adresse à ceux qui débutent dans la science des données. Aucune expérience préalable en programmation n'est nécessaire, bien que la capacité d'installer des applications et d'utiliser une machine virtuelle soit nécessaire pour réaliser les travaux pratiques.
Matériel requis : (A) Processeur Quad Core (support VT-x ou AMD-V recommandé), 64-bit ; (B) 8 GB RAM ; (C) 20 GB de disque libre. Comment trouver les informations sur votre matériel : (Windows) : Ouvrez Système en cliquant sur le bouton Démarrer, en faisant un clic droit sur Ordinateur, puis en cliquant sur Propriétés ; (Mac) : Ouvrez Vue d'ensemble en cliquant sur le menu Pomme et en cliquant sur "À propos de ce Mac" La plupart des ordinateurs dotés de 8 Go de mémoire vive et achetés au cours des trois dernières années répondent aux exigences minimales. Vous aurez besoin d'une connexion internet à haut débit car vous devrez télécharger des fichiers d'une taille pouvant atteindre 4 Go.
Logiciels requis : Ce cours s'appuie sur plusieurs logiciels libres, dont Apache Hadoop. Tous les logiciels requis peuvent être téléchargés et installés gratuitement. La configuration logicielle requise est la suivante : Windows 7+, Mac OS X 10.10+, Ubuntu 14.04+ ou CentOS 6+ VirtualBox 5+.