Remarque : Vous devez avoir terminé tous les autres cours de cette spécialisation avant de commencer ce cours. Ce cours projet de six semaines de la spécialisation Data Mining vous permettra d'appliquer les algorithmes et les techniques d'exploration de données appris dans les cours précédents de la spécialisation, y compris la découverte de motifs, le clustering, la récupération de texte, l'exploration de texte et la visualisation, pour résoudre des défis intéressants d'exploration de données dans le monde réel. Plus précisément, vous travaillerez sur un ensemble de données de critiques de restaurants provenant de Yelp et utiliserez toutes les connaissances et compétences que vous avez acquises dans les cours précédents pour explorer cet ensemble de données afin de découvrir des connaissances intéressantes et utiles. La conception du projet met l'accent sur : 1) la simulation du flux de travail d'un mineur de données dans un contexte professionnel réel ; 2) l'intégration de différentes techniques d'exploration couvertes dans plusieurs cours individuels ; 3) l'expérimentation de différentes façons de résoudre un problème pour approfondir votre compréhension des techniques ; et 4) la possibilité de proposer et d'explorer vos propres idées de manière créative.
L'objectif du projet est d'analyser et d'exploiter un vaste ensemble de données d'évaluation de Yelp afin de découvrir des connaissances utiles pour aider les gens à prendre des décisions en matière de restauration. Le projet comprendra les résultats suivants :
1. Visualisation des avis : explorer et visualiser le contenu des avis pour comprendre ce que les gens ont dit dans ces avis. 2. Construction d'une carte des cuisines : exploiter l'ensemble des données pour comprendre le paysage des différents types de cuisines et leurs similitudes. 3. Découverte des plats populaires d'une cuisine : exploitez l'ensemble des données pour découvrir les plats communs/populaires d'une cuisine particulière. 4. Recommandation de restaurants pour aider les gens à décider où dîner : exploiter l'ensemble des données pour classer les restaurants pour un plat spécifique et prédire les conditions d'hygiène d'un restaurant. Du point de vue des utilisateurs, une carte des cuisines peut les aider à comprendre quelles cuisines existent et à avoir une vue d'ensemble de tous les types de cuisines et de leurs relations. Une fois qu'ils ont décidé de la cuisine à essayer, ils aimeraient connaître les plats les plus populaires de cette cuisine et décider des plats à prendre. Enfin, ils devront choisir un restaurant. Il serait donc utile de recommander des restaurants en fonction d'un plat particulier. En outre, prévoir les conditions d'hygiène d'un restaurant serait également utile.
En travaillant sur ces tâches, vous acquerrez de l'expérience avec un flux de travail typique dans l'exploration de données qui comprend le prétraitement des données, l'exploration des données, l'analyse des données, l'amélioration des méthodes d'analyse et la présentation des résultats. Vous aurez l'occasion de combiner plusieurs algorithmes issus de différents cours pour mener à bien une tâche d'exploration relativement complexe et d'expérimenter différentes manières de résoudre un problème afin de comprendre la meilleure façon de le résoudre. Nous vous suggérerons des approches spécifiques, mais nous vous encourageons vivement à explorer vos propres idées puisque l'exploration libre est, par conception, un objectif du projet.
Vous devez soumettre un bref rapport pour chacune des tâches afin qu'il soit évalué par vos pairs. Un rapport final consolidé est également requis, qui sera noté par les pairs.