Études de cas : Recherche de documents similaires Un lecteur s'intéresse à un article de presse spécifique et vous souhaitez trouver des articles similaires à lui recommander. Quelle est la bonne notion de similarité ? En outre, que se passe-t-il s'il existe des millions d'autres documents ? Chaque fois que vous souhaitez récupérer un nouveau document, devez-vous effectuer une recherche dans tous les autres documents ? Comment regrouper les documents similaires ? Comment découvrir de nouveaux sujets émergents couverts par les documents ?
Apprentissage automatique : Clustering & Retrieval
Ce cours fait partie de Spécialisation Apprentissage automatique
Instructeurs : Emily Fox
98 920 déjà inscrits
Inclus avec
(2,358 avis)
Compétences que vous acquerrez
- Catégorie : Algorithmes de regroupement de données
- Catégorie : Regroupement K-Means
- Catégorie : Apprentissage automatique
- Catégorie : K-D Tree
Détails à connaître
Ajouter à votre profil LinkedIn
15 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 6 modules dans ce cours
Le clustering et la récupération sont parmi les outils d'apprentissage automatique qui ont le plus d'impact. L'extraction est utilisée dans presque toutes les applications et tous les appareils avec lesquels nous interagissons, par exemple pour fournir un ensemble de produits liés à celui qu'un acheteur est en train d'envisager, ou une liste de personnes avec lesquelles vous pourriez vouloir vous connecter sur une plateforme de médias sociaux. Le clustering peut être utilisé pour faciliter la recherche, mais il s'agit d'un outil plus largement utile pour découvrir automatiquement des structures dans les données, comme la découverte de groupes de patients similaires.<p>Cette introduction au cours vous donne un aperçu des sujets que nous allons couvrir et des connaissances de base et des ressources que nous supposons que vous avez.
Inclus
4 vidéos5 lectures
Nous commençons le cours en considérant une tâche de recherche qui consiste à trouver un document similaire à celui qu'une personne est en train de lire. Nous présentons ce problème comme une recherche du plus proche voisin, un concept que nous avons vu dans les cours sur les fondements et la régression. Cependant, ici, vous ferez une plongée en profondeur dans deux composants critiques des algorithmes : la représentation des données et la métrique pour mesurer la similarité entre les paires de points de données. Vous examinerez la charge de calcul de l'algorithme naïf de recherche du plus proche voisin, et mettrez en œuvre des alternatives évolutives utilisant les arbres KD pour traiter de grands ensembles de données et le hachage sensible à la localité (LSH) pour fournir des plus proches voisins approximatifs, même dans des espaces de haute dimension. Vous explorerez toutes ces idées sur un ensemble de données de Wikipedia, en comparant et en opposant l'impact des différents choix que vous pouvez faire sur les résultats de recherche du plus proche voisin produits.
Inclus
22 vidéos4 lectures5 devoirs
Dans le cas du clustering, notre objectif est de regrouper les points de données de notre ensemble de données en ensembles disjoints. Motivé par notre étude de cas d'analyse de documents, vous utiliserez le clustering pour découvrir des groupes thématiques d'articles par "sujet". Ces sujets ne sont pas fournis dans cette tâche d'apprentissage non supervisé ; l'idée est plutôt de produire des étiquettes de cluster qui peuvent être associées a posteriori à des sujets connus tels que "Science", "Nouvelles du monde", etc. Même sans ces étiquettes post-facto, vous examinerez comment les résultats du regroupement peuvent fournir des informations sur les relations entre les points de données dans l'ensemble de données. Le premier algorithme de regroupement que vous mettrez en œuvre est le k-means, qui est l'algorithme de regroupement le plus largement utilisé. Pour faire évoluer k-means, vous découvrirez le cadre général MapReduce pour la parallélisation et la distribution des calculs, puis comment les itérés de k-means peuvent utiliser ce cadre. Vous montrerez que les k-means peuvent fournir un regroupement interprétable des articles de Wikipédia lorsqu'ils sont correctement réglés.
Inclus
13 vidéos2 lectures3 devoirs
Dans le cas des k-moyennes, chaque observation est assignée à une seule grappe et ces assignations sont basées uniquement sur les centres des grappes, au lieu d'incorporer également des informations sur la forme. Dans notre deuxième module sur le clustering, vous effectuerez un clustering basé sur un modèle probabiliste qui fournit (1) une notion plus descriptive d'un "cluster" et (2) prend en compte l'incertitude dans les affectations des points de données aux clusters via des "affectations douces". Vous explorerez et mettrez en œuvre un algorithme largement utile appelé maximisation de l'espérance (EM) pour déduire ces affectations souples, ainsi que les paramètres du modèle. Pour acquérir de l'intuition, vous commencerez par étudier une tâche de regroupement d'images visuellement attrayante. Vous allez ensuite regrouper des articles de Wikipédia, en gérant la haute dimensionnalité de la représentation de document tf-idf considérée.
Inclus
15 vidéos4 lectures3 devoirs
Le modèle de regroupement suppose intrinsèquement que les données se divisent en ensembles disjoints, par exemple les documents par sujet. Or, nos objets de données sont souvent mieux décrits par leur appartenance à une collection d'ensembles, par exemple des sujets multiples. Dans notre quatrième module, vous explorerez l'allocation de Dirichlet latente (LDA) comme un exemple de modèle d'appartenance mixte particulièrement utile dans l'analyse de documents. Vous interpréterez les résultats de LDA et les différentes façons dont ils peuvent être utilisés, par exemple comme un ensemble de caractéristiques documentaires apprises. Les idées de modélisation d'appartenance mixte que vous apprenez à travers LDA pour l'analyse de documents s'étendent à de nombreux autres modèles et applications intéressants, comme les modèles de réseaux sociaux où les gens ont des affiliations multiples.<p>Tout au long de ce module, nous introduisons des aspects de la modélisation bayésienne et un algorithme d'inférence bayésienne appelé échantillonnage de Gibbs. À la fin du module, vous serez en mesure d'implémenter un échantillonneur de Gibbs pour LDA.
Inclus
12 vidéos2 lectures3 devoirs
Dans la conclusion du cours, nous récapitulerons ce que nous avons couvert. Il s'agit à la fois de techniques spécifiques au clustering et à la recherche, et de concepts fondamentaux de l'apprentissage automatique qui sont plus largement utiles.</p> <p>Nous proposons une visite rapide d'une approche alternative du clustering appelée clustering hiérarchique, que vous expérimenterez sur l'ensemble de données de Wikipédia. Après cette exploration, nous verrons comment les idées de type clustering peuvent être appliquées à d'autres domaines tels que la segmentation de séries temporelles. Nous décrivons ensuite brièvement quelques idées importantes de clustering et de récupération que nous n'avons pas abordées dans ce cours.<p>Nous concluons par un aperçu de ce qui vous attend dans le reste de la spécialisation.
Inclus
12 vidéos2 lectures1 devoir
Instructeurs
Offert par
Recommandé si vous êtes intéressé(e) par Analyse des Données
Coursera Project Network
University of Colorado Boulder
Stanford University
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Avis des étudiants
2 358 avis
- 5 stars
74,42 %
- 4 stars
19,12 %
- 3 stars
4,70 %
- 2 stars
0,72 %
- 1 star
1,01 %
Affichage de 3 sur 2358
Révisé le 24 août 2016
excellent material! It would be nice, however, to mention some reading material, books or articles, for those interested in the details and the theories behind the concepts presented in the course.
Révisé le 24 janv. 2017
The material is complex and challenging, but the teaching procedure is carefully thought out in a way that you quickly get it, giving you a great sense of accomplishment.
Révisé le 6 janv. 2019
This was a really good course, It made me familiar with many tools and techniques used in ML. With this in hand I will be able to go out there and explore and understand things much better.
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :
Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.
Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.