Apprentissage automatique : Clustering & Retrieval

Apprentissage automatique : Clustering & Retrieval

Name: Apprentissage automatique : Clustering & Retrieval
Rating: 4.652247667514843 (2358 reviews)

Ce cours fait partie de Spécialisation Apprentissage automatique

Instructeurs : Emily Fox

98 920 déjà inscrits

Inclus avec Coursera Plus

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.7

(2,358 avis)

17 heures pour terminer

3 semaines à 5 heures par semaine

Planning flexible

Apprenez à votre propre rythme

91%

La plupart des étudiants ont apprécié ce cours

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.7

(2,358 avis)

17 heures pour terminer

3 semaines à 5 heures par semaine

Planning flexible

Apprenez à votre propre rythme

91%

La plupart des étudiants ont apprécié ce cours

Compétences que vous acquerrez

Catégorie : Algorithmes de regroupement de données
Catégorie : Regroupement K-Means
Catégorie : Apprentissage automatique
Catégorie : K-D Tree

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

15 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Apprentissage automatique

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 6 modules dans ce cours

Études de cas : Recherche de documents similaires Un lecteur s'intéresse à un article de presse spécifique et vous souhaitez trouver des articles similaires à lui recommander. Quelle est la bonne notion de similarité ? En outre, que se passe-t-il s'il existe des millions d'autres documents ? Chaque fois que vous souhaitez récupérer un nouveau document, devez-vous effectuer une recherche dans tous les autres documents ? Comment regrouper les documents similaires ? Comment découvrir de nouveaux sujets émergents couverts par les documents ?

Dans cette troisième étude de cas, la recherche de documents similaires, vous examinerez les algorithmes de recherche basés sur la similarité. Dans ce cours, vous examinerez également les représentations structurées pour décrire les documents du corpus, y compris les modèles de regroupement et d'appartenance mixte, tels que l'allocation de Dirichlet latente (LDA). Vous mettrez en œuvre la maximisation de l'espérance (EM) pour apprendre les regroupements de documents, et verrez comment mettre à l'échelle les méthodes en utilisant MapReduce. Objectifs pédagogiques : A la fin de ce cours, vous serez capable de : -Créer un système de recherche de documents en utilisant les k-voisins les plus proches -Identifier les différentes métriques de similarité pour les données textuelles -Réduire les calculs dans la recherche des k-voisins les plus proches en utilisant les KD-trees -Produire les plus proches voisins approximatifs en utilisant le hachage sensible à la localité -Comparer et contraster les tâches d'apprentissage supervisé et non supervisé -Cluster les documents par sujet en utilisant les k-moyens -Décrire comment paralléliser les k-moyens en utilisant MapReduce -Examiner les approches probabilistes de la recherche de documents en utilisant les KD-trees -Décrire comment paralléliser les k-moyens en utilisant MapReduce. -Examiner les approches de clustering probabiliste utilisant des modèles de mélanges -Affecter un mélange de modèles gaussiens en utilisant la maximisation de l'espérance (EM) -Exécuter une modélisation d'appartenance mixte en utilisant l'allocation latente de Dirichlet (LDA) -Décrire les étapes d'un échantillonneur de Gibbs et comment utiliser sa sortie pour tirer des inférences -Comparer et contraster les techniques d'initialisation pour les objectifs d'optimisation non-convexes -Implémenter ces techniques en Python.

Le clustering et la récupération sont parmi les outils d'apprentissage automatique qui ont le plus d'impact. L'extraction est utilisée dans presque toutes les applications et tous les appareils avec lesquels nous interagissons, par exemple pour fournir un ensemble de produits liés à celui qu'un acheteur est en train d'envisager, ou une liste de personnes avec lesquelles vous pourriez vouloir vous connecter sur une plateforme de médias sociaux. Le clustering peut être utilisé pour faciliter la recherche, mais il s'agit d'un outil plus largement utile pour découvrir automatiquement des structures dans les données, comme la découverte de groupes de patients similaires.Cette introduction au cours vous donne un aperçu des sujets que nous allons couvrir et des connaissances de base et des ressources que nous supposons que vous avez.

Inclus

4 vidéos5 lectures

4 vidéosTotal 24 minutes

Bienvenue et introduction aux tâches de regroupement et d'extraction6 minutesPrévisualiser le module
Aperçu du cours3 minutes
Thèmes abordés module par module8 minutes
Antécédents supposés6 minutes

5 lecturesTotal 45 minutes

Mise à jour importante concernant la spécialisation en apprentissage automatique10 minutes
Diapositives présentées dans ce module10 minutes
Outils logiciels dont vous aurez besoin pour ce cours10 minutes
Une grande semaine en perspective !10 minutes
Obtenez de l'aide et rencontrez d'autres apprenants. Rejoignez votre communauté !5 minutes

Nous commençons le cours en considérant une tâche de recherche qui consiste à trouver un document similaire à celui qu'une personne est en train de lire. Nous présentons ce problème comme une recherche du plus proche voisin, un concept que nous avons vu dans les cours sur les fondements et la régression. Cependant, ici, vous ferez une plongée en profondeur dans deux composants critiques des algorithmes : la représentation des données et la métrique pour mesurer la similarité entre les paires de points de données. Vous examinerez la charge de calcul de l'algorithme naïf de recherche du plus proche voisin, et mettrez en œuvre des alternatives évolutives utilisant les arbres KD pour traiter de grands ensembles de données et le hachage sensible à la localité (LSH) pour fournir des plus proches voisins approximatifs, même dans des espaces de haute dimension. Vous explorerez toutes ces idées sur un ensemble de données de Wikipedia, en comparant et en opposant l'impact des différents choix que vous pouvez faire sur les résultats de recherche du plus proche voisin produits.

Inclus

22 vidéos4 lectures5 devoirs

22 vidéosTotal 136 minutes

Récupération sous forme de recherche par le plus proche voisin (k-nearest neighbor)2 minutesPrévisualiser le module
algorithme 1-NN2 minutes
algorithme k-NN6 minutes
Représentation des documents5 minutes
Mesures de distance : Euclidienne et Euclidienne échelonnée6 minutes
Écriture de la distance euclidienne (échelonnée) à l'aide de produits intérieurs (pondérés)4 minutes
Mesures de distance : Similitude de cosinus9 minutes
Normaliser ou non et autres considérations de distance6 minutes
Complexité de la recherche par force brute1 minute
Représentation de l'arbre KD9 minutes
Recherche NN avec KD-trees7 minutes
Complexité de la recherche de NN avec des arbres KD5 minutes
Visualisation du comportement de mise à l'échelle des arbres KD4 minutes
Recherche approximative k-NN à l'aide d'arbres KD7 minutes
Limites des arbres KD3 minutes
LSH comme alternative aux arbres KD4 minutes
Utilisation de lignes aléatoires pour partitionner des points5 minutes
Définir d'autres emplacements3 minutes
Recherche d'emplacements voisins8 minutes
LSH dans des dimensions supérieures4 minutes
(FACULTATIF) Amélioration de l'efficacité grâce à des tableaux multiples22 minutes
Un bref récapitulatif2 minutes

4 lecturesTotal 40 minutes

Diapositives présentées dans ce module10 minutes
Choix des caractéristiques et des mesures pour la recherche du plus proche voisin10 minutes
(FACULTATIF) Un exemple travaillé pour les arbres KD10 minutes
Mise en œuvre d'un hachage sensible à la localité à partir de zéro10 minutes

5 devoirsTotal 150 minutes

Représentations et mesures30 minutes
Choix des caractéristiques et des mesures pour la recherche du plus proche voisin30 minutes
Arbres KD30 minutes
Hachage sensible à la localité30 minutes
Mise en œuvre d'un hachage sensible à la localité à partir de zéro30 minutes

Dans le cas du clustering, notre objectif est de regrouper les points de données de notre ensemble de données en ensembles disjoints. Motivé par notre étude de cas d'analyse de documents, vous utiliserez le clustering pour découvrir des groupes thématiques d'articles par "sujet". Ces sujets ne sont pas fournis dans cette tâche d'apprentissage non supervisé ; l'idée est plutôt de produire des étiquettes de cluster qui peuvent être associées a posteriori à des sujets connus tels que "Science", "Nouvelles du monde", etc. Même sans ces étiquettes post-facto, vous examinerez comment les résultats du regroupement peuvent fournir des informations sur les relations entre les points de données dans l'ensemble de données. Le premier algorithme de regroupement que vous mettrez en œuvre est le k-means, qui est l'algorithme de regroupement le plus largement utilisé. Pour faire évoluer k-means, vous découvrirez le cadre général MapReduce pour la parallélisation et la distribution des calculs, puis comment les itérés de k-means peuvent utiliser ce cadre. Vous montrerez que les k-means peuvent fournir un regroupement interprétable des articles de Wikipédia lorsqu'ils sont correctement réglés.

Inclus

13 vidéos2 lectures3 devoirs

13 vidéosTotal 78 minutes

L'objectif du regroupement3 minutesPrévisualiser le module
Une tâche non supervisée6 minutes
L'espoir de l'apprentissage non supervisé et quelques défis à relever4 minutes
L'algorithme k-means7 minutes
k-means comme descente de coordonnées6 minutes
Initialisation intelligente via k-means++4 minutes
Évaluer la qualité et choisir le nombre de grappes9 minutes
Motiver MapReduce8 minutes
L'abstraction générale MapReduce5 minutes
Aperçu de l'exécution MapReduce et combinateurs6 minutes
MapReduce pour les k-moyennes7 minutes
Autres applications du regroupement7 minutes
Un bref récapitulatif1 minute

2 lecturesTotal 20 minutes

Diapositives présentées dans ce module10 minutes
Regroupement de données textuelles avec les k-moyennes10 minutes

3 devoirsTotal 76 minutes

k-means30 minutes
Regroupement de données textuelles avec K-means16 minutes
MapReduce pour les k-moyennes30 minutes

Dans le cas des k-moyennes, chaque observation est assignée à une seule grappe et ces assignations sont basées uniquement sur les centres des grappes, au lieu d'incorporer également des informations sur la forme. Dans notre deuxième module sur le clustering, vous effectuerez un clustering basé sur un modèle probabiliste qui fournit (1) une notion plus descriptive d'un "cluster" et (2) prend en compte l'incertitude dans les affectations des points de données aux clusters via des "affectations douces". Vous explorerez et mettrez en œuvre un algorithme largement utile appelé maximisation de l'espérance (EM) pour déduire ces affectations souples, ainsi que les paramètres du modèle. Pour acquérir de l'intuition, vous commencerez par étudier une tâche de regroupement d'images visuellement attrayante. Vous allez ensuite regrouper des articles de Wikipédia, en gérant la haute dimensionnalité de la représentation de document tf-idf considérée.

Inclus

15 vidéos4 lectures3 devoirs

15 vidéosTotal 91 minutes

Motivation des modèles de regroupement probabiliste8 minutesPrévisualiser le module
Agrégation de classes inconnues dans un ensemble de données d'images6 minutes
Distributions gaussiennes univariées2 minutes
Gauss bivariés et multivariés7 minutes
Mélange de gaussiens6 minutes
Interprétation du mélange de termes gaussiens5 minutes
Mise à l'échelle des mélanges de gaussiennes pour le regroupement de documents5 minutes
Calcul des affectations douces à partir de paramètres de grappes connus7 minutes
(FACULTATIF) Responsabilités en tant que règle de Bayes5 minutes
Estimation des paramètres des grappes à partir des affectations connues des grappes6 minutes
Estimation des paramètres des grappes à partir d'affectations douces8 minutes
EM itère en équations et en images6 minutes
Convergence, initialisation et surajustement de la méthode EM9 minutes
Relation avec les k-moyennes3 minutes
Un bref récapitulatif1 minute

4 lecturesTotal 40 minutes

Diapositives présentées dans ce module10 minutes
(FACULTATIF) Un exemple concret pour l'EM10 minutes
Mise en œuvre de la méthode EM pour les mélanges gaussiens10 minutes
Regroupement de données textuelles à l'aide de mélanges gaussiens10 minutes

3 devoirsTotal 90 minutes

EM pour les mélanges gaussiens30 minutes
Mise en œuvre de la méthode EM pour les mélanges gaussiens30 minutes
Regroupement de données textuelles à l'aide de mélanges gaussiens30 minutes

Le modèle de regroupement suppose intrinsèquement que les données se divisent en ensembles disjoints, par exemple les documents par sujet. Or, nos objets de données sont souvent mieux décrits par leur appartenance à une collection d'ensembles, par exemple des sujets multiples. Dans notre quatrième module, vous explorerez l'allocation de Dirichlet latente (LDA) comme un exemple de modèle d'appartenance mixte particulièrement utile dans l'analyse de documents. Vous interpréterez les résultats de LDA et les différentes façons dont ils peuvent être utilisés, par exemple comme un ensemble de caractéristiques documentaires apprises. Les idées de modélisation d'appartenance mixte que vous apprenez à travers LDA pour l'analyse de documents s'étendent à de nombreux autres modèles et applications intéressants, comme les modèles de réseaux sociaux où les gens ont des affiliations multiples.Tout au long de ce module, nous introduisons des aspects de la modélisation bayésienne et un algorithme d'inférence bayésienne appelé échantillonnage de Gibbs. À la fin du module, vous serez en mesure d'implémenter un échantillonneur de Gibbs pour LDA.

Inclus

12 vidéos2 lectures3 devoirs

12 vidéosTotal 57 minutes

Modèles d'appartenance mixtes pour les documents3 minutesPrévisualiser le module
Un modèle alternatif de regroupement de documents4 minutes
Composantes du modèle d'allocation Dirichlet latent2 minutes
Objectif de l'inférence LDA5 minutes
La nécessité de l'inférence bayésienne4 minutes
Échantillonnage de Gibbs à 10 000 pieds5 minutes
Un échantillonneur Gibbs standard pour LDA9 minutes
Qu'est-ce que l'échantillonnage de Gibbs effondré ?3 minutes
Un exemple de travail pour LDA : Configuration initiale4 minutes
Un exemple de travail pour LDA : Dérivation de la distribution de rééchantillonnage7 minutes
Utilisation du résultat de l'échantillonnage de Gibbs effondré4 minutes
Un bref récapitulatif1 minute

2 lecturesTotal 20 minutes

Diapositives présentées dans ce module10 minutes
Modélisation des sujets de texte avec l'allocation de dirichlet latent10 minutes

3 devoirsTotal 84 minutes

Allocation de Dirichlet Latent30 minutes
Apprentissage du modèle LDA par échantillonnage de Gibbs30 minutes
Modélisation des sujets de texte avec l'allocation de dirichlet latent24 minutes

Dans la conclusion du cours, nous récapitulerons ce que nous avons couvert. Il s'agit à la fois de techniques spécifiques au clustering et à la recherche, et de concepts fondamentaux de l'apprentissage automatique qui sont plus largement utiles. Nous proposons une visite rapide d'une approche alternative du clustering appelée clustering hiérarchique, que vous expérimenterez sur l'ensemble de données de Wikipédia. Après cette exploration, nous verrons comment les idées de type clustering peuvent être appliquées à d'autres domaines tels que la segmentation de séries temporelles. Nous décrivons ensuite brièvement quelques idées importantes de clustering et de récupération que nous n'avons pas abordées dans ce cours.Nous concluons par un aperçu de ce qui vous attend dans le reste de la spécialisation.

Inclus

12 vidéos2 lectures1 devoir

12 vidéosTotal 62 minutes

Récapitulation du module 110 minutesPrévisualiser le module
Récapitulation du module 23 minutes
Récapitulation du module 36 minutes
Récapitulation du module 47 minutes
Pourquoi le regroupement hiérarchique ?2 minutes
Regroupement divisé4 minutes
Regroupement agglomératif2 minutes
Le dendrogramme4 minutes
Détails du regroupement agglomératif7 minutes
Modèles de Markov cachés9 minutes
Ce que nous n'avons pas couvert2 minutes
Merci de votre attention !1 minute

2 lecturesTotal 20 minutes

Diapositives présentées dans ce module10 minutes
Modélisation des données textuelles à l'aide d'une hiérarchie de grappes10 minutes

1 devoirTotal 6 minutes

Modélisation des données textuelles à l'aide d'une hiérarchie de grappes6 minutes

Instructeurs

Évaluations de l’enseignant

4.8 (91 évaluations)

Emily Fox

University of Washington

6 Cours481 146 apprenants

Carlos Guestrin

University of Washington

8 Cours481 922 apprenants

Offert par

University of Washington

Recommandé si vous êtes intéressé(e) par Analyse des Données

IBM
Modèles fondamentaux de l'IA pour le NLP et la compréhension du langage
Cours
Coursera Project Network
Critiques de produits Recherche basée sur le texte - OpenAI Text Embedding
Projet Guidé
University of Colorado Boulder
Introduction à l'apprentissage automatique : Apprentissage supervisé
Cours
Stanford University
Apprentissage automatique
Spécialisation

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.7

2 358 avis

5 stars
74,42 %
4 stars
19,12 %
3 stars
4,70 %
2 stars
0,72 %
1 star
1,01 %

Affichage de 3 sur 2358

Révisé le 24 août 2016

excellent material! It would be nice, however, to mention some reading material, books or articles, for those interested in the details and the theories behind the concepts presented in the course.

Révisé le 24 janv. 2017

The material is complex and challenging, but the teaching procedure is carefully thought out in a way that you quickly get it, giving you a great sense of accomplishment.

Révisé le 6 janv. 2019

This was a really good course, It made me familiar with many tools and techniques used in ML. With this in hand I will be able to go out there and explore and understand things much better.

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.

Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.