Apprentissage automatique : Clustering & Retrieval

Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

Apprentissage automatique : Clustering & Retrieval

Ce cours fait partie de Spécialisation "Apprentissage automatique"

Instructeurs : Emily Fox

101 323 déjà inscrits

Inclus avec

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

2,368 avis

2 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

91%

La plupart des étudiants ont apprécié ce cours

6 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

2,368 avis

2 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

91%

La plupart des étudiants ont apprécié ce cours

Compétences que vous acquerrez

Catégorie : Distribution de probabilité
Catégorie : Algorithmes
Catégorie : Algorithmes d'apprentissage automatique
Catégorie : Méthodes d'apprentissage automatique
Catégorie : Données non structurées
Catégorie : Informatique distribuée
Catégorie : Exploration de texte
Catégorie : Apprentissage automatique
Catégorie : Évolutivité
Catégorie : Apprentissage automatique appliqué
Catégorie : Apprentissage non supervisé
Catégorie : Apprentissage statistique des machines
Catégorie : Inférence statistique
Catégorie : Statistiques bayésiennes
Catégorie : Échantillonnage (statistiques)
Catégorie : Exploration de données
Catégorie : Modélisation statistique

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

15 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Apprentissage automatique"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 6 modules dans ce cours

Études de cas : Recherche de documents similaires Un lecteur s'intéresse à un article de presse spécifique et vous souhaitez trouver des articles similaires à lui recommander. Quelle est la bonne notion de similarité ? En outre, que se passe-t-il s'il existe des millions d'autres documents ? Chaque fois que vous souhaitez récupérer un nouveau document, devez-vous effectuer une recherche dans tous les autres documents ? Comment regrouper les documents similaires ? Comment découvrir de nouveaux sujets émergents couverts par les documents ?

Dans cette troisième étude de cas, la recherche de documents similaires, vous examinerez les algorithmes de recherche basés sur la similarité. Dans ce cours, vous examinerez également les représentations structurées pour décrire les documents du corpus, y compris les modèles de regroupement et d'appartenance mixte, tels que l'allocation de Dirichlet latente (LDA). Vous mettrez en œuvre la maximisation de l'espérance (EM) pour apprendre les regroupements de documents, et verrez comment mettre à l'échelle les méthodes en utilisant MapReduce. Objectifs pédagogiques : A la fin de ce cours, vous serez capable de : -Créer un système de recherche de documents en utilisant les k-voisins les plus proches -Identifier les différentes métriques de similarité pour les données textuelles -Réduire les calculs dans la recherche des k-voisins les plus proches en utilisant les KD-trees -Produire les plus proches voisins approximatifs en utilisant le hachage sensible à la localité -Comparer et contraster les tâches d'apprentissage supervisé et non supervisé -Cluster les documents par sujet en utilisant les k-moyens -Décrire comment paralléliser les k-moyens en utilisant MapReduce -Examiner les approches probabilistes de la recherche de documents en utilisant les KD-trees -Décrire comment paralléliser les k-moyens en utilisant MapReduce. -Examiner les approches de clustering probabiliste utilisant des modèles de mélanges -Affecter un mélange de modèles gaussiens en utilisant la maximisation de l'espérance (EM) -Exécuter une modélisation d'appartenance mixte en utilisant l'allocation latente de Dirichlet (LDA) -Décrire les étapes d'un échantillonneur de Gibbs et comment utiliser sa sortie pour tirer des inférences -Comparer et contraster les techniques d'initialisation pour les objectifs d'optimisation non-convexes -Implémenter ces techniques en Python.

Le clustering et la récupération sont parmi les outils d'apprentissage automatique qui ont le plus d'impact. L'extraction est utilisée dans presque toutes les applications et tous les appareils avec lesquels nous interagissons, par exemple pour fournir un ensemble de produits liés à celui qu'un acheteur est en train d'envisager, ou une liste de personnes avec lesquelles vous pourriez vouloir vous connecter sur une plateforme de médias sociaux. Le clustering peut être utilisé pour faciliter la recherche, mais il s'agit d'un outil plus largement utile pour découvrir automatiquement des structures dans les données, comme la découverte de groupes de patients similaires.Cette introduction au cours vous donne un aperçu des sujets que nous allons couvrir et des connaissances de base et des ressources que nous supposons que vous avez.

Inclus

4 vidéos5 lectures

4 vidéosTotal 25 minutes

Bienvenue et introduction aux tâches de regroupement et d'extraction6 minutes
Aperçu du cours3 minutes
Thèmes abordés module par module9 minutes
Antécédents supposés6 minutes

5 lecturesTotal 45 minutes

Mise à jour importante concernant la spécialisation en apprentissage automatique10 minutes
Diapositives présentées dans ce module10 minutes
Outils logiciels dont vous aurez besoin pour ce cours10 minutes
Une grande semaine en perspective !10 minutes
Obtenez de l'aide et rencontrez d'autres apprenants. Rejoignez votre communauté !5 minutes

Nous commençons le cours en considérant une tâche de recherche qui consiste à trouver un document similaire à celui qu'une personne est en train de lire. Nous présentons ce problème comme une recherche du plus proche voisin, un concept que nous avons vu dans les cours sur les fondements et la régression. Cependant, ici, vous ferez une plongée en profondeur dans deux composants critiques des algorithmes : la représentation des données et la métrique pour mesurer la similarité entre les paires de points de données. Vous examinerez la charge de calcul de l'algorithme naïf de recherche du plus proche voisin, et mettrez en œuvre des alternatives évolutives utilisant les arbres KD pour traiter de grands ensembles de données et le hachage sensible à la localité (LSH) pour fournir des plus proches voisins approximatifs, même dans des espaces de haute dimension. Vous explorerez toutes ces idées sur un ensemble de données de Wikipedia, en comparant et en opposant l'impact des différents choix que vous pouvez faire sur les résultats de recherche du plus proche voisin produits.

Inclus

22 vidéos4 lectures5 devoirs

22 vidéosTotal 137 minutes

Récupération sous forme de recherche par le plus proche voisin (k-nearest neighbor)3 minutes
algorithme 1-NN3 minutes
algorithme k-NN7 minutes
Représentation des documents6 minutes
Mesures de distance : Euclidienne et Euclidienne échelonnée7 minutes
Écriture de la distance euclidienne (échelonnée) à l'aide de produits intérieurs (pondérés)4 minutes
Mesures de distance : Similitude de cosinus9 minutes
Normaliser ou non et autres considérations de distance7 minutes
Complexité de la recherche par force brute2 minutes
Représentation de l'arbre KD10 minutes
Recherche NN avec KD-trees7 minutes
Complexité de la recherche de NN avec des arbres KD6 minutes
Visualisation du comportement de mise à l'échelle des arbres KD4 minutes
Recherche approximative k-NN à l'aide d'arbres KD8 minutes
Limites des arbres KD4 minutes
LSH comme alternative aux arbres KD4 minutes
Utilisation de lignes aléatoires pour partitionner des points6 minutes
Définir d'autres emplacements3 minutes
Recherche d'emplacements voisins9 minutes
LSH dans des dimensions supérieures4 minutes
(FACULTATIF) Amélioration de l'efficacité grâce à des tableaux multiples23 minutes
Un bref récapitulatif2 minutes

4 lecturesTotal 40 minutes

Diapositives présentées dans ce module10 minutes
Choix des caractéristiques et des mesures pour la recherche du plus proche voisin10 minutes
(FACULTATIF) Un exemple travaillé pour les arbres KD10 minutes
Mise en œuvre d'un hachage sensible à la localité à partir de zéro10 minutes

5 devoirsTotal 150 minutes

Représentations et mesures30 minutes
Choix des caractéristiques et des mesures pour la recherche du plus proche voisin30 minutes
Arbres KD30 minutes
Hachage sensible à la localité30 minutes
Mise en œuvre d'un hachage sensible à la localité à partir de zéro30 minutes

Dans le cas du clustering, notre objectif est de regrouper les points de données de notre ensemble de données en ensembles disjoints. Motivé par notre étude de cas d'analyse de documents, vous utiliserez le clustering pour découvrir des groupes thématiques d'articles par "sujet". Ces sujets ne sont pas fournis dans cette tâche d'apprentissage non supervisé ; l'idée est plutôt de produire des étiquettes de cluster qui peuvent être associées a posteriori à des sujets connus tels que "Science", "Nouvelles du monde", etc. Même sans ces étiquettes post-facto, vous examinerez comment les résultats du regroupement peuvent fournir des informations sur les relations entre les points de données dans l'ensemble de données. Le premier algorithme de regroupement que vous mettrez en œuvre est le k-means, qui est l'algorithme de regroupement le plus largement utilisé. Pour faire évoluer k-means, vous découvrirez le cadre général MapReduce pour la parallélisation et la distribution des calculs, puis comment les itérés de k-means peuvent utiliser ce cadre. Vous montrerez que les k-means peuvent fournir un regroupement interprétable des articles de Wikipédia lorsqu'ils sont correctement réglés.

Inclus

13 vidéos2 lectures3 devoirs

13 vidéosTotal 79 minutes

L'objectif du regroupement3 minutes
Une tâche non supervisée7 minutes
L'espoir de l'apprentissage non supervisé et quelques défis à relever4 minutes
L'algorithme k-means8 minutes
k-means comme descente de coordonnées6 minutes
Initialisation intelligente via k-means++5 minutes
Évaluer la qualité et choisir le nombre de grappes9 minutes
Motiver MapReduce9 minutes
L'abstraction générale MapReduce5 minutes
Aperçu de l'exécution MapReduce et combinateurs6 minutes
MapReduce pour les k-moyennes7 minutes
Autres applications du regroupement7 minutes
Un bref récapitulatif1 minute

2 lecturesTotal 20 minutes

Diapositives présentées dans ce module10 minutes
Regroupement de données textuelles avec les k-moyennes10 minutes

3 devoirsTotal 76 minutes

k-means30 minutes
Regroupement de données textuelles avec K-means16 minutes
MapReduce pour les k-moyennes30 minutes

Dans le cas des k-moyennes, chaque observation est assignée à une seule grappe et ces assignations sont basées uniquement sur les centres des grappes, au lieu d'incorporer également des informations sur la forme. Dans notre deuxième module sur le clustering, vous effectuerez un clustering basé sur un modèle probabiliste qui fournit (1) une notion plus descriptive d'un "cluster" et (2) prend en compte l'incertitude dans les affectations des points de données aux clusters via des "affectations douces". Vous explorerez et mettrez en œuvre un algorithme largement utile appelé maximisation de l'espérance (EM) pour déduire ces affectations souples, ainsi que les paramètres du modèle. Pour acquérir de l'intuition, vous commencerez par étudier une tâche de regroupement d'images visuellement attrayante. Vous allez ensuite regrouper des articles de Wikipédia, en gérant la haute dimensionnalité de la représentation de document tf-idf considérée.

Inclus

15 vidéos4 lectures3 devoirs

15 vidéosTotal 91 minutes

Motivation des modèles de regroupement probabiliste8 minutes
Agrégation de classes inconnues dans un ensemble de données d'images7 minutes
Distributions gaussiennes univariées3 minutes
Gauss bivariés et multivariés7 minutes
Mélange de gaussiens7 minutes
Interprétation du mélange de termes gaussiens6 minutes
Mise à l'échelle des mélanges de gaussiennes pour le regroupement de documents5 minutes
Calcul des affectations douces à partir des paramètres connus des grappes7 minutes
(FACULTATIF) Responsabilités en tant que règle de Bayes5 minutes
Estimation des paramètres des grappes à partir des affectations connues des grappes7 minutes
Estimation des paramètres des grappes à partir d'affectations douces8 minutes
EM itère en équations et en images7 minutes
Convergence, initialisation et surajustement de la méthode EM9 minutes
Relation avec les k-moyennes3 minutes
Un bref récapitulatif2 minutes

4 lecturesTotal 40 minutes

Diapositives présentées dans ce module10 minutes
(FACULTATIF) Un exemple concret pour l'EM10 minutes
Mise en œuvre de la méthode EM pour les mélanges gaussiens10 minutes
Regroupement de données textuelles à l'aide de mélanges gaussiens10 minutes

3 devoirsTotal 90 minutes

EM pour les mélanges gaussiens30 minutes
Mise en œuvre de la méthode EM pour les mélanges gaussiens30 minutes
Regroupement de données textuelles à l'aide de mélanges gaussiens30 minutes

Le modèle de regroupement suppose intrinsèquement que les données se divisent en ensembles disjoints, par exemple les documents par sujet. Or, nos objets de données sont souvent mieux décrits par leur appartenance à une collection d'ensembles, par exemple des sujets multiples. Dans notre quatrième module, vous explorerez l'allocation de Dirichlet latente (LDA) comme un exemple de modèle d'appartenance mixte particulièrement utile dans l'analyse de documents. Vous interpréterez les résultats de LDA et les différentes façons dont ils peuvent être utilisés, par exemple comme un ensemble de caractéristiques documentaires apprises. Les idées de modélisation d'appartenance mixte que vous apprenez à travers LDA pour l'analyse de documents s'étendent à de nombreux autres modèles et applications intéressants, comme les modèles de réseaux sociaux où les gens ont des affiliations multiples.Tout au long de ce module, nous introduisons des aspects de la modélisation bayésienne et un algorithme d'inférence bayésienne appelé échantillonnage de Gibbs. À la fin du module, vous serez en mesure d'implémenter un échantillonneur de Gibbs pour LDA.

Inclus

12 vidéos2 lectures3 devoirs

12 vidéosTotal 58 minutes

Modèles d'appartenance mixtes pour les documents4 minutes
Un modèle alternatif de regroupement de documents5 minutes
Composantes du modèle d'allocation Dirichlet latent3 minutes
Objectif de l'inférence LDA5 minutes
La nécessité de l'inférence bayésienne5 minutes
Échantillonnage de Gibbs à 10 000 pieds5 minutes
Un échantillonneur Gibbs standard pour LDA10 minutes
Qu'est-ce que l'échantillonnage de Gibbs effondré ?3 minutes
Un exemple de travail pour LDA : Configuration initiale4 minutes
Un exemple de travail pour LDA : Dérivation de la distribution de rééchantillonnage8 minutes
Utilisation du résultat de l'échantillonnage de Gibbs effondré4 minutes
Un bref récapitulatif2 minutes

2 lecturesTotal 20 minutes

Diapositives présentées dans ce module10 minutes
Modélisation des sujets de texte avec l'allocation de dirichlet latent10 minutes

3 devoirsTotal 84 minutes

Allocation de Dirichlet Latent30 minutes
Apprentissage du modèle LDA par échantillonnage de Gibbs30 minutes
Modélisation des sujets de texte avec l'allocation de dirichlet latent24 minutes

Dans la conclusion du cours, nous récapitulerons ce que nous avons couvert. Il s'agit à la fois de techniques spécifiques au clustering et à la recherche, et de concepts fondamentaux de l'apprentissage automatique qui sont plus largement utiles. Nous proposons une visite rapide d'une approche alternative du clustering appelée clustering hiérarchique, que vous expérimenterez sur l'ensemble de données de Wikipédia. Après cette exploration, nous verrons comment les idées de type clustering peuvent être appliquées à d'autres domaines tels que la segmentation de séries temporelles. Nous décrivons ensuite brièvement quelques idées importantes de clustering et de récupération que nous n'avons pas abordées dans ce cours.Nous concluons par un aperçu de ce qui vous attend dans le reste de la spécialisation.

Inclus

12 vidéos2 lectures1 devoir

12 vidéosTotal 62 minutes

Récapitulation du module 110 minutes
Récapitulation du module 23 minutes
Récapitulation du module 36 minutes
Récapitulation du module 47 minutes
Pourquoi le regroupement hiérarchique ?2 minutes
Regroupement divisé4 minutes
Regroupement agglomératif3 minutes
Le dendrogramme5 minutes
Détails du regroupement agglomératif7 minutes
Modèles de Markov cachés9 minutes
Ce que nous n'avons pas couvert3 minutes
Merci de votre attention !2 minutes

2 lecturesTotal 20 minutes

Diapositives présentées dans ce module10 minutes
Modélisation des données textuelles à l'aide d'une hiérarchie de grappes10 minutes

1 devoirTotal 6 minutes

Modélisation des données textuelles à l'aide d'une hiérarchie de grappes6 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant

(97 évaluations)

Emily Fox

University of Washington

6 Cours499 547 apprenants

Carlos Guestrin

University of Washington

8 Cours500 346 apprenants

Offert par

University of Washington

En savoir plus sur Analyse des données

Packt
Cluster Analysis and Unsupervised Machine Learning in Python
Cours
Statut : Essai gratuit
University of London
Statistics and Clustering in Python
Cours
Statut : Prévisualisation
EDUCBA
R: Apply & Analyze K-Means Clustering for Unsupervised ML
Cours
Statut : Essai gratuit
IBM
Unsupervised Machine Learning
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
74,36 %
4 stars
19,13 %
3 stars
4,68 %
2 stars
0,76 %
1 star
1,05 %

Affichage de 3 sur 2368

Révisé le 3 août 2020

A challenging course!!! It's necessary to fix some compatibility problems with Tury and Windows, because Python 2.7 it's obsolete. I really enjoy it!!!

Révisé le 27 oct. 2017

A great course to understand clustering as well as text mining. Lectures on KDD and LSH are equally important to understand and implement these algo . Many thanks

Révisé le 6 janv. 2019

This was a really good course, It made me familiar with many tools and techniques used in ML. With this in hand I will be able to go out there and explore and understand things much better.

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.