University of Washington
Apprentissage automatique : Clustering & Retrieval
University of Washington

Apprentissage automatique : Clustering & Retrieval

Ce cours fait partie de Spécialisation Apprentissage automatique

Enseigné en Anglais

Certains éléments de contenu peuvent ne pas être traduits

Emily Fox
Carlos Guestrin

Instructeurs : Emily Fox

98 347 déjà inscrits

Inclus avec Coursera Plus

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.7

(2,349 avis)

|

91%

17 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Compétences que vous acquerrez

  • Catégorie : Algorithmes de regroupement de données
  • Catégorie : Regroupement K-Means
  • Catégorie : Apprentissage automatique
  • Catégorie : K-D Tree

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

15 quizzes

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.7

(2,349 avis)

|

91%

17 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Placeholder

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Apprentissage automatique
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable
Placeholder
Placeholder

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Placeholder

Il y a 6 modules dans ce cours

Le clustering et la récupération sont parmi les outils d'apprentissage automatique qui ont le plus d'impact. L'extraction est utilisée dans presque toutes les applications et tous les appareils avec lesquels nous interagissons, par exemple pour fournir un ensemble de produits liés à celui qu'un acheteur est en train d'envisager, ou une liste de personnes avec lesquelles vous pourriez vouloir vous connecter sur une plateforme de médias sociaux. Le clustering peut être utilisé pour faciliter la recherche, mais il s'agit d'un outil plus largement utile pour découvrir automatiquement des structures dans les données, comme la découverte de groupes de patients similaires.<p>Cette introduction au cours vous donne un aperçu des sujets que nous allons couvrir et des connaissances de base et des ressources que nous supposons que vous avez.

Inclus

4 vidéos5 lectures

Nous commençons le cours en considérant une tâche de recherche qui consiste à trouver un document similaire à celui qu'une personne est en train de lire. Nous présentons ce problème comme une recherche du plus proche voisin, un concept que nous avons vu dans les cours sur les fondements et la régression. Cependant, ici, vous ferez une plongée en profondeur dans deux composants critiques des algorithmes : la représentation des données et la métrique pour mesurer la similarité entre les paires de points de données. Vous examinerez la charge de calcul de l'algorithme naïf de recherche du plus proche voisin, et mettrez en œuvre des alternatives évolutives utilisant les arbres KD pour traiter de grands ensembles de données et le hachage sensible à la localité (LSH) pour fournir des plus proches voisins approximatifs, même dans des espaces de haute dimension. Vous explorerez toutes ces idées sur un ensemble de données de Wikipedia, en comparant et en opposant l'impact des différents choix que vous pouvez faire sur les résultats de recherche du plus proche voisin produits.

Inclus

22 vidéos4 lectures5 quizzes

Dans le cas du clustering, notre objectif est de regrouper les points de données de notre ensemble de données en ensembles disjoints. Motivé par notre étude de cas d'analyse de documents, vous utiliserez le clustering pour découvrir des groupes thématiques d'articles par "sujet". Ces sujets ne sont pas fournis dans cette tâche d'apprentissage non supervisé ; l'idée est plutôt de produire des étiquettes de cluster qui peuvent être associées a posteriori à des sujets connus tels que "Science", "Nouvelles du monde", etc. Même sans ces étiquettes post-facto, vous examinerez comment les résultats du regroupement peuvent fournir des informations sur les relations entre les points de données dans l'ensemble de données. Le premier algorithme de regroupement que vous mettrez en œuvre est le k-means, qui est l'algorithme de regroupement le plus largement utilisé. Pour faire évoluer k-means, vous découvrirez le cadre général MapReduce pour la parallélisation et la distribution des calculs, puis comment les itérés de k-means peuvent utiliser ce cadre. Vous montrerez que les k-means peuvent fournir un regroupement interprétable des articles de Wikipédia lorsqu'ils sont correctement réglés.

Inclus

13 vidéos2 lectures3 quizzes

Dans le cas des k-moyennes, chaque observation est assignée à une seule grappe et ces assignations sont basées uniquement sur les centres des grappes, au lieu d'incorporer également des informations sur la forme. Dans notre deuxième module sur le clustering, vous effectuerez un clustering basé sur un modèle probabiliste qui fournit (1) une notion plus descriptive d'un "cluster" et (2) prend en compte l'incertitude dans les affectations des points de données aux clusters via des "affectations douces". Vous explorerez et mettrez en œuvre un algorithme largement utile appelé maximisation de l'espérance (EM) pour déduire ces affectations souples, ainsi que les paramètres du modèle. Pour acquérir de l'intuition, vous commencerez par étudier une tâche de regroupement d'images visuellement attrayante. Vous allez ensuite regrouper des articles de Wikipédia, en gérant la haute dimensionnalité de la représentation de document tf-idf considérée.

Inclus

15 vidéos4 lectures3 quizzes

Le modèle de regroupement suppose intrinsèquement que les données se divisent en ensembles disjoints, par exemple les documents par sujet. Or, nos objets de données sont souvent mieux décrits par leur appartenance à une collection d'ensembles, par exemple des sujets multiples. Dans notre quatrième module, vous explorerez l'allocation de Dirichlet latente (LDA) comme un exemple de modèle d'appartenance mixte particulièrement utile dans l'analyse de documents. Vous interpréterez les résultats de LDA et les différentes façons dont ils peuvent être utilisés, par exemple comme un ensemble de caractéristiques documentaires apprises. Les idées de modélisation d'appartenance mixte que vous apprenez à travers LDA pour l'analyse de documents s'étendent à de nombreux autres modèles et applications intéressants, comme les modèles de réseaux sociaux où les gens ont des affiliations multiples.<p>Tout au long de ce module, nous introduisons des aspects de la modélisation bayésienne et un algorithme d'inférence bayésienne appelé échantillonnage de Gibbs. À la fin du module, vous serez en mesure d'implémenter un échantillonneur de Gibbs pour LDA.

Inclus

12 vidéos2 lectures3 quizzes

Dans la conclusion du cours, nous récapitulerons ce que nous avons couvert. Il s'agit à la fois de techniques spécifiques au clustering et à la recherche, et de concepts fondamentaux de l'apprentissage automatique qui sont plus largement utiles.</p> <p>Nous proposons une visite rapide d'une approche alternative du clustering appelée clustering hiérarchique, que vous expérimenterez sur l'ensemble de données de Wikipédia. Après cette exploration, nous verrons comment les idées de type clustering peuvent être appliquées à d'autres domaines tels que la segmentation de séries temporelles. Nous décrivons ensuite brièvement quelques idées importantes de clustering et de récupération que nous n'avons pas abordées dans ce cours.<p>Nous concluons par un aperçu de ce qui vous attend dans le reste de la spécialisation.

Inclus

12 vidéos2 lectures1 quiz

Instructeurs

Évaluations de l’enseignant
4.8 (90 évaluations)
Emily Fox
University of Washington
6 Cours477 599 apprenants
Carlos Guestrin
University of Washington
8 Cours478 367 apprenants

Offert par

Recommandé si vous êtes intéressé(e) par Analyse des Données

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

Affichage de 3 sur 2349

4.7

2 349 avis

  • 5 stars

    74,45 %

  • 4 stars

    19,08 %

  • 3 stars

    4,71 %

  • 2 stars

    0,72 %

  • 1 star

    1,01 %

SO
5

Révisé le 29 janv. 2020

BK
5

Révisé le 24 août 2016

KK
5

Révisé le 7 sept. 2017

Placeholder

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions