Maschinelles Lernen: Clustering & Wiederauffinden

Sparen Sie mit 40% Rabatt auf 3 Monate Coursera Plus bei den Fähigkeiten, die Sie zum Strahlen bringen. Jetzt sparen

Maschinelles Lernen: Clustering & Wiederauffinden

Dieser Kurs ist Teil von Spezialisierung „Maschinelles Lernen“

Dozenten: Emily Fox

101.342 bereits angemeldet

Bei enthalten

Mehr erfahren

6 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

2,368 Bewertungen

2 Wochen zu vervollständigen

unter 10 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

91%

Den meisten Lernenden hat dieser Kurs gefallen

6 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

2,368 Bewertungen

2 Wochen zu vervollständigen

unter 10 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

91%

Den meisten Lernenden hat dieser Kurs gefallen

Kompetenzen, die Sie erwerben

Kategorie: Algorithmen
Kategorie: Skalierbarkeit
Kategorie: Angewandtes maschinelles Lernen
Kategorie: Maschinelles Lernen
Kategorie: Wahrscheinlichkeitsverteilung
Kategorie: Unüberwachtes Lernen
Kategorie: Unstrukturierte Daten
Kategorie: Statistische Modellierung
Kategorie: Bayessche Statistik
Kategorie: Verteiltes Rechnen
Kategorie: Methoden des maschinellen Lernens
Kategorie: Stichproben (Statistik)
Kategorie: Algorithmen für maschinelles Lernen
Kategorie: Text Mining
Kategorie: Statistische Inferenz
Kategorie: Data Mining
Kategorie: Statistisches maschinelles Lernen

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

15 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung „Maschinelles Lernen“

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 6 Module

Fallstudien: Ähnliche Dokumente finden Ein Leser ist an einem bestimmten Nachrichtenartikel interessiert und Sie möchten ähnliche Artikel finden, die Sie empfehlen können. Was ist der richtige Begriff von Ähnlichkeit? Und was ist, wenn es Millionen von anderen Dokumenten gibt? Müssen Sie jedes Mal, wenn Sie ein neues Dokument abrufen wollen, alle anderen Dokumente durchsuchen? Wie können Sie ähnliche Dokumente zusammenfassen? Wie entdecken Sie neue, aufkommende Themen, die in den Dokumenten behandelt werden?

In dieser dritten Fallstudie, der Suche nach ähnlichen Dokumenten, werden Sie auf Ähnlichkeit basierende Algorithmen für den Abruf untersuchen. In diesem Kurs werden Sie auch strukturierte Darstellungen zur Beschreibung der Dokumente im Korpus untersuchen, einschließlich Clustering und gemischte Zugehörigkeitsmodelle, wie die latente Dirichlet-Zuordnung (LDA). Sie werden die Erwartungsmaximierung (EM) implementieren, um die Clusterung der Dokumente zu erlernen, und sehen, wie Sie die Methoden mit MapReduce skalieren können. Lernergebnisse: Am Ende dieses Kurses werden Sie in der Lage sein: - Ein System zur Dokumentensuche mit k-nearest neighbors zu erstellen. - Verschiedene Ähnlichkeitsmetriken für Textdaten zu identifizieren. - Berechnungen bei der Suche nach k-nearest neighbors mit Hilfe von KD-Bäumen zu reduzieren. - Näherungsweise nächste Nachbarn mit Hilfe von lokalsensitivem Hashing zu erzeugen. - Überwachtes und unüberwachtes Lernen zu vergleichen und gegenüberzustellen. - Dokumente mit Hilfe von k-means nach Themen zu clustern. - Zu beschreiben, wie k-means mit MapReduce parallelisiert werden kann. -Untersuchen Sie probabilistische Clustering-Ansätze unter Verwendung von Mischungsmodellen. -Fitten Sie ein Gauß-Mischungsmodell unter Verwendung von Erwartungsmaximierung (EM). -Modellieren Sie gemischte Zugehörigkeiten unter Verwendung von Latent-Dirichlet-Allokation (LDA). -Beschreiben Sie die Schritte eines Gibbs-Samplers und wie Sie seine Ergebnisse verwenden, um Schlussfolgerungen zu ziehen. -Vergleichen und kontrastieren Sie Initialisierungstechniken für nicht-konvexe Optimierungsziele. -Implementieren Sie diese Techniken in Python.

Clustering und Retrieval gehören zu den wirkungsvollsten Tools für maschinelles Lernen, die es gibt. Die Suche wird in fast allen Anwendungen und Geräten verwendet, mit denen wir interagieren, z. B. bei der Bereitstellung einer Reihe von Produkten, die mit einem Produkt verwandt sind, das ein Kunde gerade in Erwägung zieht, oder einer Liste von Personen, mit denen Sie sich auf einer Social Media-Plattform verbinden möchten. Clustering kann zur Unterstützung des Retrievals verwendet werden, ist aber auch ein nützliches Werkzeug zur automatischen Erkennung von Strukturen in Daten, z.B. zur Aufdeckung von Gruppen ähnlicher Patienten.<p>Diese Einführung in den Kurs gibt Ihnen einen Überblick über die Themen, die wir behandeln werden, sowie über das Hintergrundwissen und die Ressourcen, die wir bei Ihnen voraussetzen.

Das ist alles enthalten

4 Videos5 Lektüren

4 VideosInsgesamt 25 Minuten

Begrüßung und Einführung in Clustering- und Retrieval-Aufgaben6 Minuten
Überblick über den Kurs3 Minuten
Modul für Modul behandelte Themen9 Minuten
Angenommener Hintergrund6 Minuten

5 LektürenInsgesamt 45 Minuten

Wichtiges Update bezüglich der Machine Learning Specialization10 Minuten
In diesem Modul präsentierte Folien10 Minuten
Software-Tools, die Sie für diesen Kurs benötigen10 Minuten
Eine große Woche liegt vor uns!10 Minuten
Holen Sie sich Hilfe und treffen Sie andere Lernende. Treten Sie Ihrer Community bei!5 Minuten

Zu Beginn des Kurses betrachten wir eine Suchaufgabe, bei der es darum geht, ein Dokument zu finden, das einem Dokument ähnlich ist, das jemand gerade liest. Wir betrachten dieses Problem als eine Suche nach dem nächsten Nachbarn, ein Konzept, das wir bereits in den Kursen Grundlagen und Regression kennengelernt haben. In diesem Kurs werden Sie jedoch zwei entscheidende Komponenten der Algorithmen genauer unter die Lupe nehmen: die Datendarstellung und die Metrik zur Messung der Ähnlichkeit zwischen Datenpunktpaaren. Sie werden den Rechenaufwand des naiven Algorithmus für die Suche nach dem nächsten Nachbarn untersuchen und stattdessen skalierbare Alternativen implementieren, die KD-Bäume für die Verarbeitung großer Datensätze und ortsabhängiges Hashing (LSH) für die Bereitstellung annähernder nächster Nachbarn selbst in hochdimensionalen Räumen verwenden. Sie werden all diese Ideen anhand eines Wikipedia-Datensatzes untersuchen und die Auswirkungen der verschiedenen Optionen auf die Ergebnisse der nächsten Nachbarn vergleichen und gegenüberstellen.

Das ist alles enthalten

22 Videos4 Lektüren5 Aufgaben

22 VideosInsgesamt 137 Minuten

Abruf als k-nächste-Nachbarn-Suche3 Minuten
1-NN-Algorithmus3 Minuten
k-NN-Algorithmus7 Minuten
Darstellung des Dokuments6 Minuten
Abstandsmetriken: Euklidisch und skaliert euklidisch7 Minuten
Schreiben des (skalierten) euklidischen Abstands unter Verwendung (gewichteter) innerer Produkte4 Minuten
Abstandsmetriken: Kosinus-Ähnlichkeit9 Minuten
Normalisieren oder nicht und andere Abstandsüberlegungen7 Minuten
Komplexität der Brute-Force-Suche2 Minuten
KD-Baum-Darstellung10 Minuten
NN-Suche mit KD-Bäumen7 Minuten
Komplexität der NN-Suche mit KD-Bäumen6 Minuten
Visualisierung des Skalierungsverhaltens von KD-Bäumen4 Minuten
Näherungsweise k-NN-Suche mit KD-Bäumen8 Minuten
Beschränkungen von KD-Bäumen4 Minuten
LSH als Alternative zu KD-Bäumen4 Minuten
Zufällige Linien zum Aufteilen von Punkten verwenden6 Minuten
Weitere Ablagen definieren3 Minuten
Suche in benachbarten Behältern9 Minuten
LSH in höheren Dimensionen4 Minuten
(OPTIONAL) Verbesserung der Effizienz durch mehrere Tabellen23 Minuten
Eine kurze Zusammenfassung2 Minuten

4 LektürenInsgesamt 40 Minuten

In diesem Modul präsentierte Folien10 Minuten
Auswahl von Merkmalen und Metriken für die Suche nach dem nächsten Nachbarn10 Minuten
(OPTIONAL) Ein ausgearbeitetes Beispiel für KD-Bäume10 Minuten
Implementierung von Locality Sensitive Hashing von Grund auf10 Minuten

5 AufgabenInsgesamt 150 Minuten

Darstellungen und Metriken30 Minuten
Auswahl von Merkmalen und Metriken für die Suche nach dem nächsten Nachbarn30 Minuten
KD-Bäume30 Minuten
Lokalitätssensitives Hashing30 Minuten
Implementierung von Locality Sensitive Hashing von Grund auf30 Minuten

Beim Clustering besteht unser Ziel darin, die Datenpunkte in unserem Datensatz in disjunkte Gruppen einzuteilen. Motiviert durch unsere Fallstudie zur Dokumentenanalyse werden Sie Clustering verwenden, um thematische Gruppen von Artikeln nach "Themen" zu entdecken. Diese Themen werden in dieser unüberwachten Lernaufgabe nicht vorgegeben. Die Idee ist vielmehr, solche Cluster-Labels auszugeben, die postfaktisch mit bekannten Themen wie "Wissenschaft", "Weltnachrichten" usw. assoziiert werden können. Auch ohne solche Post-Facto-Labels werden Sie untersuchen, wie die Clustering-Ausgabe Einblicke in die Beziehungen zwischen den Datenpunkten im Datensatz geben kann. Der erste Clustering-Algorithmus, den Sie implementieren werden, ist k-means, der am weitesten verbreitete Clustering-Algorithmus, den es gibt. Um k-means zu skalieren, lernen Sie das allgemeine MapReduce-Framework für die Parallelisierung und Verteilung von Berechnungen kennen und erfahren dann, wie die Iterate von k-means dieses Framework nutzen können. Sie werden zeigen, dass k-means eine interpretierbare Gruppierung von Wikipedia-Artikeln liefern kann, wenn es richtig eingestellt ist.

Das ist alles enthalten

13 Videos2 Lektüren3 Aufgaben

13 VideosInsgesamt 79 Minuten

Das Ziel des Clustering3 Minuten
Eine nicht überwachte Aufgabe7 Minuten
Hoffnung auf unüberwachtes Lernen und einige Problemfälle4 Minuten
Der k-means Algorithmus8 Minuten
k-means als Koordinatenabstieg6 Minuten
Intelligente Initialisierung über k-means++5 Minuten
Bewertung der Qualität und Auswahl der Anzahl von Clustern9 Minuten
Motivation für MapReduce9 Minuten
Die allgemeine MapReduce-Abstraktion5 Minuten
Übersicht über die MapReduce-Ausführung und Kombinierer6 Minuten
MapReduce für k-means7 Minuten
Andere Anwendungen von Clustering7 Minuten
Eine kurze Zusammenfassung1 Minute

2 LektürenInsgesamt 20 Minuten

In diesem Modul präsentierte Folien10 Minuten
Clustering von Textdaten mit k-means10 Minuten

3 AufgabenInsgesamt 76 Minuten

k-means30 Minuten
Clustering von Textdaten mit K-means16 Minuten
MapReduce für k-means30 Minuten

Bei k-means werden die Beobachtungen jeweils einem einzigen Cluster fest zugeordnet, und diese Zuordnungen basieren nur auf den Clusterzentren, anstatt auch die Forminformationen zu berücksichtigen. In unserem zweiten Modul zum Thema Clustering werden Sie probabilistisches, modellbasiertes Clustering durchführen, das (1) einen anschaulicheren Begriff von "Cluster" bietet und (2) die Unsicherheit bei der Zuordnung von Datenpunkten zu Clustern durch "weiche Zuordnungen" berücksichtigt. Sie werden einen weithin nützlichen Algorithmus namens Erwartungsmaximierung (EM) erforschen und implementieren, um diese weichen Zuordnungen sowie die Modellparameter abzuleiten. Um ein Gefühl dafür zu bekommen, werden Sie zunächst eine visuell ansprechende Aufgabe zum Clustering von Bildern betrachten. Anschließend werden Sie Wikipedia-Artikel clustern, wobei Sie die hohe Dimensionalität der tf-idf-Dokumentendarstellung berücksichtigen werden.

Das ist alles enthalten

15 Videos4 Lektüren3 Aufgaben

15 VideosInsgesamt 91 Minuten

Motivierende probabilistische Clustermodelle8 Minuten
Aggregieren über unbekannte Klassen in einem Bilddatensatz7 Minuten
Univariate Gaußsche Verteilungen3 Minuten
Bivariate und multivariate Gaussianer7 Minuten
Gauß-Mischung7 Minuten
Interpretation der Mischung aus Gauß-Termen6 Minuten
Skalierung von Gauß-Mischungen für das Clustering von Dokumenten5 Minuten
Berechnung weicher Zuweisungen aus bekannten Cluster-Parametern7 Minuten
(OPTIONAL) Verantwortlichkeiten als Bayes'sche Regel5 Minuten
Schätzung von Clusterparametern aus bekannten Clusterzuordnungen7 Minuten
Schätzung von Clusterparametern aus weichen Zuordnungen8 Minuten
EM-Iterationen in Gleichungen und Bildern7 Minuten
Konvergenz, Initialisierung und Überanpassung von EM9 Minuten
Beziehung zu k-means3 Minuten
Eine kurze Zusammenfassung2 Minuten

4 LektürenInsgesamt 40 Minuten

In diesem Modul präsentierte Folien10 Minuten
(OPTIONAL) Ein ausgearbeitetes Beispiel für EM10 Minuten
EM für Gaußsche Mischungen implementieren10 Minuten
Clustering von Textdaten mit Gaußschen Mischungen10 Minuten

3 AufgabenInsgesamt 90 Minuten

EM für Gaußsche Mischungen30 Minuten
EM für Gaußsche Mischungen implementieren30 Minuten
Clustering von Textdaten mit Gaußschen Mischungen30 Minuten

Das Clustering-Modell geht von der Annahme aus, dass die Daten in disjunkte Gruppen unterteilt sind, z.B. Dokumente nach Thema. Oft werden unsere Datenobjekte jedoch besser durch die Zugehörigkeit zu einer Sammlung von Mengen, z.B. mehreren Themen, beschrieben. In unserem vierten Modul werden Sie die latente Dirichlet-Zuordnung (LDA) als Beispiel für ein solches gemischtes Zugehörigkeitsmodell kennenlernen, das besonders bei der Dokumentenanalyse nützlich ist. Sie werden die Ergebnisse der LDA interpretieren und verschiedene Möglichkeiten kennenlernen, wie diese Ergebnisse genutzt werden können, z.B. als eine Reihe von gelernten Dokumentenmerkmalen. Die Ideen zur Modellierung gemischter Zugehörigkeit, die Sie durch LDA für die Dokumentenanalyse kennenlernen, lassen sich auf viele andere interessante Modelle und Anwendungen übertragen, wie z.B. Modelle sozialer Netzwerke, in denen Personen mehrere Zugehörigkeiten haben.<p>In diesem Modul werden Aspekte der Bayes'schen Modellierung und ein Bayes'scher Inferenzalgorithmus namens Gibbs Sampling vorgestellt. Am Ende des Moduls werden Sie in der Lage sein, einen Gibbs-Sampler für LDA zu implementieren.

Das ist alles enthalten

12 Videos2 Lektüren3 Aufgaben

12 VideosInsgesamt 58 Minuten

Gemischte Mitgliedschaftsmodelle für Dokumente4 Minuten
Ein alternatives Modell zum Clustering von Dokumenten5 Minuten
Komponenten des latenten Dirichlet-Zuordnungsmodells3 Minuten
Ziel der LDA-Inferenz5 Minuten
Die Notwendigkeit der Bayes'schen Inferenz5 Minuten
Gibbs-Probenahme aus 10.000 Fuß5 Minuten
Ein Standard-Gibbs-Sampler für LDA10 Minuten
Was ist ein Collapsed Gibbs Sampling?3 Minuten
Ein praktisches Beispiel für LDA: Anfängliche Einrichtung4 Minuten
Ein praktisches Beispiel für LDA: Ableitung der Resampling-Verteilung8 Minuten
Verwendung der Ausgabe des kollabierten Gibbs Sampling4 Minuten
Eine kurze Zusammenfassung2 Minuten

2 LektürenInsgesamt 20 Minuten

In diesem Modul präsentierte Folien10 Minuten
Modellierung von Textthemen mit Latent Dirichlet Allocation10 Minuten

3 AufgabenInsgesamt 84 Minuten

Latente Dirichlet-Allokation30 Minuten
LDA-Modell über Gibbs-Sampling lernen30 Minuten
Modellierung von Textthemen mit Latent Dirichlet Allocation24 Minuten

Am Ende des Kurses fassen wir zusammen, was wir behandelt haben. Dabei handelt es sich sowohl um Techniken, die speziell für Clustering und Retrieval geeignet sind, als auch um grundlegende Konzepte des maschinellen Lernens, die im weiteren Sinne nützlich sind.<p>Wir geben einen kurzen Einblick in einen alternativen Clustering-Ansatz, das hierarchische Clustering, mit dem Sie anhand des Wikipedia-Datensatzes experimentieren werden. Im Anschluss an diese Erkundung erörtern wir, wie Clustering-ähnliche Ideen in anderen Bereichen wie der Segmentierung von Zeitreihen angewendet werden können. Anschließend gehen wir kurz auf einige wichtige Clustering- und Retrieval-Ideen ein, die wir in diesem Kurs nicht behandelt haben.<p> Zum Abschluss geben wir Ihnen einen Überblick darüber, was Sie im weiteren Verlauf der Spezialisierung erwartet.

Das ist alles enthalten

12 Videos2 Lektüren1 Aufgabe

12 VideosInsgesamt 62 Minuten

Modul 1 Rekapitulation10 Minuten
Modul 2 Rekapitulation3 Minuten
Modul 3 Rekapitulation6 Minuten
Modul 4 Rekapitulation7 Minuten
Warum hierarchisches Clustering?2 Minuten
Trennendes Clustering4 Minuten
Agglomeratives Clustering3 Minuten
Das Dendrogramm5 Minuten
Details zum agglomerativen Clustering7 Minuten
Versteckte Markov-Modelle9 Minuten
Was wir nicht abgedeckt haben3 Minuten
Vielen Dank!2 Minuten

2 LektürenInsgesamt 20 Minuten

In diesem Modul präsentierte Folien10 Minuten
Modellierung von Textdaten mit einer Hierarchie von Clustern10 Minuten

1 AufgabeInsgesamt 6 Minuten

Modellierung von Textdaten mit einer Hierarchie von Clustern6 Minuten

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Lehrkraftbewertungen

(97 Bewertungen)

Emily Fox

University of Washington

6 Kurse499.594 Lernende

Carlos Guestrin

University of Washington

8 Kurse500.393 Lernende

von

University of Washington

Mehr von Datenanalyse entdecken

Packt
Cluster Analysis and Unsupervised Machine Learning in Python
Kurs
Status: Kostenloser Testzeitraum
University of London
Statistics and Clustering in Python
Kurs
Status: Vorschau
EDUCBA
R: Apply & Analyze K-Means Clustering for Unsupervised ML
Kurs
Status: Kostenloser Testzeitraum
IBM
Unsupervised Machine Learning
Kurs

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

5 stars
74,37 %
4 stars
19,12 %
3 stars
4,68 %
2 stars
0,75 %
1 star
1,05 %

Zeigt 3 von 2368 an

Geprüft am 8. Sep. 2017

Good presentation of topics. Detailed walk through of few advanced topics covered at the end would have been great. Felt the presentation went too fast.

Geprüft am 3. Aug. 2020

A challenging course!!! It's necessary to fix some compatibility problems with Tury and Windows, because Python 2.7 it's obsolete. I really enjoy it!!!

Geprüft am 1. März 2020

LDA is bit too much for this course. Either they should have taken a lot of time explaining the things clearly or they shouldn't have touched it. I feel it was not taught properly.

Weitere Bewertungen anzeigen

Häufig gestellte Fragen

Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Spezialisierung, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder Ihrem LinkedIn-Profil hinzufügen.

Ja. Für ausgewählte Lernprogramme können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Einschreibegebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zur Beantragung.