Fallstudien: Ähnliche Dokumente finden Ein Leser ist an einem bestimmten Nachrichtenartikel interessiert und Sie möchten ähnliche Artikel finden, die Sie empfehlen können. Was ist der richtige Begriff von Ähnlichkeit? Und was ist, wenn es Millionen von anderen Dokumenten gibt? Müssen Sie jedes Mal, wenn Sie ein neues Dokument abrufen wollen, alle anderen Dokumente durchsuchen? Wie können Sie ähnliche Dokumente zusammenfassen? Wie entdecken Sie neue, aufkommende Themen, die in den Dokumenten behandelt werden?
Maschinelles Lernen: Clustering & Wiederauffinden
Dieser Kurs ist Teil von Spezialisierung Maschinelles Lernen
Dozenten: Emily Fox
98.922 bereits angemeldet
Bei enthalten
(2,358 Bewertungen)
Kompetenzen, die Sie erwerben
- Kategorie: Daten-Clustering-Algorithmen
- Kategorie: K-Means Clustering
- Kategorie: Maschinelles Lernen
- Kategorie: K-D Baum
Wichtige Details
Zu Ihrem LinkedIn-Profil hinzufügen
15 Aufgaben
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Erweitern Sie Ihre Fachkenntnisse
- Lernen Sie neue Konzepte von Branchenexperten
- Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
- Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
- Erwerben Sie ein Berufszertifikat zur Vorlage
Erwerben Sie ein Karrierezertifikat.
Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.
Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.
In diesem Kurs gibt es 6 Module
Clustering und Retrieval gehören zu den wirkungsvollsten Tools für maschinelles Lernen, die es gibt. Die Suche wird in fast allen Anwendungen und Geräten verwendet, mit denen wir interagieren, z. B. bei der Bereitstellung einer Reihe von Produkten, die mit einem Produkt verwandt sind, das ein Kunde gerade in Erwägung zieht, oder einer Liste von Personen, mit denen Sie sich auf einer Social Media-Plattform verbinden möchten. Clustering kann zur Unterstützung des Retrievals verwendet werden, ist aber auch ein nützliches Werkzeug zur automatischen Erkennung von Strukturen in Daten, z.B. zur Aufdeckung von Gruppen ähnlicher Patienten.<p>Diese Einführung in den Kurs gibt Ihnen einen Überblick über die Themen, die wir behandeln werden, sowie über das Hintergrundwissen und die Ressourcen, die wir bei Ihnen voraussetzen.
Das ist alles enthalten
4 Videos5 Lektüren
Zu Beginn des Kurses betrachten wir eine Suchaufgabe, bei der es darum geht, ein Dokument zu finden, das einem Dokument ähnlich ist, das jemand gerade liest. Wir betrachten dieses Problem als eine Suche nach dem nächsten Nachbarn, ein Konzept, das wir bereits in den Kursen Grundlagen und Regression kennengelernt haben. In diesem Kurs werden Sie jedoch zwei entscheidende Komponenten der Algorithmen genauer unter die Lupe nehmen: die Datendarstellung und die Metrik zur Messung der Ähnlichkeit zwischen Datenpunktpaaren. Sie werden den Rechenaufwand des naiven Algorithmus für die Suche nach dem nächsten Nachbarn untersuchen und stattdessen skalierbare Alternativen implementieren, die KD-Bäume für die Verarbeitung großer Datensätze und ortsabhängiges Hashing (LSH) für die Bereitstellung annähernder nächster Nachbarn selbst in hochdimensionalen Räumen verwenden. Sie werden all diese Ideen anhand eines Wikipedia-Datensatzes untersuchen und die Auswirkungen der verschiedenen Optionen auf die Ergebnisse der nächsten Nachbarn vergleichen und gegenüberstellen.
Das ist alles enthalten
22 Videos4 Lektüren5 Aufgaben
Beim Clustering besteht unser Ziel darin, die Datenpunkte in unserem Datensatz in disjunkte Gruppen einzuteilen. Motiviert durch unsere Fallstudie zur Dokumentenanalyse werden Sie Clustering verwenden, um thematische Gruppen von Artikeln nach "Themen" zu entdecken. Diese Themen werden in dieser unüberwachten Lernaufgabe nicht vorgegeben. Die Idee ist vielmehr, solche Cluster-Labels auszugeben, die postfaktisch mit bekannten Themen wie "Wissenschaft", "Weltnachrichten" usw. assoziiert werden können. Auch ohne solche Post-Facto-Labels werden Sie untersuchen, wie die Clustering-Ausgabe Einblicke in die Beziehungen zwischen den Datenpunkten im Datensatz geben kann. Der erste Clustering-Algorithmus, den Sie implementieren werden, ist k-means, der am weitesten verbreitete Clustering-Algorithmus, den es gibt. Um k-means zu skalieren, lernen Sie das allgemeine MapReduce-Framework für die Parallelisierung und Verteilung von Berechnungen kennen und erfahren dann, wie die Iterate von k-means dieses Framework nutzen können. Sie werden zeigen, dass k-means eine interpretierbare Gruppierung von Wikipedia-Artikeln liefern kann, wenn es richtig eingestellt ist.
Das ist alles enthalten
13 Videos2 Lektüren3 Aufgaben
Bei k-means werden die Beobachtungen jeweils einem einzigen Cluster fest zugeordnet, und diese Zuordnungen basieren nur auf den Clusterzentren, anstatt auch die Forminformationen zu berücksichtigen. In unserem zweiten Modul zum Thema Clustering werden Sie probabilistisches, modellbasiertes Clustering durchführen, das (1) einen anschaulicheren Begriff von "Cluster" bietet und (2) die Unsicherheit bei der Zuordnung von Datenpunkten zu Clustern durch "weiche Zuordnungen" berücksichtigt. Sie werden einen weithin nützlichen Algorithmus namens Erwartungsmaximierung (EM) erforschen und implementieren, um diese weichen Zuordnungen sowie die Modellparameter abzuleiten. Um ein Gefühl dafür zu bekommen, werden Sie zunächst eine visuell ansprechende Aufgabe zum Clustering von Bildern betrachten. Anschließend werden Sie Wikipedia-Artikel clustern, wobei Sie die hohe Dimensionalität der tf-idf-Dokumentendarstellung berücksichtigen werden.
Das ist alles enthalten
15 Videos4 Lektüren3 Aufgaben
Das Clustering-Modell geht von der Annahme aus, dass die Daten in disjunkte Gruppen unterteilt sind, z.B. Dokumente nach Thema. Oft werden unsere Datenobjekte jedoch besser durch die Zugehörigkeit zu einer Sammlung von Mengen, z.B. mehreren Themen, beschrieben. In unserem vierten Modul werden Sie die latente Dirichlet-Zuordnung (LDA) als Beispiel für ein solches gemischtes Zugehörigkeitsmodell kennenlernen, das besonders bei der Dokumentenanalyse nützlich ist. Sie werden die Ergebnisse der LDA interpretieren und verschiedene Möglichkeiten kennenlernen, wie diese Ergebnisse genutzt werden können, z.B. als eine Reihe von gelernten Dokumentenmerkmalen. Die Ideen zur Modellierung gemischter Zugehörigkeit, die Sie durch LDA für die Dokumentenanalyse kennenlernen, lassen sich auf viele andere interessante Modelle und Anwendungen übertragen, wie z.B. Modelle sozialer Netzwerke, in denen Personen mehrere Zugehörigkeiten haben.<p>In diesem Modul werden Aspekte der Bayes'schen Modellierung und ein Bayes'scher Inferenzalgorithmus namens Gibbs Sampling vorgestellt. Am Ende des Moduls werden Sie in der Lage sein, einen Gibbs-Sampler für LDA zu implementieren.
Das ist alles enthalten
12 Videos2 Lektüren3 Aufgaben
Am Ende des Kurses fassen wir zusammen, was wir behandelt haben. Dabei handelt es sich sowohl um Techniken, die speziell für Clustering und Retrieval geeignet sind, als auch um grundlegende Konzepte des maschinellen Lernens, die im weiteren Sinne nützlich sind.<p>Wir geben einen kurzen Einblick in einen alternativen Clustering-Ansatz, das hierarchische Clustering, mit dem Sie anhand des Wikipedia-Datensatzes experimentieren werden. Im Anschluss an diese Erkundung erörtern wir, wie Clustering-ähnliche Ideen in anderen Bereichen wie der Segmentierung von Zeitreihen angewendet werden können. Anschließend gehen wir kurz auf einige wichtige Clustering- und Retrieval-Ideen ein, die wir in diesem Kurs nicht behandelt haben.<p> Zum Abschluss geben wir Ihnen einen Überblick darüber, was Sie im weiteren Verlauf der Spezialisierung erwartet.
Das ist alles enthalten
12 Videos2 Lektüren1 Aufgabe
Dozenten
Empfohlen, wenn Sie sich für Datenanalyse interessieren
O.P. Jindal Global University
Coursera Project Network
University of Michigan
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Bewertungen von Lernenden
2.358 Bewertungen
- 5 stars
74,42 %
- 4 stars
19,12 %
- 3 stars
4,70 %
- 2 stars
0,72 %
- 1 star
1,01 %
Zeigt 3 von 2358 an
Geprüft am 24. Aug. 2016
excellent material! It would be nice, however, to mention some reading material, books or articles, for those interested in the details and the theories behind the concepts presented in the course.
Geprüft am 22. Sep. 2016
Excellent course! Subjects are explained very well! Excellent quizzes that allow understanding of lectures better and excellent (challenging ) programming assignments.
Geprüft am 24. Jan. 2017
The material is complex and challenging, but the teaching procedure is carefully thought out in a way that you quickly get it, giving you a great sense of accomplishment.
Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:
Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Specializations, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.
Wenn Sie ein Abonnement abgeschlossen haben, erhalten Sie eine kostenlose 7-tägige Testphase, in der Sie kostenlos kündigen können. Danach gewähren wir keine Rückerstattung, aber Sie können Ihr Abonnement jederzeit kündigen. Siehe unsere vollständigen Rückerstattungsbedingungen.