University of Washington
Maschinelles Lernen: Clustering & Wiederauffinden
University of Washington

Maschinelles Lernen: Clustering & Wiederauffinden

Dieser Kurs ist Teil von Spezialisierung Maschinelles Lernen

Emily Fox
Carlos Guestrin

Dozenten: Emily Fox

98.922 bereits angemeldet

Bei Coursera Plus enthalten

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
4.7

(2,358 Bewertungen)

Es dauert 17 Stunden
3 Wochen bei 5 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
91%
Den meisten Lernenden hat dieser Kurs gefallen
Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.
4.7

(2,358 Bewertungen)

Es dauert 17 Stunden
3 Wochen bei 5 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
91%
Den meisten Lernenden hat dieser Kurs gefallen

Kompetenzen, die Sie erwerben

  • Kategorie: Daten-Clustering-Algorithmen
  • Kategorie: K-Means Clustering
  • Kategorie: Maschinelles Lernen
  • Kategorie: K-D Baum

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

15 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Platzhalter

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung Maschinelles Lernen
Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.
  • Lernen Sie neue Konzepte von Branchenexperten
  • Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
  • Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
  • Erwerben Sie ein Berufszertifikat zur Vorlage
Platzhalter
Platzhalter

Erwerben Sie ein Karrierezertifikat.

Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.

Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.

Platzhalter

In diesem Kurs gibt es 6 Module

Clustering und Retrieval gehören zu den wirkungsvollsten Tools für maschinelles Lernen, die es gibt. Die Suche wird in fast allen Anwendungen und Geräten verwendet, mit denen wir interagieren, z. B. bei der Bereitstellung einer Reihe von Produkten, die mit einem Produkt verwandt sind, das ein Kunde gerade in Erwägung zieht, oder einer Liste von Personen, mit denen Sie sich auf einer Social Media-Plattform verbinden möchten. Clustering kann zur Unterstützung des Retrievals verwendet werden, ist aber auch ein nützliches Werkzeug zur automatischen Erkennung von Strukturen in Daten, z.B. zur Aufdeckung von Gruppen ähnlicher Patienten.<p>Diese Einführung in den Kurs gibt Ihnen einen Überblick über die Themen, die wir behandeln werden, sowie über das Hintergrundwissen und die Ressourcen, die wir bei Ihnen voraussetzen.

Das ist alles enthalten

4 Videos5 Lektüren

Zu Beginn des Kurses betrachten wir eine Suchaufgabe, bei der es darum geht, ein Dokument zu finden, das einem Dokument ähnlich ist, das jemand gerade liest. Wir betrachten dieses Problem als eine Suche nach dem nächsten Nachbarn, ein Konzept, das wir bereits in den Kursen Grundlagen und Regression kennengelernt haben. In diesem Kurs werden Sie jedoch zwei entscheidende Komponenten der Algorithmen genauer unter die Lupe nehmen: die Datendarstellung und die Metrik zur Messung der Ähnlichkeit zwischen Datenpunktpaaren. Sie werden den Rechenaufwand des naiven Algorithmus für die Suche nach dem nächsten Nachbarn untersuchen und stattdessen skalierbare Alternativen implementieren, die KD-Bäume für die Verarbeitung großer Datensätze und ortsabhängiges Hashing (LSH) für die Bereitstellung annähernder nächster Nachbarn selbst in hochdimensionalen Räumen verwenden. Sie werden all diese Ideen anhand eines Wikipedia-Datensatzes untersuchen und die Auswirkungen der verschiedenen Optionen auf die Ergebnisse der nächsten Nachbarn vergleichen und gegenüberstellen.

Das ist alles enthalten

22 Videos4 Lektüren5 Aufgaben

Beim Clustering besteht unser Ziel darin, die Datenpunkte in unserem Datensatz in disjunkte Gruppen einzuteilen. Motiviert durch unsere Fallstudie zur Dokumentenanalyse werden Sie Clustering verwenden, um thematische Gruppen von Artikeln nach "Themen" zu entdecken. Diese Themen werden in dieser unüberwachten Lernaufgabe nicht vorgegeben. Die Idee ist vielmehr, solche Cluster-Labels auszugeben, die postfaktisch mit bekannten Themen wie "Wissenschaft", "Weltnachrichten" usw. assoziiert werden können. Auch ohne solche Post-Facto-Labels werden Sie untersuchen, wie die Clustering-Ausgabe Einblicke in die Beziehungen zwischen den Datenpunkten im Datensatz geben kann. Der erste Clustering-Algorithmus, den Sie implementieren werden, ist k-means, der am weitesten verbreitete Clustering-Algorithmus, den es gibt. Um k-means zu skalieren, lernen Sie das allgemeine MapReduce-Framework für die Parallelisierung und Verteilung von Berechnungen kennen und erfahren dann, wie die Iterate von k-means dieses Framework nutzen können. Sie werden zeigen, dass k-means eine interpretierbare Gruppierung von Wikipedia-Artikeln liefern kann, wenn es richtig eingestellt ist.

Das ist alles enthalten

13 Videos2 Lektüren3 Aufgaben

Bei k-means werden die Beobachtungen jeweils einem einzigen Cluster fest zugeordnet, und diese Zuordnungen basieren nur auf den Clusterzentren, anstatt auch die Forminformationen zu berücksichtigen. In unserem zweiten Modul zum Thema Clustering werden Sie probabilistisches, modellbasiertes Clustering durchführen, das (1) einen anschaulicheren Begriff von "Cluster" bietet und (2) die Unsicherheit bei der Zuordnung von Datenpunkten zu Clustern durch "weiche Zuordnungen" berücksichtigt. Sie werden einen weithin nützlichen Algorithmus namens Erwartungsmaximierung (EM) erforschen und implementieren, um diese weichen Zuordnungen sowie die Modellparameter abzuleiten. Um ein Gefühl dafür zu bekommen, werden Sie zunächst eine visuell ansprechende Aufgabe zum Clustering von Bildern betrachten. Anschließend werden Sie Wikipedia-Artikel clustern, wobei Sie die hohe Dimensionalität der tf-idf-Dokumentendarstellung berücksichtigen werden.

Das ist alles enthalten

15 Videos4 Lektüren3 Aufgaben

Das Clustering-Modell geht von der Annahme aus, dass die Daten in disjunkte Gruppen unterteilt sind, z.B. Dokumente nach Thema. Oft werden unsere Datenobjekte jedoch besser durch die Zugehörigkeit zu einer Sammlung von Mengen, z.B. mehreren Themen, beschrieben. In unserem vierten Modul werden Sie die latente Dirichlet-Zuordnung (LDA) als Beispiel für ein solches gemischtes Zugehörigkeitsmodell kennenlernen, das besonders bei der Dokumentenanalyse nützlich ist. Sie werden die Ergebnisse der LDA interpretieren und verschiedene Möglichkeiten kennenlernen, wie diese Ergebnisse genutzt werden können, z.B. als eine Reihe von gelernten Dokumentenmerkmalen. Die Ideen zur Modellierung gemischter Zugehörigkeit, die Sie durch LDA für die Dokumentenanalyse kennenlernen, lassen sich auf viele andere interessante Modelle und Anwendungen übertragen, wie z.B. Modelle sozialer Netzwerke, in denen Personen mehrere Zugehörigkeiten haben.<p>In diesem Modul werden Aspekte der Bayes'schen Modellierung und ein Bayes'scher Inferenzalgorithmus namens Gibbs Sampling vorgestellt. Am Ende des Moduls werden Sie in der Lage sein, einen Gibbs-Sampler für LDA zu implementieren.

Das ist alles enthalten

12 Videos2 Lektüren3 Aufgaben

Am Ende des Kurses fassen wir zusammen, was wir behandelt haben. Dabei handelt es sich sowohl um Techniken, die speziell für Clustering und Retrieval geeignet sind, als auch um grundlegende Konzepte des maschinellen Lernens, die im weiteren Sinne nützlich sind.<p>Wir geben einen kurzen Einblick in einen alternativen Clustering-Ansatz, das hierarchische Clustering, mit dem Sie anhand des Wikipedia-Datensatzes experimentieren werden. Im Anschluss an diese Erkundung erörtern wir, wie Clustering-ähnliche Ideen in anderen Bereichen wie der Segmentierung von Zeitreihen angewendet werden können. Anschließend gehen wir kurz auf einige wichtige Clustering- und Retrieval-Ideen ein, die wir in diesem Kurs nicht behandelt haben.<p> Zum Abschluss geben wir Ihnen einen Überblick darüber, was Sie im weiteren Verlauf der Spezialisierung erwartet.

Das ist alles enthalten

12 Videos2 Lektüren1 Aufgabe

Dozenten

Lehrkraftbewertungen
4.8 (91 Bewertungen)
Emily Fox
University of Washington
6 Kurse481.173 Lernende
Carlos Guestrin
University of Washington
8 Kurse481.949 Lernende

von

Empfohlen, wenn Sie sich für Datenanalyse interessieren

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

4.7

2.358 Bewertungen

  • 5 stars

    74,42 %

  • 4 stars

    19,12 %

  • 3 stars

    4,70 %

  • 2 stars

    0,72 %

  • 1 star

    1,01 %

Zeigt 3 von 2358 an

BK
5

Geprüft am 24. Aug. 2016

OK
5

Geprüft am 22. Sep. 2016

DP
5

Geprüft am 24. Jan. 2017

Platzhalter

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Häufig gestellte Fragen