Dieser Kurs ist eine Einführung in die sequentielle Entscheidungsfindung und das Verstärkungslernen. Wir beginnen mit einer Diskussion der Nutzentheorie, um zu lernen, wie Präferenzen für die Entscheidungsfindung dargestellt und modelliert werden können. Wir modellieren zunächst einfache Entscheidungsprobleme als mehrarmige Bandit-Probleme und diskutieren verschiedene Ansätze zur Bewertung von Feedback. Anschließend modellieren wir Entscheidungsprobleme als endliche Markov-Entscheidungsprozesse (MDPs) und erörtern deren Lösungen durch dynamische Programmieralgorithmen. Wir gehen auf den Begriff der partiellen Beobachtbarkeit in realen Problemen ein, die durch POMDPs modelliert und dann durch Online-Planungsmethoden gelöst werden. Schließlich führen wir das Problem des Verstärkungslernens ein und diskutieren zwei Paradigmen: Monte-Carlo-Methoden und zeitliches Differenzlernen. Wir schließen den Kurs mit der Feststellung, dass die beiden Paradigmen auf einem Spektrum von n-schrittigen temporalen Differenzmethoden liegen. Die Betonung von Algorithmen und Beispielen wird ein wichtiger Bestandteil dieses Kurses sein.
Entscheidungsfindung und Reinforcement Learning
Dozent: Tony Dear
2.971 bereits angemeldet
Bei enthalten
(17 Bewertungen)
Empfohlene Erfahrung
Was Sie lernen werden
Zuordnung zwischen qualitativen Präferenzen und geeigneten quantitativen Hilfsmitteln.
Modellieren Sie nicht-assoziative und assoziative sequentielle Entscheidungsprobleme mit mehrarmigen Bandit-Problemen bzw. Markov-Entscheidungsprozessen
Implementierung von Algorithmen zur dynamischen Programmierung, um optimale Strategien zu finden
Implementierung grundlegender Algorithmen zum Verstärkungslernen unter Verwendung von Monte-Carlo- und Zeitdifferenzmethoden
Kompetenzen, die Sie erwerben
- Kategorie: Monte-Carlo-Methode
- Kategorie: Reinforcement Learning
- Kategorie: Markov-Entscheidungsprozess
- Kategorie: Maschinelles Lernen
- Kategorie: Deep Learning
Wichtige Details
Zu Ihrem LinkedIn-Profil hinzufügen
8 Aufgaben
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Erwerben Sie ein Karrierezertifikat.
Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.
Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.
In diesem Kurs gibt es 8 Module
Willkommen zu Entscheidungsfindung und Reinforcement Learning! In dieser Woche gibt Ihnen Professor Tony Dear einen Überblick über den Kurs. Außerdem erhalten Sie einen Leitfaden, der Sie bei der Modellierung von sequentiellen Entscheidungsproblemen und der Implementierung von Algorithmen des Verstärkungslernens unterstützt.
Das ist alles enthalten
6 Videos6 Lektüren1 Aufgabe1 Programmieraufgabe3 Diskussionsthemen1 Plug-in
Willkommen zu Woche 2! In dieser Woche werden wir uns mit mehrarmigen Banditenproblemen beschäftigen, einer Art von Optimierungsproblem, bei dem der Algorithmus ein Gleichgewicht zwischen Erkundung und Ausbeutung herstellt, um die Belohnungen zu maximieren. Zu den Themen gehören Aktionswerte und Stichprobenmittelwertschätzung, 𝜀-greedy Aktionsauswahl und die obere Vertrauensgrenze. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.
Das ist alles enthalten
3 Videos1 Lektüre1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen
Willkommen zu Woche 3! In dieser Woche werden wir uns auf die Grundlagen des Markov-Entscheidungsprozesses konzentrieren, einschließlich Belohnungen, Nutzen, Diskontierung, Strategien, Wertfunktionen und Bellman-Gleichungen. Sie werden sequentielle Entscheidungsprobleme modellieren, die Auswirkungen von Belohnungen und Diskontierungsfaktoren auf die Ergebnisse verstehen, Strategien und Wertfunktionen definieren und Bellman-Gleichungen für optimale Lösungen schreiben. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgaben benötigen.
Das ist alles enthalten
6 Videos1 Lektüre1 Aufgabe1 Programmieraufgabe3 Diskussionsthemen
Willkommen zu Woche 4! Diese Woche werden wir uns mit Algorithmen der dynamischen Programmierung zur Lösung von Markov-Entscheidungsprozessen (MDPs) beschäftigen. Themen sind u.a. Wertiteration und Policy-Iteration, nichtlineare Bellman-Gleichungen, Komplexität und Konvergenz sowie ein Vergleich der beiden Ansätze. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.
Das ist alles enthalten
6 Videos1 Lektüre1 Aufgabe2 Programmieraufgaben3 Diskussionsthemen
Willkommen zu Woche 5! In dieser Woche werden wir die Themen partielle Beobachtbarkeit und POMDPs, Glaubenszustände, Darstellung als Glaubens-MDPs und Online-Planung in MDPs und POMDPs durchgehen. Sie werden Ihr Wissen auch anwenden, um den Glaubenszustand zu aktualisieren und eine Glaubensübergangsfunktion zur Berechnung von Zustandswerten zu verwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.
Das ist alles enthalten
5 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe3 Diskussionsthemen
Willkommen zu Woche 6! In dieser Woche stellen wir Ihnen Monte-Carlo-Methoden vor und behandeln Themen im Zusammenhang mit der Schätzung von Zustandswerten mit Hilfe von Stichprobenmittelung und Monte-Carlo-Vorhersage, Zustandsaktionswerten und Epsilon-Greedy-Politiken sowie Wichtigkeitsstichproben für die Monte-Carlo-Kontrolle von Off-Policy und On-Policy. Sie werden lernen, Zustandswerte und Zustandsaktionswerte zu schätzen, Wichtigkeitsstichproben zu verwenden und eine Off-Policy-Monte-Carlo-Kontrolle für optimales Policy-Lernen zu implementieren. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.
Das ist alles enthalten
6 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen
Willkommen zu Woche 7! Diese Woche behandeln wir Themen im Zusammenhang mit temporalem Differenzlernen für die Vorhersage, TD-Batch-Methoden, SARSA für On-Policy-Kontrolle und Q-Learning für Off-Policy-Kontrolle. Sie werden lernen, TD-Prädiktion, TD-Batch- und Offline-Methoden, SARSA und Q-Learning zu implementieren und TD-Lernen für On-Policy und Off-Policy zu vergleichen. Anschließend werden Sie Ihr Wissen bei der Lösung einer Tic-Tac-Toe-Programmieraufgabe anwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.
Das ist alles enthalten
5 Videos2 Lektüren1 Aufgabe3 Programmieraufgaben2 Diskussionsthemen
Willkommen zu Woche 8! Dieses Modul befasst sich mit der n-schrittigen temporalen Differenzvorhersage, n-schrittigem SARSA (on-policy und off-policy), modellbasiertem RL mit Dyna-Q und Funktionsapproximation. Sie werden darauf vorbereitet sein, n-step TD-Lernen, n-step SARSA, Dyna-Q für modellbasiertes Lernen zu implementieren und Funktionsapproximation für Reinforcement Learning zu verwenden. Sie werden Ihr Wissen in der Programmierumgebung Frozen Lake anwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.
Das ist alles enthalten
4 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen1 Plug-in
Dozent
Empfohlen, wenn Sie sich für Algorithmen interessieren
University of Michigan
University of Colorado Boulder
New York University
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Bewertungen von Lernenden
Zeigt 3 von 17
17 Bewertungen
- 5 stars
61,11 %
- 4 stars
22,22 %
- 3 stars
0 %
- 2 stars
11,11 %
- 1 star
5,55 %
Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu über 7.000 erstklassigen Kursen, praktischen Projekten und Zertifikatsprogrammen, die Sie auf den Beruf vorbereiten – alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:
Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Wenn Sie ein Zertifikat erwerben, erhalten Sie Zugang zu allen Kursmaterialien, einschließlich der benoteten Aufgaben. Nach Abschluss des Kurses wird Ihr elektronisches Zertifikat zu Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.
Sie haben Anspruch auf eine vollständige Rückerstattung bis zwei Wochen nach Ihrem Zahlungsdatum oder (bei Kursen, die gerade erst begonnen haben) bis zwei Wochen nach Beginn der ersten Sitzung des Kurses, je nachdem, welcher Zeitpunkt später liegt. Sie können keine Rückerstattung erhalten, sobald Sie ein Kurszertifikat erworben haben, auch wenn Sie den Kurs innerhalb der zweiwöchigen Rückerstattungsfrist abschließen. Siehe unsere vollständigen Rückerstattungsbedingungen.