Entscheidungsfindung und Reinforcement Learning

Entscheidungsfindung und Reinforcement Learning

Dozent: Tony Dear

3.449 bereits angemeldet

Bei Coursera Plus enthalten

Mehr erfahren

8 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.3

(20 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Es dauert 47 Stunden

3 Wochen bei 15 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

8 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.3

(20 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Es dauert 47 Stunden

3 Wochen bei 15 Stunden pro Woche

Flexibler Zeitplan

In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

Zuordnung zwischen qualitativen Präferenzen und geeigneten quantitativen Hilfsmitteln.
Modellieren Sie nicht-assoziative und assoziative sequentielle Entscheidungsprobleme mit mehrarmigen Bandit-Problemen bzw. Markov-Entscheidungsprozessen
Implementierung von Algorithmen zur dynamischen Programmierung, um optimale Strategien zu finden
Implementierung grundlegender Algorithmen zum Verstärkungslernen unter Verwendung von Monte-Carlo- und Zeitdifferenzmethoden

Kompetenzen, die Sie erwerben

Kategorie: Wahrscheinlichkeit & Statistik
Kategorie: Simulationen
Kategorie: Datengesteuerte Entscheidungsfindung
Kategorie: Künstliche Intelligenz und Maschinelles Lernen (KI/ML)
Kategorie: Maschinelles Lernen
Kategorie: Wahrscheinlichkeit
Kategorie: Algorithmen
Kategorie: Markov-Modell
Kategorie: Reinforcement Learning

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

8 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Erwerben Sie ein Karrierezertifikat.

Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.

Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.

In diesem Kurs gibt es 8 Module

Dieser Kurs ist eine Einführung in die sequentielle Entscheidungsfindung und das Verstärkungslernen. Wir beginnen mit einer Diskussion der Nutzentheorie, um zu lernen, wie Präferenzen für die Entscheidungsfindung dargestellt und modelliert werden können. Wir modellieren zunächst einfache Entscheidungsprobleme als mehrarmige Bandit-Probleme und diskutieren verschiedene Ansätze zur Bewertung von Feedback. Anschließend modellieren wir Entscheidungsprobleme als endliche Markov-Entscheidungsprozesse (MDPs) und erörtern deren Lösungen durch dynamische Programmieralgorithmen. Wir gehen auf den Begriff der partiellen Beobachtbarkeit in realen Problemen ein, die durch POMDPs modelliert und dann durch Online-Planungsmethoden gelöst werden. Schließlich führen wir das Problem des Verstärkungslernens ein und diskutieren zwei Paradigmen: Monte-Carlo-Methoden und zeitliches Differenzlernen. Wir schließen den Kurs mit der Feststellung, dass die beiden Paradigmen auf einem Spektrum von n-schrittigen temporalen Differenzmethoden liegen. Die Betonung von Algorithmen und Beispielen wird ein wichtiger Bestandteil dieses Kurses sein.

Willkommen zu Entscheidungsfindung und Reinforcement Learning! In dieser Woche gibt Ihnen Professor Tony Dear einen Überblick über den Kurs. Außerdem erhalten Sie einen Leitfaden, der Sie bei der Modellierung von sequentiellen Entscheidungsproblemen und der Implementierung von Algorithmen des Verstärkungslernens unterstützt.

Das ist alles enthalten

6 Videos6 Lektüren1 Aufgabe1 Programmieraufgabe3 Diskussionsthemen1 Plug-in

6 VideosInsgesamt 39 Minuten

Einführung in die Entscheidungsfindung und das Reinforcement Learning1 MinuteModulvorschau
Kurs Logistik3 Minuten
1.1 Rationale Agenten und die Nutzentheorie9 Minuten
1.2 Präferenzen und Axiome der Nutzentheorie9 Minuten
1.3 Unsichere und Multi-Attribut-Dienstprogramme9 Minuten
1.4 Wert der perfekten Information6 Minuten

6 LektürenInsgesamt 60 Minuten

Kurs-Lehrplan10 Minuten
Über den Kursleiter10 Minuten
Richtlinie für akademische Ehrlichkeit10 Minuten
Diskussionsforum Etikette10 Minuten
Umfrage vor dem Kurs10 Minuten
Materialien zur Woche 1 Lektion10 Minuten

1 AufgabeInsgesamt 30 Minuten

Nützlichkeitstheorie30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Nützlichkeitstheorie180 Minuten

3 DiskussionsthemenInsgesamt 30 Minuten

Stellen Sie sich vor!10 Minuten
Diskussion über die Nutzentheorie10 Minuten
Woche 1 Fragen und Feedback10 Minuten

1 Plug-inInsgesamt 15 Minuten

Umfrage vor dem Kurs15 Minuten

Willkommen zu Woche 2! In dieser Woche werden wir uns mit mehrarmigen Banditenproblemen beschäftigen, einer Art von Optimierungsproblem, bei dem der Algorithmus ein Gleichgewicht zwischen Erkundung und Ausbeutung herstellt, um die Belohnungen zu maximieren. Zu den Themen gehören Aktionswerte und Stichprobenmittelwertschätzung, 𝜀-greedy Aktionsauswahl und die obere Vertrauensgrenze. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.

Das ist alles enthalten

3 Videos1 Lektüre1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen

3 VideosInsgesamt 36 Minuten

2.1 Mehrarmige Banditen und Aktionswerte9 MinutenModulvorschau
2.2 Ɛ-Greedy Action Auswahl12 Minuten
2.3 Oberes Konfidenzintervall14 Minuten

1 LektüreInsgesamt 10 Minuten

Materialien zur Woche 2 Lektion10 Minuten

1 AufgabeInsgesamt 30 Minuten

Probleme mit mehrarmigen Banditen30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Probleme mit mehrarmigen Banditen180 Minuten

2 DiskussionsthemenInsgesamt 20 Minuten

Diskussion über mehrarmige Banditen10 Minuten
Woche 2 Fragen und Feedback10 Minuten

Willkommen zu Woche 3! In dieser Woche werden wir uns auf die Grundlagen des Markov-Entscheidungsprozesses konzentrieren, einschließlich Belohnungen, Nutzen, Diskontierung, Strategien, Wertfunktionen und Bellman-Gleichungen. Sie werden sequentielle Entscheidungsprobleme modellieren, die Auswirkungen von Belohnungen und Diskontierungsfaktoren auf die Ergebnisse verstehen, Strategien und Wertfunktionen definieren und Bellman-Gleichungen für optimale Lösungen schreiben. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgaben benötigen.

Das ist alles enthalten

6 Videos1 Lektüre1 Aufgabe1 Programmieraufgabe3 Diskussionsthemen

6 VideosInsgesamt 35 Minuten

3.1 Markov-Entscheidungsprozess-Rahmen4 MinutenModulvorschau
3.2 Gridworld Beispiel8 Minuten
3.3 Belohnungen, Dienstprogramme und Rabatte7 Minuten
3.4 Politiken und Wertfunktionen6 Minuten
3.5 Beispiel: Mini-Gridworld5 Minuten
3.6 Bellman-Optimalitätsgleichungen3 Minuten

1 LektüreInsgesamt 10 Minuten

Materialien zur Woche 3 Lektion10 Minuten

1 AufgabeInsgesamt 30 Minuten

Sequentielle Entscheidungsprobleme30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Bellman-Gleichungen180 Minuten

3 DiskussionsthemenInsgesamt 30 Minuten

Diskussion über das Problem der sequentiellen Entscheidung - Teil 110 Minuten
Diskussion zum Problem der sequentiellen Entscheidung - Teil 210 Minuten
Woche 3 Fragen und Feedback10 Minuten

Willkommen zu Woche 4! Diese Woche werden wir uns mit Algorithmen der dynamischen Programmierung zur Lösung von Markov-Entscheidungsprozessen (MDPs) beschäftigen. Themen sind u.a. Wertiteration und Policy-Iteration, nichtlineare Bellman-Gleichungen, Komplexität und Konvergenz sowie ein Vergleich der beiden Ansätze. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.

Das ist alles enthalten

6 Videos1 Lektüre1 Aufgabe2 Programmieraufgaben3 Diskussionsthemen

6 VideosInsgesamt 41 Minuten

4.1 Zeitlich begrenzte Werte7 MinutenModulvorschau
4.2 Wert Iteration6 Minuten
4.3 Wert Iteration Implementierung8 Minuten
4.4 Politik Iteration8 Minuten
4.5 Beispiel: Mini-Gridworld3 Minuten
4.6 Komplexität des Algorithmus7 Minuten

1 LektüreInsgesamt 10 Minuten

Woche 4 Unterrichtsmaterialien10 Minuten

1 AufgabeInsgesamt 30 Minuten

Markov-Entscheidungsprozesse30 Minuten

2 ProgrammieraufgabenInsgesamt 360 Minuten

Wert Iteration180 Minuten
Politik Iteration180 Minuten

3 DiskussionsthemenInsgesamt 35 Minuten

Diskussion über Markov Decision Processes15 Minuten
Diskussion über Policy Iteration vs. Value Iteration10 Minuten
Woche 4 Fragen und Feedback10 Minuten

Willkommen zu Woche 5! In dieser Woche werden wir die Themen partielle Beobachtbarkeit und POMDPs, Glaubenszustände, Darstellung als Glaubens-MDPs und Online-Planung in MDPs und POMDPs durchgehen. Sie werden Ihr Wissen auch anwenden, um den Glaubenszustand zu aktualisieren und eine Glaubensübergangsfunktion zur Berechnung von Zustandswerten zu verwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.

Das ist alles enthalten

5 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe3 Diskussionsthemen

5 VideosInsgesamt 35 Minuten

5.1 Partielle Beobachtbarkeit und POMDP4 MinutenModulvorschau
5.2 Glaubenszustände8 Minuten
5.3 Modell für den Übergang von Überzeugungen6 Minuten
5.4 Politiken und Wertfunktionen10 Minuten
5.5 Beispiel: Mini-Gridworld5 Minuten

2 LektürenInsgesamt 20 Minuten

Woche 5 Unterrichtsmaterialien10 Minuten
Zusammenfassung der Wochen 3, 4 und 510 Minuten

1 AufgabeInsgesamt 30 Minuten

POMDPs30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

POMDPs180 Minuten

3 DiskussionsthemenInsgesamt 35 Minuten

Diskussion über POMDPs - Teil 115 Minuten
Diskussion über POMDPs - Teil 210 Minuten
Woche 5 Fragen und Feedback10 Minuten

Willkommen zu Woche 6! In dieser Woche stellen wir Ihnen Monte-Carlo-Methoden vor und behandeln Themen im Zusammenhang mit der Schätzung von Zustandswerten mit Hilfe von Stichprobenmittelung und Monte-Carlo-Vorhersage, Zustandsaktionswerten und Epsilon-Greedy-Politiken sowie Wichtigkeitsstichproben für die Monte-Carlo-Kontrolle von Off-Policy und On-Policy. Sie werden lernen, Zustandswerte und Zustandsaktionswerte zu schätzen, Wichtigkeitsstichproben zu verwenden und eine Off-Policy-Monte-Carlo-Kontrolle für optimales Policy-Lernen zu implementieren. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.

Das ist alles enthalten

6 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen

6 VideosInsgesamt 41 Minuten

6.1 Monte Carlo Methoden5 MinutenModulvorschau
6.2 MC-Vorhersage beim ersten Besuch7 Minuten
6.3 Werte für staatliche Maßnahmen5 Minuten
6.4 Ɛ-Greedy On-Policy MC Kontrolle7 Minuten
6.5 Ein und Aus-Policy MC-Steuerung7 Minuten
6.6 Beispiel: Mini-Gridworld8 Minuten

2 LektürenInsgesamt 20 Minuten

Woche 6 Unterrichtsmaterialien10 Minuten
Lesen nach der Vorlesung10 Minuten

1 AufgabeInsgesamt 30 Minuten

Monte Carlo RL30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Monte Carlo180 Minuten

2 DiskussionsthemenInsgesamt 20 Minuten

Diskussion über Monte Carlo RL10 Minuten
Woche 6 Fragen und Feedback10 Minuten

Willkommen zu Woche 7! Diese Woche behandeln wir Themen im Zusammenhang mit temporalem Differenzlernen für die Vorhersage, TD-Batch-Methoden, SARSA für On-Policy-Kontrolle und Q-Learning für Off-Policy-Kontrolle. Sie werden lernen, TD-Prädiktion, TD-Batch- und Offline-Methoden, SARSA und Q-Learning zu implementieren und TD-Lernen für On-Policy und Off-Policy zu vergleichen. Anschließend werden Sie Ihr Wissen bei der Lösung einer Tic-Tac-Toe-Programmieraufgabe anwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.

Das ist alles enthalten

5 Videos2 Lektüren1 Aufgabe3 Programmieraufgaben2 Diskussionsthemen

5 VideosInsgesamt 35 Minuten

7.1 Lernen aus zeitlichen Unterschieden6 MinutenModulvorschau
7.2 Vorhersage der zeitlichen Abweichung5 Minuten
7.3 Stapelaktualisierung5 Minuten
7.4 TD Lernen für Kontrolle8 Minuten
7.5 SARSA vs. Q-Learning9 Minuten

2 LektürenInsgesamt 20 Minuten

Woche 7 Unterrichtsmaterialien10 Minuten
Lektüre nach der Vorlesung10 Minuten

1 AufgabeInsgesamt 30 Minuten

Lernen aus zeitlichen Unterschieden30 Minuten

3 ProgrammieraufgabenInsgesamt 420 Minuten

Tic-Tac-Toe60 Minuten
Q-Learning180 Minuten
SARSA180 Minuten

2 DiskussionsthemenInsgesamt 20 Minuten

Diskussion über Zeitliche Differenz RL10 Minuten
Woche 7 Fragen und Feedback10 Minuten

Willkommen zu Woche 8! Dieses Modul befasst sich mit der n-schrittigen temporalen Differenzvorhersage, n-schrittigem SARSA (on-policy und off-policy), modellbasiertem RL mit Dyna-Q und Funktionsapproximation. Sie werden darauf vorbereitet sein, n-step TD-Lernen, n-step SARSA, Dyna-Q für modellbasiertes Lernen zu implementieren und Funktionsapproximation für Reinforcement Learning zu verwenden. Sie werden Ihr Wissen in der Programmierumgebung Frozen Lake anwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.

Das ist alles enthalten

4 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen1 Plug-in

4 VideosInsgesamt 39 Minuten

8.1 𝑛-Schritt Temporale Differenzvorhersage10 MinutenModulvorschau
8.2 𝑛-Schritt SARSA8 Minuten
8.3 Modellgestützte Methoden8 Minuten
8.4 Funktionsannäherung11 Minuten

3 LektürenInsgesamt 30 Minuten

Woche 8 Unterrichtsmaterialien10 Minuten
Lektüre nach der Vorlesung10 Minuten
Umfrage nach dem Kurs10 Minuten

1 AufgabeInsgesamt 30 Minuten

Verallgemeinerung der tabellarischen Methoden30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Gefrorener See180 Minuten

2 DiskussionsthemenInsgesamt 25 Minuten

Verstärkungslernen im täglichen Leben15 Minuten
Woche 8 Fragen und Feedback10 Minuten

1 Plug-inInsgesamt 15 Minuten

Umfrage nach dem Kurs15 Minuten

Dozent

Lehrkraftbewertungen

4.3 (6 Bewertungen)

Tony Dear

Columbia University

1 Kurs3.449 Lernende

von

Columbia University

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

4.3

20 Bewertungen

5 stars
60 %
4 stars
25 %
3 stars
0 %
2 stars
10 %
1 star
5 %

Zeigt 3 von 20 an

Geprüft am 20. Jan. 2024

Very good introductory and basic to Reinforcement Learning. But programming assignments need more careful compilation and more attention to detail!

Geprüft am 9. Juli 2023

Well-structured course that provides a great introduction to methodologies used in reinforcement learning. I am now eager to experiment more in my own time, to consolidate what I have learned.

Weitere Bewertungen anzeigen

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Mehr erfahren

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Erkunden Sie die Abschlüsse

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Mehr erfahren

Häufig gestellte Fragen

Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:

Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie ein Zertifikat erwerben, erhalten Sie Zugang zu allen Kursmaterialien, einschließlich der benoteten Aufgaben. Nach Abschluss des Kurses wird Ihr elektronisches Zertifikat zu Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.

Sie haben Anspruch auf eine vollständige Rückerstattung bis zwei Wochen nach Ihrem Zahlungsdatum oder (bei Kursen, die gerade erst begonnen haben) bis zwei Wochen nach Beginn der ersten Sitzung des Kurses, je nachdem, welcher Zeitpunkt später liegt. Sie können keine Rückerstattung erhalten, sobald Sie ein Kurszertifikat erworben haben, auch wenn Sie den Kurs innerhalb der zweiwöchigen Rückerstattungsfrist abschließen. Siehe unsere vollständigen Rückerstattungsbedingungen.

Weitere Fragen

Besuchen Sie die das Hilfe-Center für Kursteilnehmer.

Finanzielle Unterstützung verfügbar,

Entscheidungsfindung und Reinforcement Learning

Was Sie lernen werden

Kompetenzen, die Sie erwerben

Wichtige Details

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Erwerben Sie ein Karrierezertifikat.

In diesem Kurs gibt es 8 Module

Entscheidungsfindung und Nutzentheorie

Das ist alles enthalten

Banditen Probleme

Das ist alles enthalten

Markov-Entscheidungsprozesse

Das ist alles enthalten

Dynamische Programmierung

Das ist alles enthalten

Teilweise beobachtbare Markov-Entscheidungsprozesse

Das ist alles enthalten

Monte Carlo Methoden

Das ist alles enthalten

Lernen mit Zeitdifferenzen

Das ist alles enthalten

Verstärkungslernen - Generalisierung

Das ist alles enthalten

Dozent

von

Empfohlen, wenn Sie sich für Algorithmen interessieren

Reinforcement Learning

Fundamentals of Reinforcement Learning

Sample-based Learning Methods

Reinforcement Learning in Finance

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Bewertungen von Lernenden

Neue Karrieremöglichkeiten mit Coursera Plus

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Häufig gestellte Fragen

Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?

Was erhalte ich, wenn ich das Zertifikat kaufe?

Wie sieht die Erstattungspolitik aus?

Weitere Fragen