Columbia University
Entscheidungsfindung und Reinforcement Learning
Columbia University

Entscheidungsfindung und Reinforcement Learning

Unterrichtet auf Englisch

Einige Inhalte können nicht übersetzt werden

2.713 bereits angemeldet

Kurs

Informieren Sie sich über ein Thema und erlernen Sie die Grundlagen.

Tony Dear

Dozent: Tony Dear

4.3

(14 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Es dauert 47 Stunden
3 Wochen bei 15 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Zuordnung zwischen qualitativen Präferenzen und geeigneten quantitativen Hilfsmitteln.

  • Modellieren Sie nicht-assoziative und assoziative sequentielle Entscheidungsprobleme mit mehrarmigen Bandit-Problemen bzw. Markov-Entscheidungsprozessen

  • Implementierung von Algorithmen zur dynamischen Programmierung, um optimale Strategien zu finden

  • Implementierung grundlegender Algorithmen zum Verstärkungslernen unter Verwendung von Monte-Carlo- und Zeitdifferenzmethoden

Kompetenzen, die Sie erwerben

  • Kategorie: Monte-Carlo-Methode
  • Kategorie: Reinforcement Learning
  • Kategorie: Markov-Entscheidungsprozess
  • Kategorie: Maschinelles Lernen
  • Kategorie: Deep Learning

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

8 Quizzes

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Platzhalter
Platzhalter

Erwerben Sie ein Karrierezertifikat.

Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.

Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.

Platzhalter

In diesem Kurs gibt es 8 Module

Willkommen zu Entscheidungsfindung und Reinforcement Learning! In dieser Woche gibt Ihnen Professor Tony Dear einen Überblick über den Kurs. Außerdem erhalten Sie einen Leitfaden, der Sie bei der Modellierung von sequentiellen Entscheidungsproblemen und der Implementierung von Algorithmen des Verstärkungslernens unterstützt.

Das ist alles enthalten

6 Videos6 Lektüren1 Quiz1 Programmieraufgabe3 Diskussionsthemen1 Plug-in

Willkommen zu Woche 2! In dieser Woche werden wir uns mit mehrarmigen Banditenproblemen beschäftigen, einer Art von Optimierungsproblem, bei dem der Algorithmus ein Gleichgewicht zwischen Erkundung und Ausbeutung herstellt, um die Belohnungen zu maximieren. Zu den Themen gehören Aktionswerte und Stichprobenmittelwertschätzung, 𝜀-greedy Aktionsauswahl und die obere Vertrauensgrenze. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.

Das ist alles enthalten

3 Videos1 Lektüre1 Quiz1 Programmieraufgabe2 Diskussionsthemen

Willkommen zu Woche 3! In dieser Woche werden wir uns auf die Grundlagen des Markov-Entscheidungsprozesses konzentrieren, einschließlich Belohnungen, Nutzen, Diskontierung, Strategien, Wertfunktionen und Bellman-Gleichungen. Sie werden sequentielle Entscheidungsprobleme modellieren, die Auswirkungen von Belohnungen und Diskontierungsfaktoren auf die Ergebnisse verstehen, Strategien und Wertfunktionen definieren und Bellman-Gleichungen für optimale Lösungen schreiben. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgaben benötigen.

Das ist alles enthalten

6 Videos1 Lektüre1 Quiz1 Programmieraufgabe3 Diskussionsthemen

Willkommen zu Woche 4! Diese Woche werden wir uns mit Algorithmen der dynamischen Programmierung zur Lösung von Markov-Entscheidungsprozessen (MDPs) beschäftigen. Themen sind u.a. Wertiteration und Policy-Iteration, nichtlineare Bellman-Gleichungen, Komplexität und Konvergenz sowie ein Vergleich der beiden Ansätze. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.

Das ist alles enthalten

6 Videos1 Lektüre1 Quiz2 Programmieraufgaben3 Diskussionsthemen

Willkommen zu Woche 5! In dieser Woche werden wir die Themen partielle Beobachtbarkeit und POMDPs, Glaubenszustände, Darstellung als Glaubens-MDPs und Online-Planung in MDPs und POMDPs durchgehen. Sie werden Ihr Wissen auch anwenden, um den Glaubenszustand zu aktualisieren und eine Glaubensübergangsfunktion zur Berechnung von Zustandswerten zu verwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.

Das ist alles enthalten

5 Videos2 Lektüren1 Quiz1 Programmieraufgabe3 Diskussionsthemen

Willkommen zu Woche 6! In dieser Woche stellen wir Ihnen Monte-Carlo-Methoden vor und behandeln Themen im Zusammenhang mit der Schätzung von Zustandswerten mit Hilfe von Stichprobenmittelung und Monte-Carlo-Vorhersage, Zustandsaktionswerten und Epsilon-Greedy-Politiken sowie Wichtigkeitsstichproben für die Monte-Carlo-Kontrolle von Off-Policy und On-Policy. Sie werden lernen, Zustandswerte und Zustandsaktionswerte zu schätzen, Wichtigkeitsstichproben zu verwenden und eine Off-Policy-Monte-Carlo-Kontrolle für optimales Policy-Lernen zu implementieren. Sie können im Diskussionsforum posten, wenn Sie Hilfe für das Quiz und die Aufgabe benötigen.

Das ist alles enthalten

6 Videos2 Lektüren1 Quiz1 Programmieraufgabe2 Diskussionsthemen

Willkommen zu Woche 7! Diese Woche behandeln wir Themen im Zusammenhang mit temporalem Differenzlernen für die Vorhersage, TD-Batch-Methoden, SARSA für On-Policy-Kontrolle und Q-Learning für Off-Policy-Kontrolle. Sie werden lernen, TD-Prädiktion, TD-Batch- und Offline-Methoden, SARSA und Q-Learning zu implementieren und TD-Lernen für On-Policy und Off-Policy zu vergleichen. Anschließend werden Sie Ihr Wissen bei der Lösung einer Tic-Tac-Toe-Programmieraufgabe anwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.

Das ist alles enthalten

5 Videos2 Lektüren1 Quiz3 Programmieraufgaben2 Diskussionsthemen

Willkommen zu Woche 8! Dieses Modul befasst sich mit der n-schrittigen temporalen Differenzvorhersage, n-schrittigem SARSA (on-policy und off-policy), modellbasiertem RL mit Dyna-Q und Funktionsapproximation. Sie werden darauf vorbereitet sein, n-step TD-Lernen, n-step SARSA, Dyna-Q für modellbasiertes Lernen zu implementieren und Funktionsapproximation für Reinforcement Learning zu verwenden. Sie werden Ihr Wissen in der Programmierumgebung Frozen Lake anwenden. Sie können im Diskussionsforum posten, wenn Sie Hilfe beim Quiz und der Aufgabe benötigen.

Das ist alles enthalten

4 Videos3 Lektüren1 Quiz1 Programmieraufgabe2 Diskussionsthemen1 Plug-in

Dozent

Lehrkraftbewertungen
4.2 (5 Bewertungen)
Tony Dear
Columbia University
1 Kurs2.713 Lernende

von

Columbia University

Empfohlen, wenn Sie sich für Algorithmen interessieren

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

Zeigt 3 von 14

4.3

14 Bewertungen

  • 5 stars

    60 %

  • 4 stars

    26,66 %

  • 3 stars

    0 %

  • 2 stars

    13,33 %

  • 1 star

    0 %

QN
5

Geprüft am 20. Jan. 2024

SH
5

Geprüft am 9. Juli 2023

Platzhalter

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu über 7.000 erstklassigen Kursen, praktischen Projekten und Zertifikatsprogrammen, die Sie auf den Beruf vorbereiten – alles in Ihrem Abonnement enthalten

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Häufig gestellte Fragen