Vorhersage und Kontrolle mit Funktionsannäherung

Vorhersage und Kontrolle mit Funktionsannäherung

Dieser Kurs ist Teil von Spezialisierung Reinforcement Learning

Dozenten: Martha White

27.643 bereits angemeldet

Bei Coursera Plus enthalten

Mehr erfahren

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.8

(838 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

Ca. 21 Stunden

In Ihrem eigenen Lerntempo lernen

91%

Den meisten Lernenden hat dieser Kurs gefallen

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.8

(838 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

Ca. 21 Stunden

In Ihrem eigenen Lerntempo lernen

91%

Den meisten Lernenden hat dieser Kurs gefallen

Kompetenzen, die Sie erwerben

Kategorie: Lineare Algebra
Kategorie: Pseudocode
Kategorie: Maschinelles Lernen
Kategorie: Algorithmen für maschinelles Lernen
Kategorie: Wahrscheinlichkeitsverteilung
Kategorie: Künstliche neuronale Netze
Kategorie: Reinforcement Learning
Kategorie: Deep Learning
Kategorie: Überwachtes Lernen

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

4 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung Reinforcement Learning

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 5 Module

In diesem Kurs werden Sie lernen, wie man Probleme mit großen, hochdimensionalen und potentiell unendlichen Zustandsräumen löst. Sie werden sehen, dass die Schätzung von Wertfunktionen als ein Problem des überwachten Lernens - der Funktionsannäherung - betrachtet werden kann, das es Ihnen ermöglicht, Agenten zu entwickeln, die sorgfältig zwischen Generalisierung und Unterscheidung abwägen, um die Belohnung zu maximieren. Wir beginnen diese Reise, indem wir untersuchen, wie unsere Methoden zur Bewertung oder Vorhersage von Richtlinien wie Monte Carlo und TD auf die Funktionsannäherung erweitert werden können. Sie werden Techniken zur Konstruktion von Merkmalen für RL und das Lernen von Repräsentationen über neuronale Netze und Backprop kennenlernen. Wir schließen diesen Kurs mit einem tiefen Einblick in Policy-Gradienten-Methoden ab, eine Möglichkeit, Policies direkt zu lernen, ohne eine Wertfunktion zu lernen. In diesem Kurs werden Sie zwei Steuerungsaufgaben mit kontinuierlichen Zuständen lösen und die Vorteile von Policy-Gradienten-Methoden in einer Umgebung mit kontinuierlichen Aktionen untersuchen.

Voraussetzungen: Dieser Kurs baut stark auf den Grundlagen der Kurse 1 und 2 auf und die Lernenden sollten diese abgeschlossen haben, bevor sie diesen Kurs beginnen. Die Teilnehmer sollten außerdem mit Wahrscheinlichkeiten und Erwartungen, grundlegender linearer Algebra, Grundrechenarten, Python 3.0 (mindestens 1 Jahr) und der Implementierung von Algorithmen aus Pseudocode vertraut sein. Am Ende dieses Kurses werden Sie in der Lage sein: -Verstehen, wie man Ansätze des überwachten Lernens verwendet, um Wertfunktionen zu approximieren -Verstehen der Ziele für die Vorhersage (Wertschätzung) unter Funktionsapproximation -Implementieren von TD mit Funktionsapproximation (Zustandsaggregation), in einer Umgebung mit einem unendlichen Zustandsraum (kontinuierlicher Zustandsraum) -Verstehen von Ansätzen mit fester Basis und neuronalen Netzen zur Konstruktion von Merkmalen -Umsetzung von TD mit Funktionsapproximation durch neuronale Netze in einer Umgebung mit kontinuierlichen Zuständen -Verstehen neuer Schwierigkeiten bei der Exploration, wenn man zur Funktionsapproximation übergeht -Vergleich von diskontierten Problemformulierungen für die Kontrolle mit einer durchschnittlichen Belohnungsproblemformulierung -Implementierung von Expected Sarsa und Q-Learning mit Funktionsapproximation in einer Kontrollaufgabe mit kontinuierlichem Zustand -Verständnis von Zielen für die direkte Schätzung von Strategien (Policy-Gradient-Ziele) -Implementierung einer Policy-Gradient-Methode (genannt Actor-Critic) in einer Umgebung mit diskretem Zustand

Willkommen zum dritten Kurs der Reinforcement Learning Specialization: Prediction and Control with Function Approximation, der Ihnen von der University of Alberta, Onlea und Coursera angeboten wird. In diesem Modul zur Vorbereitung auf den Kurs lernen Sie Ihre Dozenten kennen und erhalten einen Vorgeschmack auf das, was der Kurs für Sie bereithält. Stellen Sie sich Ihren Mitschülern im Abschnitt "Meet and Greet" vor!

Das ist alles enthalten

2 Videos2 Lektüren1 Diskussionsthema

In dieser Woche werden Sie lernen, wie man eine Wertfunktion für eine gegebene Strategie schätzt, wenn die Anzahl der Zustände viel größer ist als der dem Agenten zur Verfügung stehende Speicher. Sie werden lernen, wie Sie eine parametrische Form der Wertfunktion angeben, wie Sie eine Zielfunktion spezifizieren und wie die Schätzung des Gradientenabstiegs verwendet werden kann, um Werte aus der Interaktion mit der Welt zu schätzen.

Das ist alles enthalten

13 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

13 VideosInsgesamt 68 Minuten

Wechsel zu parametrisierten Funktionen6 MinutenModulvorschau
Generalisierung und Diskriminierung5 Minuten
Schätzung von Werten als überwachtes Lernen3 Minuten
Der Wertfehler Ziel4 Minuten
Einführung in den Gradientenabstieg7 Minuten
Gradient Monte für die Politikbewertung5 Minuten
Zustandsaggregation mit Monte Carlo7 Minuten
Semi-Gradient TD für die Politikbewertung3 Minuten
Vergleich von TD und Monte Carlo mit State Aggregation4 Minuten
Doina Precup: Wissen für KI-Agenten mit Reinforcement Learning aufbauen7 Minuten
Das Linear TD Update3 Minuten
Das wahre Ziel für TD5 Minuten
Woche 1 Zusammenfassung4 Minuten

2 LektürenInsgesamt 50 Minuten

Modul 1 Lernziele10 Minuten
Wöchentliche Lektüre: On-Policy-Vorhersage mit Approximation40 Minuten

1 AufgabeInsgesamt 30 Minuten

On-Policy-Vorhersage mit Approximation30 Minuten

1 ProgrammieraufgabeInsgesamt 120 Minuten

Semi-gradient TD(0) mit Zustandsaggregation120 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Gute Ziele für die Kontrolle10 Minuten

Die Merkmale, die zur Konstruktion der Wertschätzungen des Agenten verwendet werden, sind vielleicht der wichtigste Teil eines erfolgreichen Lernsystems. In diesem Modul diskutieren wir zwei grundlegende Strategien für die Konstruktion von Merkmalen: (1) eine feste Basis, die eine erschöpfende Partition der Eingabe bildet, und (2) die Anpassung der Merkmale, während der Agent mit Hilfe von Neuronalen Netzen und Backpropagation mit der Welt interagiert. In der benoteten Aufgabe dieser Woche werden Sie eine einfache, aber unendliche Zustandsvorhersageaufgabe mit einem Neuronalen Netzwerk und TD-Lernen lösen.

Das ist alles enthalten

11 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

11 VideosInsgesamt 52 Minuten

Grobe Kodierung3 MinutenModulvorschau
Verallgemeinerungseigenschaften der Grobkodierung5 Minuten
Kachel-Codierung3 Minuten
Kachelcodierung in TD verwenden4 Minuten
Was ist ein neuronales Netzwerk?3 Minuten
Nichtlineare Approximation mit neuronalen Netzen4 Minuten
Tiefe neuronale Netze3 Minuten
Gradientenabstieg für das Training neuronaler Netze8 Minuten
Optimierungsstrategien für NNs4 Minuten
David Silver über Deep Learning + RL = AI?9 Minuten
Rückblick auf Woche 22 Minuten

2 LektürenInsgesamt 50 Minuten

Modul 2 Lernziele10 Minuten
Wöchentliche Lektüre: On-Policy-Vorhersage mit Approximation II40 Minuten

1 AufgabeInsgesamt 28 Minuten

Merkmale für die Vorhersage konstruieren28 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Semi-gradient TD mit einem neuronalen Netzwerk180 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Merkmale für die Vorhersage konstruieren10 Minuten

In dieser Woche werden Sie sehen, dass die Konzepte und Werkzeuge, die in den Modulen zwei und drei eingeführt wurden, eine unkomplizierte Erweiterung der klassischen TD-Kontrollmethoden auf die Funktionsapproximation ermöglichen. Insbesondere werden Sie lernen, wie Sie die optimale Strategie in MDPs mit unendlichen Zuständen finden können, indem Sie einfach Semi-Gradienten-TD-Methoden mit verallgemeinerter Iteration der Strategie kombinieren, was zu klassischen Kontrollmethoden wie Q-learning und Sarsa führt. Wir schließen mit einer Diskussion über eine neue Problemformulierung für RL - die durchschnittliche Belohnung -, die in Zukunft zweifellos in vielen Anwendungen von RL zum Einsatz kommen wird.

Das ist alles enthalten

7 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen

7 VideosInsgesamt 40 Minuten

Episodische Sarsa mit Funktionsannäherung4 MinutenModulvorschau
Episodische Sarsa im Bergwagen5 Minuten
Erwartete Sarsa mit Funktionsannäherung2 Minuten
Exploration unter Funktionsannäherung3 Minuten
Durchschnittliche Belohnung: Eine neue Art der Formulierung von Kontrollproblemen10 Minuten
Satinder Singh über intrinsische Belohnungen12 Minuten
Rückblick auf Woche 32 Minuten

2 LektürenInsgesamt 50 Minuten

Modul 3 Lernziele10 Minuten
Wöchentliche Lektüre: On-Policy-Kontrolle mit Approximation40 Minuten

1 AufgabeInsgesamt 40 Minuten

Steuerung mit Approximation40 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Funktionsannäherung und Kontrolle180 Minuten

2 DiskussionsthemenInsgesamt 20 Minuten

Kontrolle mit FA #110 Minuten
Kontrolle mit FA #210 Minuten

Jeder Algorithmus, den Sie bisher kennen gelernt haben, schätzt eine Wertfunktion als Zwischenschritt auf dem Weg zu einer optimalen Strategie. Eine alternative Strategie besteht darin, die Parameter der Strategie direkt zu lernen. In dieser Woche lernen Sie diese Policy-Gradienten-Methoden kennen und erfahren, welche Vorteile sie gegenüber wertfunktionsbasierten Methoden haben. Sie werden auch erfahren, wie Policy-Gradienten-Methoden verwendet werden können, um die optimale Strategie bei Aufgaben mit kontinuierlichen Zustands- und Aktionsräumen zu finden.

Das ist alles enthalten

11 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

11 VideosInsgesamt 54 Minuten

Policen direkt lernen5 MinutenModulvorschau
Vorteile der Richtlinienparametrisierung5 Minuten
Das Ziel für Lernpolitiken5 Minuten
Das Theorem des politischen Gradienten5 Minuten
Schätzung des politischen Gradienten4 Minuten
Schauspieler-Kritik-Algorithmus5 Minuten
Akteurskritik mit Softmax-Politiken3 Minuten
Demonstration mit Actor-Critic6 Minuten
Gaußsche Politiken für kontinuierliche Handlungen7 Minuten
Woche 4 Zusammenfassung3 Minuten
Herzlichen Glückwunsch! Kurs 4 Vorschau2 Minuten

2 LektürenInsgesamt 50 Minuten

Modul 4 Lernziele10 Minuten
Wöchentliche Lektüre: Politische Gradientenmethoden40 Minuten

1 AufgabeInsgesamt 45 Minuten

Politik Gradient Methoden45 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Durchschnittliche Belohnung Softmax Actor-Critic mit Kachel-Codierung180 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Politik Gradient Methoden10 Minuten

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Lehrkraftbewertungen

4.8 (110 Bewertungen)

Martha White

University of Alberta

4 Kurse107.025 Lernende

Adam White

University of Alberta

4 Kurse107.025 Lernende

von

University of Alberta

Alberta Machine Intelligence Institute

Mehr von Maschinelles Lernen entdecken

Status: Kostenloser Testzeitraum
University of Alberta
Fundamentals of Reinforcement Learning
Kurs
Status: Kostenloser Testzeitraum
University of Colorado Boulder
Approximation Algorithms and Linear Programming
Kurs
Status: Kostenloser Testzeitraum
University of Alberta
Sample-based Learning Methods
Kurs
Status: Kostenloser Testzeitraum
University of Alberta
Reinforcement Learning
Spezialisierung

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

4.8

838 Bewertungen

5 stars
84,52 %
4 stars
12,26 %
3 stars
2,14 %
2 stars
0,71 %
1 star
0,35 %

Zeigt 3 von 838 an

Geprüft am 9. Nov. 2019

Great course. Slightly more complex than courses 1 and 2, but a huge improvement in terms of applicability to real-world situations.

Geprüft am 31. Mai 2020

I had been reading the book of Reinforcement Learning An Introduction by myself. This class helped me to finish the study with a great learning environment. Thank you, Martha and Adam!

Geprüft am 26. Feb. 2020

more detailed explanation of some of the assignments and how state values are got with tile coding but overall a great experience!

Weitere Bewertungen anzeigen

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Mehr erfahren

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Erkunden Sie die Abschlüsse

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Mehr erfahren

Häufig gestellte Fragen

Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:

Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Specializations, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.

Wenn Sie ein Abonnement abgeschlossen haben, erhalten Sie eine kostenlose 7-tägige Testphase, in der Sie kostenlos kündigen können. Danach gewähren wir keine Rückerstattung, aber Sie können Ihr Abonnement jederzeit kündigen. Siehe unsere vollständigen Rückerstattungsbedingungen.