In diesem Kurs werden Sie lernen, wie man Probleme mit großen, hochdimensionalen und potentiell unendlichen Zustandsräumen löst. Sie werden sehen, dass die Schätzung von Wertfunktionen als ein Problem des überwachten Lernens - der Funktionsannäherung - betrachtet werden kann, das es Ihnen ermöglicht, Agenten zu entwickeln, die sorgfältig zwischen Generalisierung und Unterscheidung abwägen, um die Belohnung zu maximieren. Wir beginnen diese Reise, indem wir untersuchen, wie unsere Methoden zur Bewertung oder Vorhersage von Richtlinien wie Monte Carlo und TD auf die Funktionsannäherung erweitert werden können. Sie werden Techniken zur Konstruktion von Merkmalen für RL und das Lernen von Repräsentationen über neuronale Netze und Backprop kennenlernen. Wir schließen diesen Kurs mit einem tiefen Einblick in Policy-Gradienten-Methoden ab, eine Möglichkeit, Policies direkt zu lernen, ohne eine Wertfunktion zu lernen. In diesem Kurs werden Sie zwei Steuerungsaufgaben mit kontinuierlichen Zuständen lösen und die Vorteile von Policy-Gradienten-Methoden in einer Umgebung mit kontinuierlichen Aktionen untersuchen.
Vorhersage und Kontrolle mit Funktionsannäherung
Dieser Kurs ist Teil von Spezialisierung Reinforcement Learning
Dozenten: Martha White
25.764 bereits angemeldet
Bei enthalten
(820 Bewertungen)
Empfohlene Erfahrung
Kompetenzen, die Sie erwerben
- Kategorie: Funktion Approximation
- Kategorie: Künstliche Intelligenz (KI)
- Kategorie: Reinforcement Learning
- Kategorie: Maschinelles Lernen
- Kategorie: Intelligente Systeme
Wichtige Details
Zu Ihrem LinkedIn-Profil hinzufügen
4 Aufgaben
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Erweitern Sie Ihre Fachkenntnisse
- Lernen Sie neue Konzepte von Branchenexperten
- Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
- Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
- Erwerben Sie ein Berufszertifikat zur Vorlage
Erwerben Sie ein Karrierezertifikat.
Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.
Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.
In diesem Kurs gibt es 5 Module
Willkommen zum dritten Kurs der Reinforcement Learning Specialization: Prediction and Control with Function Approximation, der Ihnen von der University of Alberta, Onlea und Coursera angeboten wird. In diesem Modul zur Vorbereitung auf den Kurs lernen Sie Ihre Dozenten kennen und erhalten einen Vorgeschmack auf das, was der Kurs für Sie bereithält. Stellen Sie sich Ihren Mitschülern im Abschnitt "Meet and Greet" vor!
Das ist alles enthalten
2 Videos2 Lektüren1 Diskussionsthema
In dieser Woche werden Sie lernen, wie man eine Wertfunktion für eine gegebene Strategie schätzt, wenn die Anzahl der Zustände viel größer ist als der dem Agenten zur Verfügung stehende Speicher. Sie werden lernen, wie Sie eine parametrische Form der Wertfunktion angeben, wie Sie eine Zielfunktion spezifizieren und wie die Schätzung des Gradientenabstiegs verwendet werden kann, um Werte aus der Interaktion mit der Welt zu schätzen.
Das ist alles enthalten
13 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema
Die Merkmale, die zur Konstruktion der Wertschätzungen des Agenten verwendet werden, sind vielleicht der wichtigste Teil eines erfolgreichen Lernsystems. In diesem Modul diskutieren wir zwei grundlegende Strategien für die Konstruktion von Merkmalen: (1) eine feste Basis, die eine erschöpfende Partition der Eingabe bildet, und (2) die Anpassung der Merkmale, während der Agent mit Hilfe von Neuronalen Netzen und Backpropagation mit der Welt interagiert. In der benoteten Aufgabe dieser Woche werden Sie eine einfache, aber unendliche Zustandsvorhersageaufgabe mit einem Neuronalen Netzwerk und TD-Lernen lösen.
Das ist alles enthalten
11 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema
In dieser Woche werden Sie sehen, dass die Konzepte und Werkzeuge, die in den Modulen zwei und drei eingeführt wurden, eine unkomplizierte Erweiterung der klassischen TD-Kontrollmethoden auf die Funktionsapproximation ermöglichen. Insbesondere werden Sie lernen, wie Sie die optimale Strategie in MDPs mit unendlichen Zuständen finden können, indem Sie einfach Semi-Gradienten-TD-Methoden mit verallgemeinerter Iteration der Strategie kombinieren, was zu klassischen Kontrollmethoden wie Q-learning und Sarsa führt. Wir schließen mit einer Diskussion über eine neue Problemformulierung für RL - die durchschnittliche Belohnung -, die in Zukunft zweifellos in vielen Anwendungen von RL zum Einsatz kommen wird.
Das ist alles enthalten
7 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe2 Diskussionsthemen
Jeder Algorithmus, den Sie bisher kennen gelernt haben, schätzt eine Wertfunktion als Zwischenschritt auf dem Weg zu einer optimalen Strategie. Eine alternative Strategie besteht darin, die Parameter der Strategie direkt zu lernen. In dieser Woche lernen Sie diese Policy-Gradienten-Methoden kennen und erfahren, welche Vorteile sie gegenüber wertfunktionsbasierten Methoden haben. Sie werden auch erfahren, wie Policy-Gradienten-Methoden verwendet werden können, um die optimale Strategie bei Aufgaben mit kontinuierlichen Zustands- und Aktionsräumen zu finden.
Das ist alles enthalten
11 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema
Dozenten
Empfohlen, wenn Sie sich für Maschinelles Lernen interessieren
University of Alberta
University of Alberta
University of Alberta
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Bewertungen von Lernenden
Zeigt 3 von 820
820 Bewertungen
- 5 stars
84,54 %
- 4 stars
12,40 %
- 3 stars
1,94 %
- 2 stars
0,72 %
- 1 star
0,36 %
Geprüft am 18. Jan. 2020
Geprüft am 12. Apr. 2020
Geprüft am 10. Juli 2020
Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu über 7.000 erstklassigen Kursen, praktischen Projekten und Zertifikatsprogrammen, die Sie auf den Beruf vorbereiten – alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:
Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Specializations, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.
Wenn Sie ein Abonnement abgeschlossen haben, erhalten Sie eine kostenlose 7-tägige Testphase, in der Sie kostenlos kündigen können. Danach gewähren wir keine Rückerstattung, aber Sie können Ihr Abonnement jederzeit kündigen. Siehe unsere vollständigen Rückerstattungsbedingungen.