In diesem Kurs lernen Sie verschiedene Algorithmen kennen, die auf der Grundlage von Versuch und Irrtum mit der Umwelt nahezu optimale Strategien erlernen können - Lernen aus der eigenen Erfahrung des Agenten. Das Lernen aus eigener Erfahrung ist bemerkenswert, weil es keine Vorkenntnisse über die Dynamik der Umgebung erfordert und dennoch ein optimales Verhalten erreichen kann. Wir werden intuitiv einfache, aber leistungsstarke Monte-Carlo-Methoden und Methoden des Lernens mit zeitlichen Differenzen einschließlich Q-Lernen behandeln. Zum Abschluss dieses Kurses werden wir untersuchen, wie wir das Beste aus beiden Welten erhalten können: Algorithmen, die modellbasierte Planung (ähnlich der dynamischen Programmierung) und Temporal-Differenzen-Updates kombinieren können, um das Lernen radikal zu beschleunigen. Am Ende dieses Kurses werden Sie in der Lage sein: - Temporal-Differenzen-Lernen und Monte Carlo als zwei Strategien zur Schätzung von Wertfunktionen aus gesampelter Erfahrung zu verstehen - die Bedeutung der Exploration zu verstehen, wenn man gesampelte Erfahrung anstelle von Sweeps der dynamischen Programmierung innerhalb eines Modells verwendet - die Verbindungen zwischen Monte Carlo und dynamischer Programmierung und TD zu verstehen.
Schenken Sie Ihrer Karriere Coursera Plus mit einem Rabatt von $160 , der jährlich abgerechnet wird. Sparen Sie heute.
Methoden zum Lernen anhand von Beispielen
Dieser Kurs ist Teil von Spezialisierung Reinforcement Learning
Dozenten: Martha White
33.679 bereits angemeldet
Bei enthalten
(1,228 Bewertungen)
Empfohlene Erfahrung
Kompetenzen, die Sie erwerben
- Kategorie: Funktion Approximation
- Kategorie: Künstliche Intelligenz (KI)
- Kategorie: Reinforcement Learning
- Kategorie: Maschinelles Lernen
- Kategorie: Intelligente Systeme
Wichtige Details
Zu Ihrem LinkedIn-Profil hinzufügen
5 Aufgaben
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Erweitern Sie Ihre Fachkenntnisse
- Lernen Sie neue Konzepte von Branchenexperten
- Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
- Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
- Erwerben Sie ein Berufszertifikat zur Vorlage
Erwerben Sie ein Karrierezertifikat.
Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.
Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.
In diesem Kurs gibt es 5 Module
Willkommen zum zweiten Kurs der Reinforcement Learning Specialization: Sample-Based Learning Methods, der von der University of Alberta, Onlea und Coursera angeboten wird. In diesem Modul zur Vorbereitung auf den Kurs lernen Sie Ihre Dozenten kennen und erhalten einen Vorgeschmack darauf, was der Kurs für Sie bereithält. Stellen Sie sich Ihren Mitschülern im Abschnitt "Meet and Greet" vor!
Das ist alles enthalten
2 Videos2 Lektüren1 Diskussionsthema
In dieser Woche werden Sie lernen, wie man Wertfunktionen und optimale Strategien schätzt, indem man nur Stichproben aus der Umgebung verwendet. Dieses Modul ist unser erster Schritt in Richtung inkrementeller Lernmethoden, die aus der Interaktion des Agenten mit der Welt lernen und nicht aus einem Modell der Welt. Sie werden Methoden zur Vorhersage und Kontrolle kennenlernen, die auf Monte-Carlo-Methoden beruhen, d.h. auf Methoden, die auf Stichproben basieren. Sie werden auch erneut mit dem Explorationsproblem konfrontiert, allerdings allgemeiner im RL, über Banditen hinaus.
Das ist alles enthalten
11 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema
In dieser Woche lernen Sie eines der grundlegendsten Konzepte des Verstärkungslernens kennen: das temporale Differenzlernen (TD). TD-Lernen kombiniert einige der Eigenschaften von Monte-Carlo-Methoden und Dynamischer Programmierung (DP). TD-Methoden ähneln den Monte-Carlo-Methoden insofern, als sie aus der Interaktion des Agenten mit der Welt lernen können und keine Kenntnis des Modells erfordern. TD-Methoden ähneln den DP-Methoden insofern, als sie Bootstrap verwenden und somit online lernen können - Sie müssen also nicht bis zum Ende einer Episode warten. Sie werden sehen, wie TD aufgrund des Bootstrapping effizienter lernen kann als Monte Carlo. In diesem Modul konzentrieren wir uns zunächst auf TD für die Vorhersage und besprechen TD für die Kontrolle im nächsten Modul. Diese Woche werden Sie TD implementieren, um die Wertfunktion für eine festgelegte Strategie in einem simulierten Bereich zu schätzen.
Das ist alles enthalten
6 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema
In dieser Woche lernen Sie die Verwendung von temporalem Differenzlernen für die Kontrolle als verallgemeinerte Strategie für die Iteration von Richtlinien kennen. Sie werden drei verschiedene Algorithmen kennenlernen, die auf Bootstrapping und Bellman-Gleichungen für die Kontrolle basieren: Sarsa, Q-learning und Expected Sarsa. Sie werden einige der Unterschiede zwischen den Methoden für On-Policy- und Off-Policy-Kontrolle erkennen und dass Expected Sarsa ein einheitlicher Algorithmus für beide ist. Sie werden Expected Sarsa und Q-learning auf Cliff World implementieren.
Das ist alles enthalten
9 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema
Bisher dachten Sie vielleicht, dass Lernen mit und ohne Modell zwei unterschiedliche und in gewisser Weise konkurrierende Strategien sind: Planung mit Dynamischer Programmierung gegenüber stichprobenbasiertem Lernen mit TD-Methoden. In dieser Woche vereinen wir diese beiden Strategien mit der Dyna-Architektur. Sie werden lernen, wie man das Modell aus Daten schätzt und dieses Modell dann verwendet, um hypothetische Erfahrungen zu generieren (ein bisschen wie Träumen), um die Effizienz von Stichproben im Vergleich zu stichprobenbasierten Methoden wie Q-Learning drastisch zu verbessern. Darüber hinaus lernen Sie, wie man Lernsysteme entwickelt, die gegenüber ungenauen Modellen robust sind.
Das ist alles enthalten
11 Videos4 Lektüren2 Aufgaben1 Programmieraufgabe1 Diskussionsthema
Dozenten
Empfohlen, wenn Sie sich für Maschinelles Lernen interessieren
Amazon Web Services
University of Pennsylvania
Alberta Machine Intelligence Institute
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Bewertungen von Lernenden
Zeigt 3 von 1228
1.228 Bewertungen
- 5 stars
82,19 %
- 4 stars
13,41 %
- 3 stars
2,84 %
- 2 stars
0,56 %
- 1 star
0,97 %
Geprüft am 15. Okt. 2019
Geprüft am 29. Juni 2020
Geprüft am 1. Aug. 2023
Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu über 7.000 erstklassigen Kursen, praktischen Projekten und Zertifikatsprogrammen, die Sie auf den Beruf vorbereiten – alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:
Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Specializations, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.
Wenn Sie ein Abonnement abgeschlossen haben, erhalten Sie eine kostenlose 7-tägige Testphase, in der Sie kostenlos kündigen können. Danach gewähren wir keine Rückerstattung, aber Sie können Ihr Abonnement jederzeit kündigen. Siehe unsere vollständigen Rückerstattungsbedingungen.