Methoden zum Lernen anhand von Beispielen

Methoden zum Lernen anhand von Beispielen

Dieser Kurs ist Teil von Spezialisierung Reinforcement Learning

Dozenten: Martha White

34.853 bereits angemeldet

Bei Coursera Plus enthalten

Mehr erfahren

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.8

(1,239 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

Ca. 22 Stunden

In Ihrem eigenen Lerntempo lernen

90%

Den meisten Lernenden hat dieser Kurs gefallen

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.8

(1,239 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

Ca. 22 Stunden

In Ihrem eigenen Lerntempo lernen

90%

Den meisten Lernenden hat dieser Kurs gefallen

Kompetenzen, die Sie erwerben

Kategorie: Maschinelles Lernen
Kategorie: Algorithmen
Kategorie: Human Learning
Kategorie: Algorithmen für maschinelles Lernen
Kategorie: Computerprogrammierung
Kategorie: Angewandtes maschinelles Lernen
Kategorie: Wahrscheinlichkeit & Statistik

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

5 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung Reinforcement Learning

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

Erwerben Sie ein Karrierezertifikat.

Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.

Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.

In diesem Kurs gibt es 5 Module

In diesem Kurs lernen Sie verschiedene Algorithmen kennen, die auf der Grundlage von Versuch und Irrtum mit der Umwelt nahezu optimale Strategien erlernen können - Lernen aus der eigenen Erfahrung des Agenten. Das Lernen aus eigener Erfahrung ist bemerkenswert, weil es keine Vorkenntnisse über die Dynamik der Umgebung erfordert und dennoch ein optimales Verhalten erreichen kann. Wir werden intuitiv einfache, aber leistungsstarke Monte-Carlo-Methoden und Methoden des Lernens mit zeitlichen Differenzen einschließlich Q-Lernen behandeln. Zum Abschluss dieses Kurses werden wir untersuchen, wie wir das Beste aus beiden Welten erhalten können: Algorithmen, die modellbasierte Planung (ähnlich der dynamischen Programmierung) und Temporal-Differenzen-Updates kombinieren können, um das Lernen radikal zu beschleunigen. Am Ende dieses Kurses werden Sie in der Lage sein: - Temporal-Differenzen-Lernen und Monte Carlo als zwei Strategien zur Schätzung von Wertfunktionen aus gesampelter Erfahrung zu verstehen - die Bedeutung der Exploration zu verstehen, wenn man gesampelte Erfahrung anstelle von Sweeps der dynamischen Programmierung innerhalb eines Modells verwendet - die Verbindungen zwischen Monte Carlo und dynamischer Programmierung und TD zu verstehen.

- Implementieren und Anwenden des TD-Algorithmus zur Schätzung von Wertfunktionen - Implementieren und Anwenden von Expected Sarsa und Q-learning (zwei TD-Methoden zur Steuerung) - Verstehen des Unterschieds zwischen On-Policy- und Off-Policy-Steuerung - Verstehen der Planung mit simulierter Erfahrung (im Gegensatz zu klassischen Planungsstrategien) - Implementieren eines modellbasierten RL-Ansatzes namens Dyna, der simulierte Erfahrung verwendet - Durchführen einer empirischen Studie, um die Verbesserungen der Stichprobeneffizienz bei der Verwendung von Dyna zu ermitteln

Willkommen zum zweiten Kurs der Reinforcement Learning Specialization: Sample-Based Learning Methods, der von der University of Alberta, Onlea und Coursera angeboten wird. In diesem Modul zur Vorbereitung auf den Kurs lernen Sie Ihre Dozenten kennen und erhalten einen Vorgeschmack darauf, was der Kurs für Sie bereithält. Stellen Sie sich Ihren Mitschülern im Abschnitt "Meet and Greet" vor!

Das ist alles enthalten

2 Videos2 Lektüren1 Diskussionsthema

In dieser Woche werden Sie lernen, wie man Wertfunktionen und optimale Strategien schätzt, indem man nur Stichproben aus der Umgebung verwendet. Dieses Modul ist unser erster Schritt in Richtung inkrementeller Lernmethoden, die aus der Interaktion des Agenten mit der Welt lernen und nicht aus einem Modell der Welt. Sie werden Methoden zur Vorhersage und Kontrolle kennenlernen, die auf Monte-Carlo-Methoden beruhen, d.h. auf Methoden, die auf Stichproben basieren. Sie werden auch erneut mit dem Explorationsproblem konfrontiert, allerdings allgemeiner im RL, über Banditen hinaus.

Das ist alles enthalten

11 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

11 VideosInsgesamt 58 Minuten

Was ist Monte Carlo?6 MinutenModulvorschau
Monte Carlo für Vorhersagen verwenden6 Minuten
Monte Carlo für Aktionswerte verwenden2 Minuten
Monte-Carlo-Methoden für die verallgemeinerte Iteration von Richtlinien verwenden2 Minuten
Lösen des Blackjack-Beispiels3 Minuten
Epsilon-soft Richtlinien5 Minuten
Warum ist das Lernen außerhalb der Politik wichtig?4 Minuten
Wichtigkeitsstichprobe4 Minuten
Off-Policy Monte Carlo Vorhersage5 Minuten
Emma Brunskill: Batch Reinforcement Learning12 Minuten
Woche 1 Zusammenfassung3 Minuten

3 LektürenInsgesamt 90 Minuten

Modul 1 Lernziele10 Minuten
Wöchentliche Lektüre40 Minuten
Kapitel Zusammenfassung40 Minuten

1 AufgabeInsgesamt 30 Minuten

Bewertetes Quiz30 Minuten

1 ProgrammieraufgabeInsgesamt 5 Minuten

Blackjack5 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Vergleich zwischen politischem und außerpolitischem Lernen10 Minuten

In dieser Woche lernen Sie eines der grundlegendsten Konzepte des Verstärkungslernens kennen: das temporale Differenzlernen (TD). TD-Lernen kombiniert einige der Eigenschaften von Monte-Carlo-Methoden und Dynamischer Programmierung (DP). TD-Methoden ähneln den Monte-Carlo-Methoden insofern, als sie aus der Interaktion des Agenten mit der Welt lernen können und keine Kenntnis des Modells erfordern. TD-Methoden ähneln den DP-Methoden insofern, als sie Bootstrap verwenden und somit online lernen können - Sie müssen also nicht bis zum Ende einer Episode warten. Sie werden sehen, wie TD aufgrund des Bootstrapping effizienter lernen kann als Monte Carlo. In diesem Modul konzentrieren wir uns zunächst auf TD für die Vorhersage und besprechen TD für die Kontrolle im nächsten Modul. Diese Woche werden Sie TD implementieren, um die Wertfunktion für eine festgelegte Strategie in einem simulierten Bereich zu schätzen.

Das ist alles enthalten

6 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

6 VideosInsgesamt 36 Minuten

Was ist Temporal Difference (TD) Lernen?4 MinutenModulvorschau
Rich Sutton: Die Bedeutung von TD Learning6 Minuten
Die Vorteile des Lernens mit zeitlichen Unterschieden5 Minuten
TD und Monte Carlo im Vergleich5 Minuten
Andy Barto und Rich Sutton: Mehr über die Geschichte von RL12 Minuten
Woche 2 Zusammenfassung2 Minuten

2 LektürenInsgesamt 50 Minuten

Modul 2 Lernziele10 Minuten
Wöchentliche Lektüre40 Minuten

1 AufgabeInsgesamt 30 Minuten

Praxis-Quiz30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Politikbewertung mit Lernen aus zeitlichen Unterschieden180 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Sollten wir uns um TD im Gehirn kümmern?10 Minuten

In dieser Woche lernen Sie die Verwendung von temporalem Differenzlernen für die Kontrolle als verallgemeinerte Strategie für die Iteration von Richtlinien kennen. Sie werden drei verschiedene Algorithmen kennenlernen, die auf Bootstrapping und Bellman-Gleichungen für die Kontrolle basieren: Sarsa, Q-learning und Expected Sarsa. Sie werden einige der Unterschiede zwischen den Methoden für On-Policy- und Off-Policy-Kontrolle erkennen und dass Expected Sarsa ein einheitlicher Algorithmus für beide ist. Sie werden Expected Sarsa und Q-learning auf Cliff World implementieren.

Das ist alles enthalten

9 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

9 VideosInsgesamt 29 Minuten

Sarsa: GPI mit TD4 MinutenModulvorschau
Sarsa in der windigen Netzwelt3 Minuten
Was ist Q-learning?3 Minuten
Q-learning in der windigen Grid-Welt3 Minuten
Inwiefern ist Q-Learning unzulässig?4 Minuten
Erwartete Sarsa3 Minuten
Erwartete Sarsa in der Klippenwelt3 Minuten
Allgemeinheit der erwarteten Sarsa1 Minute
Woche 3 Zusammenfassung2 Minuten

3 LektürenInsgesamt 90 Minuten

Modul 3 Lernziele10 Minuten
Wöchentliche Lektüre40 Minuten
Kapitel Zusammenfassung40 Minuten

1 AufgabeInsgesamt 30 Minuten

Praxis-Quiz30 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Q-Learning und erwartetes SARSA180 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Wie können wir außerhalb der Politik mehrere Ziele erreichen?10 Minuten

Bisher dachten Sie vielleicht, dass Lernen mit und ohne Modell zwei unterschiedliche und in gewisser Weise konkurrierende Strategien sind: Planung mit Dynamischer Programmierung gegenüber stichprobenbasiertem Lernen mit TD-Methoden. In dieser Woche vereinen wir diese beiden Strategien mit der Dyna-Architektur. Sie werden lernen, wie man das Modell aus Daten schätzt und dieses Modell dann verwendet, um hypothetische Erfahrungen zu generieren (ein bisschen wie Träumen), um die Effizienz von Stichproben im Vergleich zu stichprobenbasierten Methoden wie Q-Learning drastisch zu verbessern. Darüber hinaus lernen Sie, wie man Lernsysteme entwickelt, die gegenüber ungenauen Modellen robust sind.

Das ist alles enthalten

11 Videos4 Lektüren2 Aufgaben1 Programmieraufgabe1 Diskussionsthema

11 VideosInsgesamt 46 Minuten

Was ist ein Modell?4 MinutenModulvorschau
Vergleich von Stichproben- und Verteilungsmodellen2 Minuten
Zufällige tabellarische Q-Planung3 Minuten
Die Dyna Architektur5 Minuten
Der Dyna Algorithmus5 Minuten
Dyna & Q-Lernen in einem einfachen Labyrinth5 Minuten
Was, wenn das Modell ungenau ist?3 Minuten
Eingehend mit wechselnden Umgebungen5 Minuten
Drew Bagnell: Selbstfahrendes Fahren, Robotik und modellbasiertes RL7 Minuten
Woche 4 Zusammenfassung1 Minute
Herzlichen Glückwunsch!2 Minuten

4 LektürenInsgesamt 130 Minuten

Modul 4 Lernziele10 Minuten
Wöchentliche Lektüre40 Minuten
Kapitel Zusammenfassung40 Minuten
Lehrbuch Teil 1 Zusammenfassung40 Minuten

2 AufgabenInsgesamt 90 Minuten

Ersatz-Praxis-Zuweisung45 Minuten
Praxis Bewertung45 Minuten

1 ProgrammieraufgabeInsgesamt 180 Minuten

Dyna-Q und Dyna-Q+180 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Vergleichen Sie Planung und Argumentation10 Minuten

Dozenten

Lehrkraftbewertungen

4.7 (219 Bewertungen)

Martha White

University of Alberta

4 Kurse102.504 Lernende

Adam White

University of Alberta

4 Kurse102.504 Lernende

von

University of Alberta

Alberta Machine Intelligence Institute

Empfohlen, wenn Sie sich für Maschinelles Lernen interessieren

University of Alberta
Prediction and Control with Function Approximation
Kurs
Illinois Tech
Statistical Learning
Auf einen Abschluss hinarbeiten
Kurs
University of Alberta
Fundamentals of Reinforcement Learning
Kurs
University of Washington
Machine Learning
Spezialisierung

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

4.8

1.239 Bewertungen

5 stars
82,27 %
4 stars
13,29 %
3 stars
2,82 %
2 stars
0,64 %
1 star
0,96 %

Zeigt 3 von 1239 an

Geprüft am 27. Feb. 2020

Itwasgoodinsubstane but there is plenty of issues with the automated grader. you spend most time dealing with the letter not on actual learning of the matter.

Geprüft am 13. März 2022

The videos are very clear and do a good job explaining the material from the textbook. The assignments are relevant and just right in terms of length and difficulty.

Geprüft am 14. Feb. 2021

Excellent course that naturally extends the first specialization course. The application examples in programming are very good and I loved how RL gets closer and closer to how a living being thinks.

Weitere Bewertungen anzeigen

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Mehr erfahren

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Erkunden Sie die Abschlüsse

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Mehr erfahren

Häufig gestellte Fragen

Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:

Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Specializations, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.

Wenn Sie ein Abonnement abgeschlossen haben, erhalten Sie eine kostenlose 7-tägige Testphase, in der Sie kostenlos kündigen können. Danach gewähren wir keine Rückerstattung, aber Sie können Ihr Abonnement jederzeit kündigen. Siehe unsere vollständigen Rückerstattungsbedingungen.

Weitere Fragen

Besuchen Sie die das Hilfe-Center für Kursteilnehmer.

Methoden zum Lernen anhand von Beispielen

Kompetenzen, die Sie erwerben

Wichtige Details

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Erweitern Sie Ihre Fachkenntnisse

Erwerben Sie ein Karrierezertifikat.

In diesem Kurs gibt es 5 Module

Willkommen auf dem Kurs!

Das ist alles enthalten

Monte-Carlo-Methoden für Vorhersage und Kontrolle

Das ist alles enthalten

Temporale Differenz-Lernmethoden für Vorhersagen

Das ist alles enthalten

Temporal Difference Learning Methoden für die Kontrolle

Das ist alles enthalten

Planen, Lernen & Handeln

Das ist alles enthalten

Dozenten

von

Empfohlen, wenn Sie sich für Maschinelles Lernen interessieren

Prediction and Control with Function Approximation

Statistical Learning

Fundamentals of Reinforcement Learning

Machine Learning

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Bewertungen von Lernenden

Neue Karrieremöglichkeiten mit Coursera Plus

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Häufig gestellte Fragen

Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?

Was bekomme ich, wenn ich mich für diese Specialization einschreibe?

Wie sieht die Erstattungspolitik aus?

Weitere Fragen