Methoden zum Lernen anhand von Beispielen

Methoden zum Lernen anhand von Beispielen

Dieser Kurs ist Teil von Spezialisierung „Reinforcement Learning“

Dozenten: Martha White

37.868 bereits angemeldet

Bei enthalten

Mehr erfahren

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

1,254 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

2 Wochen bei 10 Stunden eine Woche

In Ihrem eigenen Lerntempo lernen

90%

Den meisten Lernenden hat dieser Kurs gefallen

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

1,254 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

2 Wochen bei 10 Stunden eine Woche

In Ihrem eigenen Lerntempo lernen

90%

Den meisten Lernenden hat dieser Kurs gefallen

Kompetenzen, die Sie erwerben

Kategorie: Algorithmen für maschinelles Lernen
Kategorie: Algorithmen
Kategorie: Simulationen
Kategorie: Künstliche Intelligenz und Maschinelles Lernen (KI/ML)
Kategorie: Stichproben (Statistik)
Kategorie: Wahrscheinlichkeitsverteilung
Kategorie: Maschinelles Lernen
Kategorie: Reinforcement Learning
Der Fähigkeiten-Abschnitt ist eingeklappt. 6 von 8 Fähigkeiten werden angezeigt.

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

5 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung „Reinforcement Learning“

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 5 Module

In diesem Kurs lernen Sie verschiedene Algorithmen kennen, die auf der Grundlage von Versuch und Irrtum mit der Umwelt nahezu optimale Strategien erlernen können - Lernen aus der eigenen Erfahrung des Agenten. Das Lernen aus eigener Erfahrung ist bemerkenswert, weil es keine Vorkenntnisse über die Dynamik der Umgebung erfordert und dennoch ein optimales Verhalten erreichen kann. Wir werden intuitiv einfache, aber leistungsstarke Monte-Carlo-Methoden und Methoden des Lernens mit zeitlichen Differenzen einschließlich Q-Lernen behandeln. Zum Abschluss dieses Kurses werden wir untersuchen, wie wir das Beste aus beiden Welten erhalten können: Algorithmen, die modellbasierte Planung (ähnlich der dynamischen Programmierung) und Temporal-Differenzen-Updates kombinieren können, um das Lernen radikal zu beschleunigen. Am Ende dieses Kurses werden Sie in der Lage sein: - Temporal-Differenzen-Lernen und Monte Carlo als zwei Strategien zur Schätzung von Wertfunktionen aus gesampelter Erfahrung zu verstehen - die Bedeutung der Exploration zu verstehen, wenn man gesampelte Erfahrung anstelle von Sweeps der dynamischen Programmierung innerhalb eines Modells verwendet - die Verbindungen zwischen Monte Carlo und dynamischer Programmierung und TD zu verstehen.

- Implementieren und Anwenden des TD-Algorithmus zur Schätzung von Wertfunktionen - Implementieren und Anwenden von Expected Sarsa und Q-learning (zwei TD-Methoden zur Steuerung) - Verstehen des Unterschieds zwischen On-Policy- und Off-Policy-Steuerung - Verstehen der Planung mit simulierter Erfahrung (im Gegensatz zu klassischen Planungsstrategien) - Implementieren eines modellbasierten RL-Ansatzes namens Dyna, der simulierte Erfahrung verwendet - Durchführen einer empirischen Studie, um die Verbesserungen der Stichprobeneffizienz bei der Verwendung von Dyna zu ermitteln

Willkommen zum zweiten Kurs der Reinforcement Learning Specialization: Sample-Based Learning Methods, der von der University of Alberta, Onlea und Coursera angeboten wird. In diesem Modul zur Vorbereitung auf den Kurs lernen Sie Ihre Dozenten kennen und erhalten einen Vorgeschmack darauf, was der Kurs für Sie bereithält. Stellen Sie sich Ihren Mitschülern im Abschnitt "Meet and Greet" vor!

Das ist alles enthalten

2 Videos2 Lektüren1 Diskussionsthema

In dieser Woche werden Sie lernen, wie man Wertfunktionen und optimale Strategien schätzt, indem man nur Stichproben aus der Umgebung verwendet. Dieses Modul ist unser erster Schritt in Richtung inkrementeller Lernmethoden, die aus der Interaktion des Agenten mit der Welt lernen und nicht aus einem Modell der Welt. Sie werden Methoden zur Vorhersage und Kontrolle kennenlernen, die auf Monte-Carlo-Methoden beruhen, d.h. auf Methoden, die auf Stichproben basieren. Sie werden auch erneut mit dem Explorationsproblem konfrontiert, allerdings allgemeiner im RL, über Banditen hinaus.

Das ist alles enthalten

11 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

11 Videos Insgesamt 58 Minuten

Was ist Monte Carlo? 7 Minuten
Monte Carlo für Vorhersagen verwenden 6 Minuten
Monte Carlo für Aktionswerte verwenden 3 Minuten
Monte-Carlo-Methoden für die verallgemeinerte Iteration von Richtlinien verwenden 3 Minuten
Lösen des Blackjack-Beispiels 4 Minuten
Epsilon-soft Richtlinien 5 Minuten
Warum ist das Lernen außerhalb der Politik wichtig? 5 Minuten
Wichtigkeitsstichprobe 4 Minuten
Off-Policy Monte Carlo Vorhersage 5 Minuten
Emma Brunskill: Batch Reinforcement Learning 12 Minuten
Woche 1 Zusammenfassung 4 Minuten

3 Lektüren Insgesamt 90 Minuten

Modul 1 Lernziele 10 Minuten
Wöchentliche Lektüre 40 Minuten
Kapitel Zusammenfassung 40 Minuten

1 Aufgabe Insgesamt 30 Minuten

Bewertetes Quiz 30 Minuten

1 Programmieraufgabe Insgesamt 5 Minuten

Blackjack 5 Minuten

1 Diskussionsthema Insgesamt 10 Minuten

Vergleich zwischen politischem und außerpolitischem Lernen 10 Minuten

In dieser Woche lernen Sie eines der grundlegendsten Konzepte des Verstärkungslernens kennen: das temporale Differenzlernen (TD). TD-Lernen kombiniert einige der Eigenschaften von Monte-Carlo-Methoden und Dynamischer Programmierung (DP). TD-Methoden ähneln den Monte-Carlo-Methoden insofern, als sie aus der Interaktion des Agenten mit der Welt lernen können und keine Kenntnis des Modells erfordern. TD-Methoden ähneln den DP-Methoden insofern, als sie Bootstrap verwenden und somit online lernen können - Sie müssen also nicht bis zum Ende einer Episode warten. Sie werden sehen, wie TD aufgrund des Bootstrapping effizienter lernen kann als Monte Carlo. In diesem Modul konzentrieren wir uns zunächst auf TD für die Vorhersage und besprechen TD für die Kontrolle im nächsten Modul. Diese Woche werden Sie TD implementieren, um die Wertfunktion für eine festgelegte Strategie in einem simulierten Bereich zu schätzen.

Das ist alles enthalten

6 Videos2 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

6 Videos Insgesamt 37 Minuten

Was ist Temporal Difference (TD) Lernen? 5 Minuten
Rich Sutton: Die Bedeutung von TD Learning 6 Minuten
Die Vorteile des Lernens mit zeitlichen Unterschieden 5 Minuten
TD und Monte Carlo im Vergleich 6 Minuten
Andy Barto und Rich Sutton: Mehr über die Geschichte von RL 12 Minuten
Woche 2 Zusammenfassung 2 Minuten

2 Lektüren Insgesamt 50 Minuten

Modul 2 Lernziele 10 Minuten
Wöchentliche Lektüre 40 Minuten

1 Aufgabe Insgesamt 30 Minuten

Praxis-Quiz 30 Minuten

1 Programmieraufgabe Insgesamt 180 Minuten

Politikbewertung mit Lernen aus zeitlichen Unterschieden 180 Minuten

1 Diskussionsthema Insgesamt 10 Minuten

Sollten wir uns um TD im Gehirn kümmern? 10 Minuten

In dieser Woche lernen Sie die Verwendung von temporalem Differenzlernen für die Kontrolle als verallgemeinerte Strategie für die Iteration von Richtlinien kennen. Sie werden drei verschiedene Algorithmen kennenlernen, die auf Bootstrapping und Bellman-Gleichungen für die Kontrolle basieren: Sarsa, Q-learning und Expected Sarsa. Sie werden einige der Unterschiede zwischen den Methoden für On-Policy- und Off-Policy-Kontrolle erkennen und dass Expected Sarsa ein einheitlicher Algorithmus für beide ist. Sie werden Expected Sarsa und Q-learning auf Cliff World implementieren.

Das ist alles enthalten

9 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

9 Videos Insgesamt 30 Minuten

Sarsa: GPI mit TD 4 Minuten
Sarsa in der windigen Netzwelt 3 Minuten
Was ist Q-learning? 3 Minuten
Q-learning in der windigen Grid-Welt 4 Minuten
Inwiefern ist Q-Learning unzulässig? 5 Minuten
Erwartete Sarsa 4 Minuten
Erwartete Sarsa in der Klippenwelt 3 Minuten
Allgemeinheit der erwarteten Sarsa 2 Minuten
Woche 3 Zusammenfassung 2 Minuten

3 Lektüren Insgesamt 90 Minuten

Modul 3 Lernziele 10 Minuten
Wöchentliche Lektüre 40 Minuten
Kapitel Zusammenfassung 40 Minuten

1 Aufgabe Insgesamt 30 Minuten

Praxis-Quiz 30 Minuten

1 Programmieraufgabe Insgesamt 180 Minuten

Q-Learning und erwartetes SARSA 180 Minuten

1 Diskussionsthema Insgesamt 10 Minuten

Wie können wir außerhalb der Politik mehrere Ziele erreichen? 10 Minuten

Bisher dachten Sie vielleicht, dass Lernen mit und ohne Modell zwei unterschiedliche und in gewisser Weise konkurrierende Strategien sind: Planung mit Dynamischer Programmierung gegenüber stichprobenbasiertem Lernen mit TD-Methoden. In dieser Woche vereinen wir diese beiden Strategien mit der Dyna-Architektur. Sie werden lernen, wie man das Modell aus Daten schätzt und dieses Modell dann verwendet, um hypothetische Erfahrungen zu generieren (ein bisschen wie Träumen), um die Effizienz von Stichproben im Vergleich zu stichprobenbasierten Methoden wie Q-Learning drastisch zu verbessern. Darüber hinaus lernen Sie, wie man Lernsysteme entwickelt, die gegenüber ungenauen Modellen robust sind.

Das ist alles enthalten

11 Videos4 Lektüren2 Aufgaben1 Programmieraufgabe1 Diskussionsthema

11 Videos Insgesamt 47 Minuten

Was ist ein Modell? 5 Minuten
Vergleich von Stichproben- und Verteilungsmodellen 2 Minuten
Zufällige tabellarische Q-Planung 3 Minuten
Die Dyna Architektur 5 Minuten
Der Dyna Algorithmus 5 Minuten
Dyna & Q-Lernen in einem einfachen Labyrinth 5 Minuten
Was, wenn das Modell ungenau ist? 4 Minuten
Eingehend mit wechselnden Umgebungen 6 Minuten
Drew Bagnell: Selbstfahrendes Fahren, Robotik und modellbasiertes RL 7 Minuten
Woche 4 Zusammenfassung 2 Minuten
Herzlichen Glückwunsch! 2 Minuten

4 Lektüren Insgesamt 130 Minuten

Modul 4 Lernziele 10 Minuten
Wöchentliche Lektüre 40 Minuten
Kapitel Zusammenfassung 40 Minuten
Lehrbuch Teil 1 Zusammenfassung 40 Minuten

2 Aufgaben Insgesamt 90 Minuten

Ersatz-Praxis-Zuweisung 45 Minuten
Bewertung der Praxis 45 Minuten

1 Programmieraufgabe Insgesamt 180 Minuten

Dyna-Q und Dyna-Q+ 180 Minuten

1 Diskussionsthema Insgesamt 10 Minuten

Vergleichen Sie Planung und Argumentation 10 Minuten

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Lehrkraftbewertungen

(223 Bewertungen)

Martha White

University of Alberta

4 Kurse 113.671 Lernende

Adam White

University of Alberta

4 Kurse 113.671 Lernende

von

University of Alberta

Alberta Machine Intelligence Institute

Mehr von Maschinelles Lernen entdecken

Status: Vorschau
Columbia University
Decision Making and Reinforcement Learning
Kurs
Status: Vorschau
Northeastern University
Statistical Learning for Engineering Part 1
Kurs
Status: Vorschau
Northeastern University
Statistical Learning for Engineering Part 2
Kurs
Status: Vorschau
Simplilearn
Q Learning in Reinforcement Training Basics
Kurs

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

5 stars
82,31 %
4 stars
13,22 %
3 stars
2,78 %
2 stars
0,63 %
1 star
1,03 %

Zeigt 3 von 1254 an

Geprüft am 27. Feb. 2020

Itwasgoodinsubstane but there is plenty of issues with the automated grader. you spend most time dealing with the letter not on actual learning of the matter.

Geprüft am 13. März 2022

The videos are very clear and do a good job explaining the material from the textbook. The assignments are relevant and just right in terms of length and difficulty.

Geprüft am 14. Feb. 2021

Excellent course that naturally extends the first specialization course. The application examples in programming are very good and I loved how RL gets closer and closer to how a living being thinks.

Weitere Bewertungen anzeigen

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Mehr erfahren

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Erkunden Sie die Abschlüsse

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Mehr erfahren

Häufig gestellte Fragen

Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Spezialisierung, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder Ihrem LinkedIn-Profil hinzufügen.

Ja. Für ausgewählte Lernprogramme können Sie eine finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Anmeldungsgebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zum Antragsformular.