Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?

Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Was bekomme ich, wenn ich mich für diese Specialization einschreibe?

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Spezialisierung, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder Ihrem LinkedIn-Profil hinzufügen.

Ist finanzielle Hilfe verfügbar?

Ja. Für ausgewählte Lernprogramme können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Einschreibegebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zur Beantragung.

Grundlagen des Reinforcement Learning

Grundlagen des Reinforcement Learning

Dieser Kurs ist Teil von Spezialisierung „Reinforcement Learning“

Dozenten: Martha White

109.429 bereits angemeldet

Bei enthalten

Mehr erfahren

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

2,901 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

2 Wochen bei 10 Stunden eine Woche

In Ihrem eigenen Lerntempo lernen

92%

Den meisten Lernenden hat dieser Kurs gefallen

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

2,901 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

2 Wochen bei 10 Stunden eine Woche

In Ihrem eigenen Lerntempo lernen

92%

Den meisten Lernenden hat dieser Kurs gefallen

Was Sie lernen werden

Formalisieren Sie Probleme als Markov-Entscheidungsprozesse
Verstehen Sie die grundlegenden Explorationsmethoden und den Kompromiss zwischen Exploration und Ausbeutung
Wertfunktionen als Allzweckwerkzeug für optimale Entscheidungen verstehen
Wissen, wie man dynamische Programmierung als effizienten Lösungsansatz für ein industrielles Steuerungsproblem einsetzt

Kompetenzen, die Sie erwerben

Kategorie: Reinforcement Learning
Kategorie: Algorithmen
Kategorie: Markov-Modell
Kategorie: Entscheidungsintelligenz
Kategorie: Agentische Systeme
Kategorie: Maschinelles Lernen
Kategorie: Künstliche Intelligenz
Kategorie: Algorithmen für maschinelles Lernen

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

5 Zuweisungen¹

KI-bewertet siehe Haftungsausschluss

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung „Reinforcement Learning“

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 5 Module

Reinforcement Learning ist ein Teilbereich des maschinellen Lernens, aber auch ein allgemeiner Formalismus für automatisierte Entscheidungsfindung und KI. Dieser Kurs führt Sie in statistische Lerntechniken ein, bei denen ein Agent explizit Aktionen ausführt und mit der Welt interagiert. Das Verständnis der Bedeutung und der Herausforderungen von Lernagenten, die Entscheidungen treffen, ist heute von entscheidender Bedeutung, da immer mehr Unternehmen an interaktiven Agenten und intelligenten Entscheidungen interessiert sind.

Dieser Kurs führt Sie in die Grundlagen des Reinforcement Learning ein. Nach Abschluss dieses Kurses werden Sie: - Probleme als Markov-Entscheidungsprozesse formalisieren - Grundlegende Explorationsmethoden und den Kompromiss zwischen Exploration und Ausbeutung verstehen - Wertfunktionen als Allzweckwerkzeug für eine optimale Entscheidungsfindung verstehen - Wissen, wie man dynamische Programmierung als effizienten Lösungsansatz für ein industrielles Steuerungsproblem implementiert Dieser Kurs vermittelt Ihnen die Schlüsselkonzepte des Reinforcement Learning, die klassischen und modernen Algorithmen im RL zugrunde liegen. Nach Abschluss dieses Kurses werden Sie in der Lage sein, RL für reale Probleme einzusetzen, bei denen Sie das MDP spezifizieren müssen oder können. Dies ist der erste Kurs der Reinforcement Learning Specialization.

Moduldetails

Willkommen bei: Grundlagen des Verstärkungslernens, dem ersten Kurs einer vierteiligen Specialization über Verstärkungslernen, die von der University of Alberta, Onlea und Coursera angeboten wird. In diesem Vorbereitungsmodul lernen Sie Ihre Dozenten kennen, erhalten einen Vorgeschmack auf das, was Sie in diesem Kurs erwartet, und erhalten einen detaillierten Fahrplan, um Ihre Reise durch diese Spezialisierung so reibungslos wie möglich zu gestalten.

Das ist alles enthalten

4 Videos2 Lektüren1 Diskussionsthema

4 VideosInsgesamt 20 Minuten

Spezialisierung Einführung3 Minuten
Einführung in den Kurs6 Minuten
Treffen Sie Ihre Ausbilder!8 Minuten
Ihr Fahrplan für die Specializations3 Minuten

2 LektürenInsgesamt 20 Minuten

Reinforcement Learning Lehrbuch10 Minuten
Lesen Sie mich: Voraussetzungen und Lernziele10 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Treffen und Begrüßen!10 Minuten

In der ersten Woche dieses Kurses werden Sie lernen, den Kompromiss zwischen Exploration und Ausbeutung bei sequentiellen Entscheidungen zu verstehen, inkrementelle Algorithmen zur Schätzung von Aktionswerten zu implementieren und die Stärken und Schwächen verschiedener Algorithmen zur Exploration zu vergleichen. Für die benotete Bewertung in dieser Woche werden Sie einen Epsilon-Greedy-Agenten implementieren und testen.

Das ist alles enthalten

8 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema2 Plug-ins

8 VideosInsgesamt 46 Minuten

Sequentielle Entscheidungsfindung mit evaluativem Feedback6 Minuten
Lernen Aktion Werte5 Minuten
Inkrementelle Schätzung der Aktionswerte5 Minuten
Was ist der Kompromiss?8 Minuten
Optimistische Ausgangswerte6 Minuten
Auswahl der Upper-Confidence Bound (UCB) Aktion5 Minuten
Jonathan Langford: Contextual Bandits für Reinforcement Learning in der realen Welt9 Minuten
Woche 1 Zusammenfassung3 Minuten

3 LektürenInsgesamt 70 Minuten

Modul 1 Lernziele10 Minuten
Wöchentliche Lektüre30 Minuten
Kapitel Zusammenfassung30 Minuten

1 AufgabeInsgesamt 45 Minuten

Sequentielle Entscheidungsfindung45 Minuten

1 ProgrammieraufgabeInsgesamt 30 Minuten

Banditen und Erkundung/Ausbeutung30 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Vergleichen Sie Bandits mit überwachtem Lernen10 Minuten

2 Plug-insInsgesamt 30 Minuten

Lassen Sie uns ein Spiel spielen!15 Minuten
Was ist darunter?15 Minuten

Wenn Sie in der Industrie mit einem Problem konfrontiert werden, besteht der erste und wichtigste Schritt darin, dieses Problem in einen Markov Decision Process (MDP) zu übersetzen. Die Qualität Ihrer Lösung hängt stark davon ab, wie gut Sie diese Übersetzung durchführen. In dieser Woche werden Sie die Definition von MDPs kennenlernen, Sie werden verstehen, wie zielgerichtetes Verhalten aus der Maximierung skalarer Belohnungen resultiert und Sie werden auch den Unterschied zwischen episodischen und kontinuierlichen Aufgaben verstehen. Für die benotete Bewertung in dieser Woche werden Sie drei eigene Beispielaufgaben erstellen, die in den MDP-Rahmen passen.

Das ist alles enthalten

7 Videos2 Lektüren1 Aufgabe1 peer review1 Diskussionsthema

7 VideosInsgesamt 36 Minuten

Markov-Entscheidungsprozesse7 Minuten
Beispiele für MDPs4 Minuten
Das Ziel von Reinforcement Learning3 Minuten
Michael Littman: Die Belohnungshypothese12 Minuten
Fortlaufende Aufgaben5 Minuten
Beispiele für episodische und fortlaufende Aufgaben3 Minuten
Woche 2 Zusammenfassung2 Minuten

2 LektürenInsgesamt 40 Minuten

Modul 2 Lernziele10 Minuten
Wöchentliche Lektüre30 Minuten

1 AufgabeInsgesamt 45 Minuten

MDPs45 Minuten

1 peer reviewInsgesamt 60 Minuten

Benotete Aufgabe: Beschreiben Sie drei MDPs60 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Ist die Belohnungshypothese ausreichend?10 Minuten

Sobald das Problem als MDP formuliert ist, ist die Suche nach der optimalen Strategie effizienter, wenn Wertfunktionen verwendet werden. In dieser Woche lernen Sie die Definition von Strategien und Wertfunktionen sowie die Bellman-Gleichungen kennen, die Schlüsseltechnologie, die alle unsere Algorithmen verwenden werden.

Das ist alles enthalten

9 Videos3 Lektüren2 Aufgaben1 Diskussionsthema

9 VideosInsgesamt 56 Minuten

Festlegen von Policen5 Minuten
Wert Funktionen6 Minuten
Rich Sutton und Andy Barto: Eine kurze Geschichte des RL8 Minuten
Ableitung der Bellman-Gleichung6 Minuten
Warum Bellman-Gleichungen?5 Minuten
Optimale Politiken8 Minuten
Optimale Wertfunktionen5 Minuten
Optimale Wertfunktionen verwenden, um optimale Politiken zu erhalten8 Minuten
Woche 3 Zusammenfassung4 Minuten

3 LektürenInsgesamt 53 Minuten

Modul 3 Lernziele10 Minuten
Wöchentliche Lektüre30 Minuten
Kapitel Zusammenfassung13 Minuten

2 AufgabenInsgesamt 90 Minuten

[Praxis] Wertfunktionen und Bellman-Gleichungen45 Minuten
[Graded] Wertfunktionen und Bellman-Gleichungen45 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Einchecken10 Minuten

In dieser Woche werden Sie lernen, wie Sie Wertfunktionen und optimale Strategien berechnen können, vorausgesetzt, Sie haben das MDP-Modell. Sie werden die dynamische Programmierung implementieren, um Wertfunktionen und optimale Strategien zu berechnen und den Nutzen der dynamischen Programmierung für industrielle Anwendungen und Probleme zu verstehen. Außerdem lernen Sie die Generalized Policy Iteration als gängige Vorlage für die Konstruktion von Algorithmen zur Maximierung der Belohnung kennen. Für die benotete Bewertung in dieser Woche werden Sie einen effizienten Agenten der dynamischen Programmierung für ein simuliertes industrielles Steuerungsproblem implementieren.

Das ist alles enthalten

10 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

10 VideosInsgesamt 72 Minuten

Politikbewertung vs. Kontrolle5 Minuten
Iterative Politikbewertung9 Minuten
Verbesserung der Politik4 Minuten
Politik Iteration8 Minuten
Flexibilität des Policy Iteration Framework4 Minuten
Effizienz der dynamischen Programmierung5 Minuten
Warren Powell: Approximative dynamische Programmierung für Flottenmanagement (kurz)8 Minuten
Warren Powell: Approximative dynamische Programmierung für Flottenmanagement (Lang)22 Minuten
Woche 4 Zusammenfassung3 Minuten
Herzlichen Glückwunsch!4 Minuten

3 LektürenInsgesamt 70 Minuten

Modul 4 Lernziele10 Minuten
Wöchentliche Lektüre30 Minuten
Kapitel Zusammenfassung30 Minuten

1 AufgabeInsgesamt 45 Minuten

Dynamische Programmierung45 Minuten

1 ProgrammieraufgabeInsgesamt 30 Minuten

Optimale Politiken mit dynamischer Programmierung30 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Wo können Sie die dynamische Programmierung einsetzen?10 Minuten

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Lehrkraftbewertungen

(835 Bewertungen)

Martha White

University of Alberta

4 Kurse115.514 Lernende

Adam White

University of Alberta

4 Kurse115.514 Lernende

von

University of Alberta

Alberta Machine Intelligence Institute

Bewertungen von Lernenden

5 stars
81,77 %
4 stars
14,30 %
3 stars
2,61 %
2 stars
0,44 %
1 star
0,86 %

Zeigt 3 von 2901 an

Geprüft am 6. Mai 2023

Excellent course, with a very nice presentation style, both the professors are excellent in their presentations and the material is well researched and delivered. A very valuable course.

Geprüft am 2. Jan. 2021

The book is essential reading. It took me longer than the estimates to do the reading and the programming assignments. I would have liked more gridworld examples to get a faster hang of it.

Geprüft am 1. Sep. 2019

All the concepts were well explained and this course was perhaps the best I have found for RL.Great efforts have been put into making the course and It goes well in line with the suggested textbook.

Weitere Bewertungen anzeigen