Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.
Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage
In diesem Kurs gibt es 5 Module
Reinforcement Learning ist ein Teilbereich des maschinellen Lernens, aber auch ein allgemeiner Formalismus für automatisierte Entscheidungsfindung und KI. Dieser Kurs führt Sie in statistische Lerntechniken ein, bei denen ein Agent explizit Aktionen ausführt und mit der Welt interagiert. Das Verständnis der Bedeutung und der Herausforderungen von Lernagenten, die Entscheidungen treffen, ist heute von entscheidender Bedeutung, da immer mehr Unternehmen an interaktiven Agenten und intelligenten Entscheidungen interessiert sind.
Dieser Kurs führt Sie in die Grundlagen des Reinforcement Learning ein. Nach Abschluss dieses Kurses werden Sie: - Probleme als Markov-Entscheidungsprozesse formalisieren - Grundlegende Explorationsmethoden und den Kompromiss zwischen Exploration und Ausbeutung verstehen - Wertfunktionen als Allzweckwerkzeug für eine optimale Entscheidungsfindung verstehen - Wissen, wie man dynamische Programmierung als effizienten Lösungsansatz für ein industrielles Steuerungsproblem implementiert Dieser Kurs vermittelt Ihnen die Schlüsselkonzepte des Reinforcement Learning, die klassischen und modernen Algorithmen im RL zugrunde liegen. Nach Abschluss dieses Kurses werden Sie in der Lage sein, RL für reale Probleme einzusetzen, bei denen Sie das MDP spezifizieren müssen oder können.
Dies ist der erste Kurs der Reinforcement Learning Specialization.
Willkommen bei: Grundlagen des Verstärkungslernens, dem ersten Kurs einer vierteiligen Specialization über Verstärkungslernen, die von der University of Alberta, Onlea und Coursera angeboten wird. In diesem Vorbereitungsmodul lernen Sie Ihre Dozenten kennen, erhalten einen Vorgeschmack auf das, was Sie in diesem Kurs erwartet, und erhalten einen detaillierten Fahrplan, um Ihre Reise durch diese Spezialisierung so reibungslos wie möglich zu gestalten.
Das ist alles enthalten
4 Videos2 Lektüren1 Diskussionsthema
Infos zu Modulinhalt anzeigen
4 Videos•Insgesamt 20 Minuten
Spezialisierung Einführung•3 Minuten
Einführung in den Kurs•6 Minuten
Treffen Sie Ihre Ausbilder!•8 Minuten
Ihr Fahrplan für die Specializations•3 Minuten
2 Lektüren•Insgesamt 20 Minuten
Reinforcement Learning Lehrbuch•10 Minuten
Lesen Sie mich: Voraussetzungen und Lernziele•10 Minuten
1 Diskussionsthema•Insgesamt 10 Minuten
Treffen und Begrüßen!•10 Minuten
Eine Einführung in die sequenzielle Entscheidungsfindung
Modul 2•4 Stunden abzuschließen
Moduldetails
In der ersten Woche dieses Kurses werden Sie lernen, den Kompromiss zwischen Exploration und Ausbeutung bei sequentiellen Entscheidungen zu verstehen, inkrementelle Algorithmen zur Schätzung von Aktionswerten zu implementieren und die Stärken und Schwächen verschiedener Algorithmen zur Exploration zu vergleichen. Für die benotete Bewertung in dieser Woche werden Sie einen Epsilon-Greedy-Agenten implementieren und testen.
Sequentielle Entscheidungsfindung mit evaluativem Feedback•6 Minuten
Lernen Aktion Werte•5 Minuten
Inkrementelle Schätzung der Aktionswerte•5 Minuten
Was ist der Kompromiss?•8 Minuten
Optimistische Ausgangswerte•6 Minuten
Auswahl der Upper-Confidence Bound (UCB) Aktion•5 Minuten
Jonathan Langford: Contextual Bandits für Reinforcement Learning in der realen Welt•9 Minuten
Woche 1 Zusammenfassung•3 Minuten
3 Lektüren•Insgesamt 70 Minuten
Modul 1 Lernziele•10 Minuten
Wöchentliche Lektüre•30 Minuten
Kapitel Zusammenfassung•30 Minuten
1 Aufgabe•Insgesamt 45 Minuten
Sequentielle Entscheidungsfindung•45 Minuten
1 Programmieraufgabe•Insgesamt 30 Minuten
Banditen und Erkundung/Ausbeutung•30 Minuten
1 Diskussionsthema•Insgesamt 10 Minuten
Vergleichen Sie Bandits mit überwachtem Lernen•10 Minuten
2 Plug-ins•Insgesamt 30 Minuten
Lassen Sie uns ein Spiel spielen!•15 Minuten
Was ist darunter?•15 Minuten
Markov-Entscheidungsprozesse
Modul 3•3 Stunden abzuschließen
Moduldetails
Wenn Sie in der Industrie mit einem Problem konfrontiert werden, besteht der erste und wichtigste Schritt darin, dieses Problem in einen Markov Decision Process (MDP) zu übersetzen. Die Qualität Ihrer Lösung hängt stark davon ab, wie gut Sie diese Übersetzung durchführen. In dieser Woche werden Sie die Definition von MDPs kennenlernen, Sie werden verstehen, wie zielgerichtetes Verhalten aus der Maximierung skalarer Belohnungen resultiert und Sie werden auch den Unterschied zwischen episodischen und kontinuierlichen Aufgaben verstehen. Für die benotete Bewertung in dieser Woche werden Sie drei eigene Beispielaufgaben erstellen, die in den MDP-Rahmen passen.
Michael Littman: Die Belohnungshypothese•12 Minuten
Fortlaufende Aufgaben•5 Minuten
Beispiele für episodische und fortlaufende Aufgaben•3 Minuten
Woche 2 Zusammenfassung•2 Minuten
2 Lektüren•Insgesamt 40 Minuten
Modul 2 Lernziele•10 Minuten
Wöchentliche Lektüre•30 Minuten
1 Aufgabe•Insgesamt 45 Minuten
MDPs•45 Minuten
1 peer review•Insgesamt 60 Minuten
Benotete Aufgabe: Beschreiben Sie drei MDPs•60 Minuten
1 Diskussionsthema•Insgesamt 10 Minuten
Ist die Belohnungshypothese ausreichend?•10 Minuten
Wertfunktionen & Bellman-Gleichungen
Modul 4•3 Stunden abzuschließen
Moduldetails
Sobald das Problem als MDP formuliert ist, ist die Suche nach der optimalen Strategie effizienter, wenn Wertfunktionen verwendet werden. In dieser Woche lernen Sie die Definition von Strategien und Wertfunktionen sowie die Bellman-Gleichungen kennen, die Schlüsseltechnologie, die alle unsere Algorithmen verwenden werden.
Das ist alles enthalten
9 Videos3 Lektüren2 Aufgaben1 Diskussionsthema
Infos zu Modulinhalt anzeigen
9 Videos•Insgesamt 56 Minuten
Festlegen von Policen•5 Minuten
Wert Funktionen•6 Minuten
Rich Sutton und Andy Barto: Eine kurze Geschichte des RL•8 Minuten
Ableitung der Bellman-Gleichung•6 Minuten
Warum Bellman-Gleichungen?•5 Minuten
Optimale Politiken•8 Minuten
Optimale Wertfunktionen•5 Minuten
Optimale Wertfunktionen verwenden, um optimale Politiken zu erhalten•8 Minuten
Woche 3 Zusammenfassung•4 Minuten
3 Lektüren•Insgesamt 53 Minuten
Modul 3 Lernziele•10 Minuten
Wöchentliche Lektüre•30 Minuten
Kapitel Zusammenfassung•13 Minuten
2 Aufgaben•Insgesamt 90 Minuten
[Praxis] Wertfunktionen und Bellman-Gleichungen•45 Minuten
[Graded] Wertfunktionen und Bellman-Gleichungen•45 Minuten
1 Diskussionsthema•Insgesamt 10 Minuten
Einchecken•10 Minuten
Dynamische Programmierung
Modul 5•4 Stunden abzuschließen
Moduldetails
In dieser Woche werden Sie lernen, wie Sie Wertfunktionen und optimale Strategien berechnen können, vorausgesetzt, Sie haben das MDP-Modell. Sie werden die dynamische Programmierung implementieren, um Wertfunktionen und optimale Strategien zu berechnen und den Nutzen der dynamischen Programmierung für industrielle Anwendungen und Probleme zu verstehen. Außerdem lernen Sie die Generalized Policy Iteration als gängige Vorlage für die Konstruktion von Algorithmen zur Maximierung der Belohnung kennen. Für die benotete Bewertung in dieser Woche werden Sie einen effizienten Agenten der dynamischen Programmierung für ein simuliertes industrielles Steuerungsproblem implementieren.
Die University of Alberta gilt als eine der weltweit führenden öffentlichen forschungs- und lehrintensiven Universitäten, die für ihre Exzellenz in den Bereichen Geisteswissenschaften, Naturwissenschaften, kreative Künste, Wirtschaft, Ingenieurwesen und Gesundheitswissenschaften bekannt ist. Als eine der besten Universitäten Kanadas investieren wir in eine zielgerichtete postsekundäre Online-Ausbildung, die sich auf innovative digitale Pädagogik, erstklassige Dozenten, ein außergewöhnliches Design und ein hervorragendes Studentenerlebnis stützt.
Das Alberta Machine Intelligence Institute (Amii) beherbergt einige der weltbesten Talente im Bereich der maschinellen Intelligenz. Wir sind ein in Alberta ansässiges Forschungsinstitut, das die Grenzen des akademischen Wissens verschiebt und das Verständnis der Wirtschaft für künstliche Intelligenz und maschinelles Lernen fördert.
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“
Bewertungen von Lernenden
4.8
2.901 Bewertungen
5 stars
81,77 %
4 stars
14,30 %
3 stars
2,61 %
2 stars
0,44 %
1 star
0,86 %
Zeigt 3 von 2901 an
S
SM
5·
Geprüft am 6. Mai 2023
Excellent course, with a very nice presentation style, both the professors are excellent in their presentations and the material is well researched and delivered. A very valuable course.
U
U
4·
Geprüft am 2. Jan. 2021
The book is essential reading. It took me longer than the estimates to do the reading and the programming assignments. I would have liked more gridworld examples to get a faster hang of it.
K
KS
5·
Geprüft am 1. Sep. 2019
All the concepts were well explained and this course was perhaps the best I have found for RL.Great efforts have been put into making the course and It goes well in line with the suggested textbook.
Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?
Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Was bekomme ich, wenn ich mich für diese Specialization einschreibe?
Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Spezialisierung, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder Ihrem LinkedIn-Profil hinzufügen.
Ist finanzielle Hilfe verfügbar?
Ja. Für ausgewählte Lernprogramme können Sie finanzielle Unterstützung oder ein Stipendium beantragen, wenn Sie die Einschreibegebühr nicht aufbringen können. Wenn für das von Ihnen gewählte Lernprogramm eine finanzielle Unterstützung oder ein Stipendium verfügbar ist, finden Sie auf der Beschreibungsseite einen Link zur Beantragung.
Finanzielle Unterstützung verfügbar, weitere Informationen
¹ Einige Aufgaben in diesem Kurs werden mit AI bewertet. Für diese Aufgaben werden Ihre Daten in Übereinstimmung mit Datenschutzhinweis von Courseraverwendet.