Grundlagen des Reinforcement Learning

Schenken Sie Ihrer Karriere Coursera Plus mit einem Rabatt von $160 , der jährlich abgerechnet wird. Sparen Sie heute.

Grundlagen des Reinforcement Learning

Dieser Kurs ist Teil von Spezialisierung Reinforcement Learning

Dozenten: Martha White

93.137 bereits angemeldet

Bei Coursera Plus enthalten

Mehr erfahren

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.8

(2,780 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

Ca. 15 Stunden

In Ihrem eigenen Lerntempo lernen

92%

Den meisten Lernenden gefiel dieser Kurs

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

4.8

(2,780 Bewertungen)

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

Ca. 15 Stunden

In Ihrem eigenen Lerntempo lernen

92%

Den meisten Lernenden gefiel dieser Kurs

Was Sie lernen werden

Formalisieren Sie Probleme als Markov-Entscheidungsprozesse
Verstehen Sie die grundlegenden Explorationsmethoden und den Kompromiss zwischen Exploration und Ausbeutung
Wertfunktionen als Allzweckwerkzeug für optimale Entscheidungen verstehen
Wissen, wie man dynamische Programmierung als effizienten Lösungsansatz für ein industrielles Steuerungsproblem einsetzt

Kompetenzen, die Sie erwerben

Kategorie: Funktion Approximation
Kategorie: Künstliche Intelligenz (KI)
Kategorie: Reinforcement Learning
Kategorie: Maschinelles Lernen
Kategorie: Intelligente Systeme

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

5 Aufgaben

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist Teil der Spezialisierung Spezialisierung Reinforcement Learning

Wenn Sie sich für diesen Kurs anmelden, werden Sie auch für diese Spezialisierung angemeldet.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

Erwerben Sie ein Karrierezertifikat.

Fügen Sie diese Qualifikation zur Ihrem LinkedIn-Profil oder Ihrem Lebenslauf hinzu.

Teilen Sie es in den sozialen Medien und in Ihrer Leistungsbeurteilung.

In diesem Kurs gibt es 5 Module

Reinforcement Learning ist ein Teilbereich des maschinellen Lernens, aber auch ein allgemeiner Formalismus für automatisierte Entscheidungsfindung und KI. Dieser Kurs führt Sie in statistische Lerntechniken ein, bei denen ein Agent explizit Aktionen ausführt und mit der Welt interagiert. Das Verständnis der Bedeutung und der Herausforderungen von Lernagenten, die Entscheidungen treffen, ist heute von entscheidender Bedeutung, da immer mehr Unternehmen an interaktiven Agenten und intelligenten Entscheidungen interessiert sind.

Dieser Kurs führt Sie in die Grundlagen des Reinforcement Learning ein. Nach Abschluss dieses Kurses werden Sie: - Probleme als Markov-Entscheidungsprozesse formalisieren - Grundlegende Explorationsmethoden und den Kompromiss zwischen Exploration und Ausbeutung verstehen - Wertfunktionen als Allzweckwerkzeug für eine optimale Entscheidungsfindung verstehen - Wissen, wie man dynamische Programmierung als effizienten Lösungsansatz für ein industrielles Steuerungsproblem implementiert Dieser Kurs vermittelt Ihnen die Schlüsselkonzepte des Reinforcement Learning, die klassischen und modernen Algorithmen im RL zugrunde liegen. Nach Abschluss dieses Kurses werden Sie in der Lage sein, RL für reale Probleme einzusetzen, bei denen Sie das MDP spezifizieren müssen oder können. Dies ist der erste Kurs der Reinforcement Learning Specialization.

Willkommen bei: Grundlagen des Verstärkungslernens, dem ersten Kurs einer vierteiligen Specialization über Verstärkungslernen, die von der University of Alberta, Onlea und Coursera angeboten wird. In diesem Vorbereitungsmodul lernen Sie Ihre Dozenten kennen, erhalten einen Vorgeschmack auf das, was Sie in diesem Kurs erwartet, und erhalten einen detaillierten Fahrplan, um Ihre Reise durch diese Spezialisierung so reibungslos wie möglich zu gestalten.

Das ist alles enthalten

4 Videos2 Lektüren1 Diskussionsthema

4 VideosInsgesamt 20 Minuten

Spezialisierung Einführung2 MinutenModulvorschau
Kurs Einführung5 Minuten
Treffen Sie Ihre Ausbilder!8 Minuten
Ihr Fahrplan für die Specializations3 Minuten

2 LektürenInsgesamt 20 Minuten

Reinforcement Learning Lehrbuch10 Minuten
Lesen Sie mich: Voraussetzungen und Lernziele10 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Treffen und Begrüßen!10 Minuten

In der ersten Woche dieses Kurses werden Sie lernen, den Kompromiss zwischen Exploration und Ausbeutung bei sequentiellen Entscheidungen zu verstehen, inkrementelle Algorithmen zur Schätzung von Aktionswerten zu implementieren und die Stärken und Schwächen verschiedener Algorithmen zur Exploration zu vergleichen. Für die benotete Bewertung in dieser Woche werden Sie einen Epsilon-Greedy-Agenten implementieren und testen.

Das ist alles enthalten

8 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema2 Plug-ins

8 VideosInsgesamt 46 Minuten

Sequentielle Entscheidungsfindung mit evaluativem Feedback5 MinutenModulvorschau
Lernen Aktion Werte4 Minuten
Inkrementelle Schätzung der Aktionswerte5 Minuten
Was ist der Kompromiss?7 Minuten
Optimistische Ausgangswerte6 Minuten
Auswahl der Upper-Confidence Bound (UCB) Aktion5 Minuten
Jonathan Langford: Contextual Bandits für Reinforcement Learning in der realen Welt8 Minuten
Woche 1 Zusammenfassung3 Minuten

3 LektürenInsgesamt 70 Minuten

Modul 1 Lernziele10 Minuten
Wöchentliche Lektüre30 Minuten
Kapitel Zusammenfassung30 Minuten

1 AufgabeInsgesamt 45 Minuten

Sequentielle Entscheidungsfindung45 Minuten

1 ProgrammieraufgabeInsgesamt 30 Minuten

Banditen und Erkundung/Ausbeutung30 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Vergleichen Sie Bandits mit überwachtem Lernen10 Minuten

2 Plug-insInsgesamt 30 Minuten

Lassen Sie uns ein Spiel spielen!15 Minuten
Was ist darunter?15 Minuten

Wenn Sie in der Industrie mit einem Problem konfrontiert werden, besteht der erste und wichtigste Schritt darin, dieses Problem in einen Markov Decision Process (MDP) zu übersetzen. Die Qualität Ihrer Lösung hängt stark davon ab, wie gut Sie diese Übersetzung durchführen. In dieser Woche werden Sie die Definition von MDPs kennenlernen, Sie werden verstehen, wie zielgerichtetes Verhalten aus der Maximierung skalarer Belohnungen resultiert und Sie werden auch den Unterschied zwischen episodischen und kontinuierlichen Aufgaben verstehen. Für die benotete Bewertung in dieser Woche werden Sie drei eigene Beispielaufgaben erstellen, die in den MDP-Rahmen passen.

Das ist alles enthalten

7 Videos2 Lektüren1 Aufgabe1 peer review1 Diskussionsthema

7 VideosInsgesamt 36 Minuten

Markov-Entscheidungsprozesse6 MinutenModulvorschau
Beispiele für MDPs4 Minuten
Das Ziel von Reinforcement Learning3 Minuten
Michael Littman: Die Belohnungshypothese12 Minuten
Fortlaufende Aufgaben5 Minuten
Beispiele für episodische und fortlaufende Aufgaben3 Minuten
Woche 2 Zusammenfassung1 Minute

2 LektürenInsgesamt 40 Minuten

Modul 2 Lernziele10 Minuten
Wöchentliche Lektüre30 Minuten

1 AufgabeInsgesamt 45 Minuten

MDPs45 Minuten

1 peer reviewInsgesamt 60 Minuten

Benotete Aufgabe: Beschreiben Sie drei MDPs60 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Ist die Belohnungshypothese ausreichend?10 Minuten

Sobald das Problem als MDP formuliert ist, ist die Suche nach der optimalen Strategie effizienter, wenn Wertfunktionen verwendet werden. In dieser Woche lernen Sie die Definition von Strategien und Wertfunktionen sowie die Bellman-Gleichungen kennen, die Schlüsseltechnologie, die alle unsere Algorithmen verwenden werden.

Das ist alles enthalten

9 Videos3 Lektüren2 Aufgaben1 Diskussionsthema

9 VideosInsgesamt 56 Minuten

Festlegen von Policen4 MinutenModulvorschau
Wert Funktionen6 Minuten
Rich Sutton und Andy Barto: Eine kurze Geschichte des RL7 Minuten
Ableitung der Bellman-Gleichung6 Minuten
Warum Bellman-Gleichungen?5 Minuten
Optimale Politiken7 Minuten
Optimale Wertfunktionen5 Minuten
Optimale Wertfunktionen verwenden, um optimale Politiken zu erhalten8 Minuten
Woche 3 Zusammenfassung4 Minuten

3 LektürenInsgesamt 53 Minuten

Modul 3 Lernziele10 Minuten
Wöchentliche Lektüre30 Minuten
Kapitel Zusammenfassung13 Minuten

2 AufgabenInsgesamt 90 Minuten

[Graded] Wertfunktionen und Bellman-Gleichungen45 Minuten
[Praxis] Wertfunktionen und Bellman-Gleichungen45 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Einchecken10 Minuten

In dieser Woche werden Sie lernen, wie Sie Wertfunktionen und optimale Strategien berechnen können, vorausgesetzt, Sie haben das MDP-Modell. Sie werden die dynamische Programmierung implementieren, um Wertfunktionen und optimale Strategien zu berechnen und den Nutzen der dynamischen Programmierung für industrielle Anwendungen und Probleme zu verstehen. Außerdem lernen Sie die Generalized Policy Iteration als gängige Vorlage für die Konstruktion von Algorithmen zur Maximierung der Belohnung kennen. Für die benotete Bewertung in dieser Woche werden Sie einen effizienten Agenten der dynamischen Programmierung für ein simuliertes industrielles Steuerungsproblem implementieren.

Das ist alles enthalten

10 Videos3 Lektüren1 Aufgabe1 Programmieraufgabe1 Diskussionsthema

10 VideosInsgesamt 72 Minuten

Politikbewertung vs. Kontrolle4 MinutenModulvorschau
Iterative Politikbewertung8 Minuten
Verbesserung der Politik4 Minuten
Politik Iteration8 Minuten
Flexibilität des Policy Iteration Framework4 Minuten
Effizienz der dynamischen Programmierung5 Minuten
Warren Powell: Approximative dynamische Programmierung für Flottenmanagement (kurz)7 Minuten
Warren Powell: Approximative dynamische Programmierung für Flottenmanagement (Lang)21 Minuten
Woche 4 Zusammenfassung2 Minuten
Herzlichen Glückwunsch!3 Minuten

3 LektürenInsgesamt 70 Minuten

Modul 4 Lernziele10 Minuten
Wöchentliche Lektüre30 Minuten
Kapitel Zusammenfassung30 Minuten

1 AufgabeInsgesamt 45 Minuten

Dynamische Programmierung45 Minuten

1 ProgrammieraufgabeInsgesamt 30 Minuten

Optimale Politiken mit dynamischer Programmierung30 Minuten

1 DiskussionsthemaInsgesamt 10 Minuten

Wo können Sie die dynamische Programmierung einsetzen?10 Minuten

Dozenten

Lehrkraftbewertungen

4.7 (800 Bewertungen)

Martha White

University of Alberta

4 Kurse98.463 Lernende

Adam White

University of Alberta

4 Kurse98.463 Lernende

von

University of Alberta

Alberta Machine Intelligence Institute

Empfohlen, wenn Sie sich für Maschinelles Lernen interessieren

IBM
IBM Maschinelles Lernen
Berufsbezogenes Zertifikat
H2O.ai
H2O Driverless AI Starterkurs
Kurs
Johns Hopkins University
Neuronale Netze und Modellregulierung beherrschen
Kurs
LearnQuest
Modelle für maschinelles Lernen in der Wissenschaft
Kurs

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

Zeigt 3 von 2780

4.8

2.780 Bewertungen

5 stars
81,71 %
4 stars
14,55 %
3 stars
2,55 %
2 stars
0,43 %
1 star
0,75 %

Geprüft am 1. Juli 2021

Geprüft am 11. Apr. 2024

Geprüft am 6. Sep. 2019

Weitere Bewertungen anzeigen

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu über 7.000 erstklassigen Kursen, praktischen Projekten und Zertifikatsprogrammen, die Sie auf den Beruf vorbereiten – alles in Ihrem Abonnement enthalten

Mehr erfahren

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Erkunden Sie die Abschlüsse

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Mehr erfahren

Häufig gestellte Fragen

Der Zugang zu Vorlesungen und Aufgaben hängt von der Art Ihrer Einschreibung ab. Wenn Sie einen Kurs im Prüfungsmodus belegen, können Sie die meisten Kursmaterialien kostenlos einsehen. Um auf benotete Aufgaben zuzugreifen und ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung während oder nach Ihrer Prüfung erwerben. Wenn Sie die Prüfungsoption nicht sehen:

Der Kurs bietet möglicherweise keine Prüfungsoption. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen.
Der Kurs bietet möglicherweise stattdessen die Option 'Vollständiger Kurs, kein Zertifikat'. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs einschreiben, erhalten Sie Zugang zu allen Kursen der Specializations, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird Ihrer Erfolgsseite hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen. Wenn Sie die Kursinhalte nur lesen und ansehen möchten, können Sie den Kurs kostenlos besuchen.

Wenn Sie ein Abonnement abgeschlossen haben, erhalten Sie eine kostenlose 7-tägige Testphase, in der Sie kostenlos kündigen können. Danach gewähren wir keine Rückerstattung, aber Sie können Ihr Abonnement jederzeit kündigen. Siehe unsere vollständigen Rückerstattungsbedingungen.

Weitere Fragen

Besuchen Sie die das Hilfe-Center für Kursteilnehmer.

Grundlagen des Reinforcement Learning

Was Sie lernen werden

Kompetenzen, die Sie erwerben

Wichtige Details

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Erweitern Sie Ihre Fachkenntnisse

Erwerben Sie ein Karrierezertifikat.

In diesem Kurs gibt es 5 Module

Willkommen auf dem Kurs!

Das ist alles enthalten

Eine Einführung in die sequenzielle Entscheidungsfindung

Das ist alles enthalten

Markov-Entscheidungsprozesse

Das ist alles enthalten

Wertfunktionen & Bellman-Gleichungen

Das ist alles enthalten

Dynamische Programmierung

Das ist alles enthalten

Dozenten

von

Empfohlen, wenn Sie sich für Maschinelles Lernen interessieren

IBM Maschinelles Lernen

H2O Driverless AI Starterkurs

Neuronale Netze und Modellregulierung beherrschen

Modelle für maschinelles Lernen in der Wissenschaft

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Bewertungen von Lernenden

Neue Karrieremöglichkeiten mit Coursera Plus

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Häufig gestellte Fragen

Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?

Was bekomme ich, wenn ich mich für diese Specialization einschreibe?

Wie sieht die Erstattungspolitik aus?

Weitere Fragen