Prise de décision et apprentissage par renforcement

Prise de décision et apprentissage par renforcement

Instructeur : Tony Dear

3 459 déjà inscrits

Inclus avec Coursera Plus

8 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.3

(20 avis)

niveau Intermédiaire

Expérience recommandée

47 heures pour terminer

3 semaines à 15 heures par semaine

Planning flexible

Apprenez à votre propre rythme

8 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.3

(20 avis)

niveau Intermédiaire

Expérience recommandée

47 heures pour terminer

3 semaines à 15 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Établir une correspondance entre les préférences qualitatives et les utilités quantitatives appropriées.
Modéliser les problèmes de décision séquentielle non associatifs et associatifs par des problèmes de bandits à bras multiples et des processus de décision de Markov, respectivement
Mettre en œuvre des algorithmes de programmation dynamique pour trouver des politiques optimales
Mettre en œuvre des algorithmes de base d'apprentissage par renforcement en utilisant les méthodes de Monte Carlo et de différence temporelle

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

8 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 8 modules dans ce cours

Ce cours est une introduction à la prise de décision séquentielle et à l'apprentissage par renforcement. Nous commençons par une discussion sur la théorie de l'utilité pour apprendre comment les préférences peuvent être représentées et modélisées pour la prise de décision. Nous modélisons d'abord des problèmes de décision simples comme des problèmes de bandits à plusieurs bras et discutons de plusieurs approches pour évaluer le retour d'information. Nous modéliserons ensuite les problèmes de décision comme des processus de décision de Markov (PDM) finis, et nous discuterons de leurs solutions par le biais d'algorithmes de programmation dynamique. Nous abordons la notion d'observabilité partielle dans des problèmes réels, modélisés par des POMDP et résolus par des méthodes de planification en ligne. Enfin, nous introduisons le problème de l'apprentissage par renforcement et discutons de deux paradigmes : Les méthodes de Monte Carlo et l'apprentissage par différence temporelle. Nous conclurons le cours en notant comment les deux paradigmes se situent sur un spectre de méthodes de différence temporelle à n étapes. L'accent mis sur les algorithmes et les exemples sera un élément clé de ce cours.

Bienvenue au cours sur la prise de décision et l'apprentissage par renforcement ! Au cours de cette semaine, le professeur Tony Dear présente une vue d'ensemble du cours. Vous verrez également des lignes directrices pour vous aider dans votre apprentissage de la modélisation des problèmes de décision séquentielle et de l'implémentation d'algorithmes d'apprentissage par renforcement.

Inclus

6 vidéos6 lectures1 devoir1 devoir de programmation3 sujets de discussion1 plugin

6 vidéosTotal 39 minutes

Introduction à la prise de décision et à l'apprentissage par renforcement1 minutePrévisualiser le module
Logistique des cours3 minutes
1.1 Agents rationnels et théorie de l'utilité9 minutes
1.2 Préférences et axiomes de la théorie de l'utilité9 minutes
1.3 Utilités incertaines et multi-attributs9 minutes
1.4 Valeur de l'information parfaite6 minutes

6 lecturesTotal 60 minutes

Syllabus du cours10 minutes
À propos de l'instructeur10 minutes
Politique d'honnêteté académique10 minutes
Étiquette du forum de discussion10 minutes
Enquête préalable au cours10 minutes
Semaine 1 Matériel de cours10 minutes

1 devoirTotal 30 minutes

Théorie de l'utilité30 minutes

1 devoir de programmationTotal 180 minutes

Théorie de l'utilité180 minutes

3 sujets de discussionTotal 30 minutes

Présentez-vous !10 minutes
Discussion sur la théorie de l'utilité10 minutes
Questions et commentaires de la semaine 110 minutes

1 pluginTotal 15 minutes

Enquête préalable au cours15 minutes

Bienvenue à la deuxième semaine ! Cette semaine, nous allons nous familiariser avec les problèmes de bandits à plusieurs bras, un type de problème d'optimisation dans lequel l'algorithme équilibre l'exploration et l'exploitation afin de maximiser les récompenses. Les sujets abordés comprennent les valeurs des actions et l'estimation de la moyenne des échantillons, la sélection des actions par 𝜀-greedy et la limite supérieure de confiance. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

3 vidéos1 lecture1 devoir1 devoir de programmation2 sujets de discussion

3 vidéosTotal 36 minutes

2.1 Bandits multiarmés et valeurs d'action9 minutesPrévisualiser le module
2.2 Sélection d'une action de type "Ɛ-Greedy"12 minutes
2.3 Limite supérieure de confiance14 minutes

1 lectureTotal 10 minutes

Matériel de cours de la semaine 210 minutes

1 devoirTotal 30 minutes

Problèmes de bandits à plusieurs bras30 minutes

1 devoir de programmationTotal 180 minutes

Problèmes de bandits à plusieurs bras180 minutes

2 sujets de discussionTotal 20 minutes

Discussion sur les bandits à plusieurs bras10 minutes
Questions et commentaires de la semaine 210 minutes

Bienvenue à la troisième semaine ! Cette semaine, nous nous concentrerons sur les bases du processus de décision de Markov, y compris les récompenses, les utilités, l'actualisation, les politiques, les fonctions de valeur et les équations de Bellman. Vous modéliserez des problèmes de décision séquentielle, comprendrez l'impact des récompenses et des facteurs d'actualisation sur les résultats, définirez des politiques et des fonctions de valeur, et écrirez des équations de Bellman pour les solutions optimales. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

6 vidéos1 lecture1 devoir1 devoir de programmation3 sujets de discussion

6 vidéosTotal 35 minutes

3.1 Cadre du processus de décision de Markov4 minutesPrévisualiser le module
3.2 Exemple de monde en grille8 minutes
3.3 Récompenses, services publics et escompte7 minutes
3.4 Politiques et fonctions de valeur6 minutes
3.5 Exemple : Mini-Gridworld5 minutes
3.6 Équations d'optimalité de Bellman3 minutes

1 lectureTotal 10 minutes

Matériel de cours de la semaine 310 minutes

1 devoirTotal 30 minutes

Problèmes de décision séquentielle30 minutes

1 devoir de programmationTotal 180 minutes

Équations de Bellman180 minutes

3 sujets de discussionTotal 30 minutes

Discussion sur le problème de la décision séquentielle - Partie 110 minutes
Discussion sur le problème de la décision séquentielle - Partie 210 minutes
Questions et commentaires de la semaine 310 minutes

Bienvenue à la semaine 4 ! Cette semaine, nous aborderons les algorithmes de programmation dynamique pour résoudre les processus de décision de Markov (PDM). Les sujets abordés incluent l'itération de valeur et l'itération de politique, les équations de Bellman non linéaires, la complexité et la convergence, ainsi qu'une comparaison des deux approches.

Inclus

6 vidéos1 lecture1 devoir2 devoirs de programmation3 sujets de discussion

6 vidéosTotal 41 minutes

4.1 Valeurs limitées dans le temps7 minutesPrévisualiser le module
4.2 Itération de la valeur6 minutes
4.3 Mise en œuvre de l'itération de valeur8 minutes
4.4 Itération de la politique8 minutes
4.5 Exemple : Mini-Gridworld3 minutes
4.6 Complexité des algorithmes7 minutes

1 lectureTotal 10 minutes

Matériel de cours de la semaine 410 minutes

1 devoirTotal 30 minutes

Processus de décision de Markov30 minutes

2 devoirs de programmationTotal 360 minutes

Valeur Itération180 minutes
Itération de la politique180 minutes

3 sujets de discussionTotal 35 minutes

Discussion sur les processus de décision de Markov15 minutes
Discussion sur l'itération des politiques par rapport à l'itération des valeurs10 minutes
Questions et commentaires de la semaine 410 minutes

Bienvenue à la semaine 5 ! Cette semaine, nous aborderons les thèmes de l'observabilité partielle et des POMDP, des états de croyance, de la représentation en tant que MDP de croyance et de la planification en ligne dans les MDP et les POMDP. Vous appliquerez également vos connaissances pour mettre à jour l'état de croyance et utiliser une fonction de transition de croyance pour calculer les valeurs de l'état. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

5 vidéos2 lectures1 devoir1 devoir de programmation3 sujets de discussion

5 vidéosTotal 35 minutes

5.1 Observabilité partielle et POMDP4 minutesPrévisualiser le module
5.2 États de croyance8 minutes
5.3 Modèle de transition des croyances6 minutes
5.4 Politiques et fonctions de valeur10 minutes
5.5 Exemple : Mini-Gridworld5 minutes

2 lecturesTotal 20 minutes

Matériel de cours de la semaine 510 minutes
Résumé des semaines 3, 4 et 510 minutes

1 devoirTotal 30 minutes

POMDPs30 minutes

1 devoir de programmationTotal 180 minutes

POMDPs180 minutes

3 sujets de discussionTotal 35 minutes

Discussion sur les POMDP - Partie 115 minutes
Discussion sur les POMDPs - Partie 210 minutes
Semaine 5 Questions et commentaires10 minutes

Bienvenue à la semaine 6 ! Cette semaine, nous présenterons les méthodes de Monte Carlo et couvrirons des sujets liés à l'estimation des valeurs d'état à l'aide de la moyenne d'échantillonnage et de la prédiction de Monte Carlo, aux valeurs d'état-action et aux politiques epsilon-greedy, ainsi qu'à l'échantillonnage d'importance pour le contrôle de Monte Carlo hors politique et sur politique. Vous apprendrez à estimer les valeurs d'état, les valeurs d'état-action, à utiliser l'échantillonnage d'importance et à mettre en œuvre le contrôle Monte Carlo hors politique pour un apprentissage optimal de la politique. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

6 vidéos2 lectures1 devoir1 devoir de programmation2 sujets de discussion

6 vidéosTotal 41 minutes

6.1 Méthodes de Monte Carlo5 minutesPrévisualiser le module
6.2 Prédiction de la MC à la première visite7 minutes
6.3 Valeurs d'action de l'État5 minutes
6.4 Ɛ-Greedy On-Policy MC Control (Contrôle MC avec politique)7 minutes
6.5 Contrôle MC avec ou sans politique7 minutes
6.6 Exemple : Mini-Gridworld8 minutes

2 lecturesTotal 20 minutes

Semaine 6 Matériel de cours10 minutes
Lecture post-cours10 minutes

1 devoirTotal 30 minutes

Monte Carlo RL30 minutes

1 devoir de programmationTotal 180 minutes

Monte Carlo180 minutes

2 sujets de discussionTotal 20 minutes

Discussion sur la méthode Monte Carlo RL10 minutes
Semaine 6 Questions et commentaires10 minutes

Bienvenue à la semaine 7 ! Cette semaine, nous aborderons des sujets liés à l'apprentissage par différence temporelle pour la prédiction, aux méthodes TD batch, à SARSA pour le contrôle sur la politique, et à Q-learning pour le contrôle hors politique. Vous apprendrez à mettre en œuvre la prédiction TD, les méthodes TD batch et offline, SARSA et Q-learning, et à comparer l'apprentissage TD on-policy et off-policy. Vous appliquerez ensuite vos connaissances en résolvant un devoir de programmation de type morpion. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

5 vidéos2 lectures1 devoir3 devoirs de programmation2 sujets de discussion

5 vidéosTotal 35 minutes

7.1 Apprentissage par différence temporelle6 minutesPrévisualiser le module
7.2 Prédiction de la différence temporelle5 minutes
7.3 Mise à jour par lots5 minutes
7.4 Apprentissage de la TD pour le contrôle8 minutes
7.5 SARSA vs Q-Learning9 minutes

2 lecturesTotal 20 minutes

Semaine 7 Matériel de cours10 minutes
Lectures post-cours10 minutes

1 devoirTotal 30 minutes

Apprentissage par différence temporelle30 minutes

3 devoirs de programmationTotal 420 minutes

Tic-Tac-Toe60 minutes
Q-Learning180 minutes
SARSA180 minutes

2 sujets de discussionTotal 20 minutes

Discussion sur la différence temporelle RL10 minutes
Semaine 7 Questions et commentaires10 minutes

Bienvenue à la semaine 8 ! Ce module couvre la prédiction de différence temporelle en une étape, SARSA en une étape (avec et sans politique), RL basé sur un modèle avec Dyna-Q, et l'approximation de fonction. Vous serez prêt à mettre en œuvre l'apprentissage par différence temporelle en une étape, la SARSA en une étape, Dyna-Q pour l'apprentissage basé sur un modèle, et à utiliser l'approximation de fonction pour l'apprentissage par renforcement. Vous appliquerez vos connaissances dans l'environnement de programmation Frozen Lake. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

4 vidéos3 lectures1 devoir1 devoir de programmation2 sujets de discussion1 plugin

4 vidéosTotal 39 minutes

8.1 𝑛-étape Prédiction de la différence temporelle10 minutesPrévisualiser le module
8.2 𝑛-étape SARSA8 minutes
8.3 Méthodes basées sur des modèles8 minutes
8.4 Approximation des fonctions11 minutes

3 lecturesTotal 30 minutes

Matériel de cours de la semaine 810 minutes
Lectures post-cours10 minutes
Enquête post-cours10 minutes

1 devoirTotal 30 minutes

Généralisation des méthodes tabulaires30 minutes

1 devoir de programmationTotal 180 minutes

Lac gelé180 minutes

2 sujets de discussionTotal 25 minutes

L'apprentissage par renforcement dans la vie quotidienne15 minutes
Semaine 8 - Questions et commentaires10 minutes

1 pluginTotal 15 minutes

Enquête post-cours15 minutes

Instructeur

Évaluations de l’enseignant

4.3 (6 évaluations)

Tony Dear

Columbia University

1 Cours3 459 apprenants

Offert par

Columbia University

Recommandé si vous êtes intéressé(e) par Algorithmes

University of Alberta
Reinforcement Learning
Spécialisation
University of Alberta
Fundamentals of Reinforcement Learning
Cours
University of Alberta
Sample-based Learning Methods
Cours
New York University
Reinforcement Learning in Finance
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.3

20 avis

5 stars
60 %
4 stars
25 %
3 stars
0 %
2 stars
10 %
1 star
5 %

Affichage de 3 sur 20

Révisé le 20 janv. 2024

Very good introductory and basic to Reinforcement Learning. But programming assignments need more careful compilation and more attention to detail!

Révisé le 9 juil. 2023

Well-structured course that provides a great introduction to methodologies used in reinforcement learning. I am now eager to experiment more in my own time, to consolidate what I have learned.

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous achetez un certificat, vous avez accès à tous les supports de cours, y compris les devoirs notés. Une fois le cours terminé, votre certificat électronique sera ajouté à votre page de réalisations. Vous pourrez alors l'imprimer ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez l'auditer gratuitement.

Vous pouvez prétendre à un remboursement intégral jusqu'à deux semaines après la date de votre paiement ou (pour les cours qui viennent d'être lancés) jusqu'à deux semaines après le début de la première session du cours, la date la plus tardive étant retenue. Vous ne pouvez pas obtenir de remboursement une fois que vous avez obtenu un certificat de cours, même si vous terminez le cours pendant la période de remboursement de deux semaines. Consultez notre politique de remboursement complète.