Ce cours est une introduction à la prise de décision séquentielle et à l'apprentissage par renforcement. Nous commençons par une discussion sur la théorie de l'utilité pour apprendre comment les préférences peuvent être représentées et modélisées pour la prise de décision. Nous modélisons d'abord des problèmes de décision simples comme des problèmes de bandits à plusieurs bras et discutons de plusieurs approches pour évaluer le retour d'information. Nous modéliserons ensuite les problèmes de décision comme des processus de décision de Markov (PDM) finis, et nous discuterons de leurs solutions par le biais d'algorithmes de programmation dynamique. Nous abordons la notion d'observabilité partielle dans des problèmes réels, modélisés par des POMDP et résolus par des méthodes de planification en ligne. Enfin, nous introduisons le problème de l'apprentissage par renforcement et discutons de deux paradigmes : Les méthodes de Monte Carlo et l'apprentissage par différence temporelle. Nous conclurons le cours en notant comment les deux paradigmes se situent sur un spectre de méthodes de différence temporelle à n étapes. L'accent mis sur les algorithmes et les exemples sera un élément clé de ce cours.
Prise de décision et apprentissage par renforcement
Instructeur : Tony Dear
3 062 déjà inscrits
Inclus avec
(19 avis)
Expérience recommandée
Ce que vous apprendrez
Établir une correspondance entre les préférences qualitatives et les utilités quantitatives appropriées.
Modéliser les problèmes de décision séquentielle non associatifs et associatifs par des problèmes de bandits à bras multiples et des processus de décision de Markov, respectivement
Mettre en œuvre des algorithmes de programmation dynamique pour trouver des politiques optimales
Mettre en œuvre des algorithmes de base d'apprentissage par renforcement en utilisant les méthodes de Monte Carlo et de différence temporelle
Compétences que vous acquerrez
- Catégorie : Méthode de Monte Carlo
- Catégorie : Apprentissage par renforcement
- Catégorie : Processus de décision de Markov
- Catégorie : Apprentissage automatique
- Catégorie : Deep learning
Détails à connaître
Ajouter à votre profil LinkedIn
8 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 8 modules dans ce cours
Bienvenue au cours sur la prise de décision et l'apprentissage par renforcement ! Au cours de cette semaine, le professeur Tony Dear présente une vue d'ensemble du cours. Vous verrez également des lignes directrices pour vous aider dans votre apprentissage de la modélisation des problèmes de décision séquentielle et de l'implémentation d'algorithmes d'apprentissage par renforcement.
Inclus
6 vidéos6 lectures1 devoir1 devoir de programmation3 sujets de discussion1 plugin
Bienvenue à la deuxième semaine ! Cette semaine, nous allons nous familiariser avec les problèmes de bandits à plusieurs bras, un type de problème d'optimisation dans lequel l'algorithme équilibre l'exploration et l'exploitation afin de maximiser les récompenses. Les sujets abordés comprennent les valeurs des actions et l'estimation de la moyenne des échantillons, la sélection des actions par 𝜀-greedy et la limite supérieure de confiance. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.
Inclus
3 vidéos1 lecture1 devoir1 devoir de programmation2 sujets de discussion
Bienvenue à la troisième semaine ! Cette semaine, nous nous concentrerons sur les bases du processus de décision de Markov, y compris les récompenses, les utilités, l'actualisation, les politiques, les fonctions de valeur et les équations de Bellman. Vous modéliserez des problèmes de décision séquentielle, comprendrez l'impact des récompenses et des facteurs d'actualisation sur les résultats, définirez des politiques et des fonctions de valeur, et écrirez des équations de Bellman pour les solutions optimales. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.
Inclus
6 vidéos1 lecture1 devoir1 devoir de programmation3 sujets de discussion
Bienvenue à la semaine 4 ! Cette semaine, nous aborderons les algorithmes de programmation dynamique pour résoudre les processus de décision de Markov (PDM). Les sujets abordés incluent l'itération de valeur et l'itération de politique, les équations de Bellman non linéaires, la complexité et la convergence, ainsi qu'une comparaison des deux approches.
Inclus
6 vidéos1 lecture1 devoir2 devoirs de programmation3 sujets de discussion
Bienvenue à la semaine 5 ! Cette semaine, nous aborderons les thèmes de l'observabilité partielle et des POMDP, des états de croyance, de la représentation en tant que MDP de croyance et de la planification en ligne dans les MDP et les POMDP. Vous appliquerez également vos connaissances pour mettre à jour l'état de croyance et utiliser une fonction de transition de croyance pour calculer les valeurs de l'état. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.
Inclus
5 vidéos2 lectures1 devoir1 devoir de programmation3 sujets de discussion
Bienvenue à la semaine 6 ! Cette semaine, nous présenterons les méthodes de Monte Carlo et couvrirons des sujets liés à l'estimation des valeurs d'état à l'aide de la moyenne d'échantillonnage et de la prédiction de Monte Carlo, aux valeurs d'état-action et aux politiques epsilon-greedy, ainsi qu'à l'échantillonnage d'importance pour le contrôle de Monte Carlo hors politique et sur politique. Vous apprendrez à estimer les valeurs d'état, les valeurs d'état-action, à utiliser l'échantillonnage d'importance et à mettre en œuvre le contrôle Monte Carlo hors politique pour un apprentissage optimal de la politique. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.
Inclus
6 vidéos2 lectures1 devoir1 devoir de programmation2 sujets de discussion
Bienvenue à la semaine 7 ! Cette semaine, nous aborderons des sujets liés à l'apprentissage par différence temporelle pour la prédiction, aux méthodes TD batch, à SARSA pour le contrôle sur la politique, et à Q-learning pour le contrôle hors politique. Vous apprendrez à mettre en œuvre la prédiction TD, les méthodes TD batch et offline, SARSA et Q-learning, et à comparer l'apprentissage TD on-policy et off-policy. Vous appliquerez ensuite vos connaissances en résolvant un devoir de programmation de type morpion. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.
Inclus
5 vidéos2 lectures1 devoir3 devoirs de programmation2 sujets de discussion
Bienvenue à la semaine 8 ! Ce module couvre la prédiction de différence temporelle en une étape, SARSA en une étape (avec et sans politique), RL basé sur un modèle avec Dyna-Q, et l'approximation de fonction. Vous serez prêt à mettre en œuvre l'apprentissage par différence temporelle en une étape, la SARSA en une étape, Dyna-Q pour l'apprentissage basé sur un modèle, et à utiliser l'approximation de fonction pour l'apprentissage par renforcement. Vous appliquerez vos connaissances dans l'environnement de programmation Frozen Lake. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.
Inclus
4 vidéos3 lectures1 devoir1 devoir de programmation2 sujets de discussion1 plugin
Instructeur
Offert par
Recommandé si vous êtes intéressé(e) par Algorithmes
Stanford University
University of Leeds
Yunus Social Business Fund Bengaluru
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Avis des étudiants
19 avis
- 5 stars
57,89 %
- 4 stars
26,31 %
- 3 stars
0 %
- 2 stars
10,52 %
- 1 star
5,26 %
Affichage de 3 sur 19
Révisé le 20 janv. 2024
Very good introductory and basic to Reinforcement Learning. But programming assignments need more careful compilation and more attention to detail!
Révisé le 9 juil. 2023
Well-structured course that provides a great introduction to methodologies used in reinforcement learning. I am now eager to experiment more in my own time, to consolidate what I have learned.
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :
Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous achetez un certificat, vous avez accès à tous les supports de cours, y compris les devoirs notés. Une fois le cours terminé, votre certificat électronique sera ajouté à votre page de réalisations. Vous pourrez alors l'imprimer ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez l'auditer gratuitement.
Vous pouvez prétendre à un remboursement intégral jusqu'à deux semaines après la date de votre paiement ou (pour les cours qui viennent d'être lancés) jusqu'à deux semaines après le début de la première session du cours, la date la plus tardive étant retenue. Vous ne pouvez pas obtenir de remboursement une fois que vous avez obtenu un certificat de cours, même si vous terminez le cours pendant la période de remboursement de deux semaines. Consultez notre politique de remboursement complète.