Méthodes d'apprentissage par échantillonnage

Méthodes d'apprentissage par échantillonnage

Ce cours fait partie de Spécialisation "Apprentissage par renforcement"

Instructeurs : Martha White

37 864 déjà inscrits

Inclus avec

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

1,254 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

2 semaines à 10 heures une semaine

Apprenez à votre propre rythme

90%

La plupart des étudiants ont apprécié ce cours

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

1,254 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

2 semaines à 10 heures une semaine

Apprenez à votre propre rythme

90%

La plupart des étudiants ont apprécié ce cours

Compétences que vous acquerrez

Catégorie : Algorithmes d'apprentissage automatique
Catégorie : Algorithmes
Catégorie : Simulations
Catégorie : Intelligence artificielle et apprentissage automatique (IA/ML)
Catégorie : Échantillonnage (statistiques)
Catégorie : Distribution de probabilité
Catégorie : Apprentissage automatique
Catégorie : Apprentissage par renforcement
Section Compétences masquée. Affichage de 6 compétence(s) sur 8.

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

5 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Apprentissage par renforcement"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 5 modules dans ce cours

Dans ce cours, vous apprendrez plusieurs algorithmes qui peuvent apprendre des politiques presque optimales basées sur l'interaction d'essais et d'erreurs avec l'environnement - l'apprentissage à partir de l'expérience de l'agent. L'apprentissage à partir de l'expérience réelle est frappant parce qu'il ne nécessite aucune connaissance préalable de la dynamique de l'environnement, tout en permettant d'atteindre un comportement optimal. Nous aborderons des méthodes de Monte Carlo intuitivement simples mais puissantes, ainsi que des méthodes d'apprentissage par différence temporelle, y compris l'apprentissage Q. A la fin de ce cours, vous serez capable de : - Comprendre l'apprentissage par différence temporelle et Monte Carlo comme deux stratégies pour estimer les fonctions de valeur à partir de l'expérience échantillonnée - Comprendre l'importance de l'exploration, lorsque l'on utilise l'expérience échantillonnée plutôt que les balayages de programmation dynamique dans un modèle - Comprendre les liens entre Monte Carlo et la programmation dynamique et la TD.

- Implémenter et appliquer l'algorithme de programmation dynamique pour l'estimation des fonctions de valeur - Implémenter et appliquer Expected Sarsa et Q-learning (deux méthodes de programmation dynamique pour le contrôle) - Comprendre la différence entre le contrôle sur la politique et le contrôle hors politique - Comprendre la planification avec l'expérience simulée (par opposition aux stratégies de planification classiques) - Implémenter une approche de la programmation dynamique basée sur un modèle, appelée Dyna, qui utilise l'expérience simulée - Mener une étude empirique pour voir les améliorations de l'efficacité de l'échantillonnage lors de l'utilisation de Dyna

Bienvenue au deuxième cours de la spécialisation en apprentissage par renforcement : Méthodes d'apprentissage basées sur des échantillons, offert par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs et aurez un aperçu de ce que le cours vous réserve. N'oubliez pas de vous présenter à vos camarades de classe dans la section "Meet and Greet" !

Inclus

2 vidéos2 lectures1 sujet de discussion

Cette semaine, vous apprendrez à estimer les fonctions de valeur et les politiques optimales, en utilisant uniquement l'expérience échantillonnée de l'environnement. Ce module représente notre première étape vers des méthodes d'apprentissage incrémental qui apprennent à partir de l'interaction de l'agent avec le monde, plutôt qu'à partir d'un modèle du monde. Vous découvrirez les méthodes de prédiction et de contrôle avec et sans politique, en utilisant les méthodes de Monte Carlo, c'est-à-dire des méthodes qui utilisent des retours échantillonnés. Vous serez également réintroduit dans le problème de l'exploration, mais plus généralement en RL, au-delà des bandits.

Inclus

11 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion

11 vidéos Total 58 minutes

Qu'est-ce que Monte Carlo ? 7 minutes
Utiliser Monte Carlo pour la prédiction 6 minutes
Utilisation de Monte Carlo pour les valeurs déclenchant l'action 3 minutes
Utilisation de méthodes de Monte Carlo pour l'itération de politiques généralisées 3 minutes
Résoudre l'exemple du Blackjack 4 minutes
Politiques douces d'Epsilon 5 minutes
Pourquoi l'apprentissage hors politique est-il important ? 5 minutes
Échantillonnage d'importance 4 minutes
Prédiction de Monte Carlo hors politique 5 minutes
Emma Brunskill : Apprentissage par renforcement par lots 12 minutes
Résumé de la première semaine 4 minutes

3 lectures Total 90 minutes

Module 1 Objectifs d'apprentissage 10 minutes
Lecture hebdomadaire 40 minutes
Résumé du chapitre 40 minutes

1 devoir Total 30 minutes

Quiz noté 30 minutes

1 devoir de programmation Total 5 minutes

Blackjack 5 minutes

1 sujet de discussion Total 10 minutes

Comparaison entre l'apprentissage dans le cadre de la politique et l'apprentissage en dehors de la politique 10 minutes

Cette semaine, vous découvrirez l'un des concepts les plus fondamentaux de l'apprentissage par renforcement : l'apprentissage par différence temporelle (TD). L'apprentissage par différence temporelle combine certaines caractéristiques des méthodes de Monte Carlo et de programmation dynamique (PD). Les méthodes TD sont similaires aux méthodes Monte Carlo en ce qu'elles peuvent apprendre de l'interaction de l'agent avec le monde, et ne nécessitent pas la connaissance du modèle. Les méthodes de TD sont similaires aux méthodes de DP dans la mesure où elles s'amorcent et peuvent donc apprendre en ligne, sans attendre la fin d'un épisode. Vous verrez comment la méthode TD peut apprendre plus efficacement que la méthode Monte Carlo, grâce au bootstrap. Pour ce module, nous nous concentrons d'abord sur la TD pour la prédiction, et nous aborderons la TD pour le contrôle dans le module suivant. Cette semaine, vous mettrez en œuvre la TD pour estimer la fonction de valeur pour une politique fixe, dans un domaine simulé.

Inclus

6 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion

6 vidéos Total 37 minutes

Qu'est-ce que l'apprentissage par différence temporelle (TD) ? 5 minutes
Rich Sutton : L'importance de l'apprentissage par la TD 6 minutes
Les avantages de l'apprentissage par différence temporelle 5 minutes
Comparaison entre TD et Monte Carlo 6 minutes
Andy Barto et Rich Sutton : Plus d'informations sur l'histoire de RL 12 minutes
Résumé de la semaine 2 2 minutes

2 lectures Total 50 minutes

Objectifs d'apprentissage du module 2 10 minutes
Lecture hebdomadaire 40 minutes

1 devoir Total 30 minutes

Quiz pratique 30 minutes

1 devoir de programmation Total 180 minutes

Évaluation des politiques à l'aide de l'apprentissage par différence temporelle 180 minutes

1 sujet de discussion Total 10 minutes

Faut-il se préoccuper de la TD dans le cerveau ? 10 minutes

Cette semaine, vous apprendrez à utiliser l'apprentissage par différence temporelle pour le contrôle, en tant que stratégie d'itération de politique généralisée. Vous verrez trois algorithmes différents basés sur le bootstrapping et les équations de Bellman pour le contrôle : Sarsa, Q-learning et Expected Sarsa. Vous verrez certaines des différences entre les méthodes pour le contrôle avec et sans politique, et que Expected Sarsa est un algorithme unifié pour les deux. Vous mettrez en œuvre Expected Sarsa et Q-learning, sur Cliff World.

Inclus

9 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion

9 vidéos Total 30 minutes

Sarsa : GPI avec TD 4 minutes
Sarsa dans l'univers venteux de la grille 3 minutes
Qu'est-ce que l'apprentissage par questions-réponses ? 3 minutes
L'apprentissage par questions et réponses dans le monde venteux de la grille 4 minutes
En quoi l'apprentissage par questions-réponses est-il contraire à la politique ? 5 minutes
Sarsa prévue 4 minutes
Sarsa attendue dans le monde de la falaise 3 minutes
Généralité du Sarsa attendu 2 minutes
Résumé de la semaine 3 2 minutes

3 lectures Total 90 minutes

Module 3 Objectifs d'apprentissage 10 minutes
Lecture hebdomadaire 40 minutes
Résumé du chapitre 40 minutes

1 devoir Total 30 minutes

Quiz pratique 30 minutes

1 devoir de programmation Total 180 minutes

Q-Learning et SARSA attendu 180 minutes

1 sujet de discussion Total 10 minutes

Comment pouvons-nous utiliser le hors-politique pour l'apprentissage d'objectifs multiples ? 10 minutes

Jusqu'à présent, vous pouviez penser que l'apprentissage avec et sans modèle constituait deux stratégies distinctes et, d'une certaine manière, concurrentes : la planification avec la programmation dynamique et l'apprentissage basé sur l'échantillonnage via les méthodes de TD. Cette semaine, nous unifions ces deux stratégies avec l'architecture Dyna. Vous apprendrez à estimer le modèle à partir des données, puis à utiliser ce modèle pour générer une expérience hypothétique (un peu comme dans un rêve) afin d'améliorer considérablement l'efficacité de l'échantillonnage par rapport aux méthodes basées sur l'échantillonnage telles que l'apprentissage Q. En outre, vous apprendrez à concevoir des systèmes d'apprentissage robustes aux modèles imprécis.

Inclus

11 vidéos4 lectures2 devoirs1 devoir de programmation1 sujet de discussion

11 vidéos Total 47 minutes

Qu'est-ce qu'un modèle ? 5 minutes
Comparaison des modèles d'échantillonnage et de distribution 2 minutes
Planification Q tabulaire aléatoire 3 minutes
L'architecture Dyna 5 minutes
L'algorithme Dyna 5 minutes
Apprentissage Dyna et Q dans un labyrinthe simple 5 minutes
Que se passe-t-il si le modèle est inexact ? 4 minutes
Connaissance approfondie des environnements changeants 6 minutes
Drew Bagnell : conduite autonome, robotique et RL basé sur des modèles 7 minutes
Résumé de la semaine 4 2 minutes
Félicitations ! 2 minutes

4 lectures Total 130 minutes

Module 4 Objectifs d'apprentissage 10 minutes
Lecture hebdomadaire 40 minutes
Résumé du chapitre 40 minutes
Résumé de la première partie du manuel 40 minutes

2 devoirs Total 90 minutes

Évaluation des pratiques 45 minutes
Exercice de remplacement 45 minutes

1 devoir de programmation Total 180 minutes

Dyna-Q et Dyna-Q+ 180 minutes

1 sujet de discussion Total 10 minutes

Comparez la planification et le raisonnement 10 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant

(223 évaluations)

Martha White

University of Alberta

4 Cours 113 647 apprenants

Adam White

University of Alberta

4 Cours 113 647 apprenants

Offert par

University of Alberta

Alberta Machine Intelligence Institute

En savoir plus sur Apprentissage automatique

Statut : Prévisualisation
Columbia University
Decision Making and Reinforcement Learning
Cours
Statut : Prévisualisation
Northeastern University
Statistical Learning for Engineering Part 1
Cours
Statut : Prévisualisation
Northeastern University
Statistical Learning for Engineering Part 2
Cours
Statut : Prévisualisation
Simplilearn
Q Learning in Reinforcement Training Basics
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
82,31 %
4 stars
13,22 %
3 stars
2,78 %
2 stars
0,63 %
1 star
1,03 %

Affichage de 3 sur 1254

Révisé le 27 févr. 2020

Itwasgoodinsubstane but there is plenty of issues with the automated grader. you spend most time dealing with the letter not on actual learning of the matter.

Révisé le 13 mars 2022

The videos are very clear and do a good job explaining the material from the textbook. The assignments are relevant and just right in terms of length and difficulty.

Révisé le 14 févr. 2021

Excellent course that naturally extends the first specialization course. The application examples in programming are very good and I loved how RL gets closer and closer to how a living being thinks.

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien de demande sur la page de description.