Méthodes d'apprentissage par échantillonnage

Méthodes d'apprentissage par échantillonnage

Ce cours fait partie de Spécialisation Apprentissage par renforcement

Instructeurs : Martha White

33 873 déjà inscrits

Inclus avec Coursera Plus

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.8

(1,229 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 22 heures

Apprenez à votre propre rythme

90%

La plupart des étudiants ont apprécié ce cours

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.8

(1,229 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 22 heures

Apprenez à votre propre rythme

90%

La plupart des étudiants ont apprécié ce cours

Compétences que vous acquerrez

Catégorie : Approximation des fonctions
Catégorie : Intelligence artificielle (IA)
Catégorie : Apprentissage par renforcement
Catégorie : Apprentissage automatique
Catégorie : Systèmes intelligents

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

5 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Apprentissage par renforcement

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 5 modules dans ce cours

Dans ce cours, vous apprendrez plusieurs algorithmes qui peuvent apprendre des politiques presque optimales basées sur l'interaction d'essais et d'erreurs avec l'environnement - l'apprentissage à partir de l'expérience de l'agent. L'apprentissage à partir de l'expérience réelle est frappant parce qu'il ne nécessite aucune connaissance préalable de la dynamique de l'environnement, tout en permettant d'atteindre un comportement optimal. Nous aborderons des méthodes de Monte Carlo intuitivement simples mais puissantes, ainsi que des méthodes d'apprentissage par différence temporelle, y compris l'apprentissage Q. A la fin de ce cours, vous serez capable de : - Comprendre l'apprentissage par différence temporelle et Monte Carlo comme deux stratégies pour estimer les fonctions de valeur à partir de l'expérience échantillonnée - Comprendre l'importance de l'exploration, lorsque l'on utilise l'expérience échantillonnée plutôt que les balayages de programmation dynamique dans un modèle - Comprendre les liens entre Monte Carlo et la programmation dynamique et la TD.

- Implémenter et appliquer l'algorithme de programmation dynamique pour l'estimation des fonctions de valeur - Implémenter et appliquer Expected Sarsa et Q-learning (deux méthodes de programmation dynamique pour le contrôle) - Comprendre la différence entre le contrôle sur la politique et le contrôle hors politique - Comprendre la planification avec l'expérience simulée (par opposition aux stratégies de planification classiques) - Implémenter une approche de la programmation dynamique basée sur un modèle, appelée Dyna, qui utilise l'expérience simulée - Mener une étude empirique pour voir les améliorations de l'efficacité de l'échantillonnage lors de l'utilisation de Dyna

Bienvenue au deuxième cours de la spécialisation en apprentissage par renforcement : Méthodes d'apprentissage basées sur des échantillons, offert par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs et aurez un aperçu de ce que le cours vous réserve. N'oubliez pas de vous présenter à vos camarades de classe dans la section "Meet and Greet" !

Inclus

2 vidéos2 lectures1 sujet de discussion

Cette semaine, vous apprendrez à estimer les fonctions de valeur et les politiques optimales, en utilisant uniquement l'expérience échantillonnée de l'environnement. Ce module représente notre première étape vers des méthodes d'apprentissage incrémental qui apprennent à partir de l'interaction de l'agent avec le monde, plutôt qu'à partir d'un modèle du monde. Vous découvrirez les méthodes de prédiction et de contrôle avec et sans politique, en utilisant les méthodes de Monte Carlo, c'est-à-dire des méthodes qui utilisent des retours échantillonnés. Vous serez également réintroduit dans le problème de l'exploration, mais plus généralement en RL, au-delà des bandits.

Inclus

11 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion

11 vidéosTotal 58 minutes

Qu'est-ce que Monte Carlo ?6 minutesPrévisualiser le module
Utiliser Monte Carlo pour la prédiction6 minutes
Utilisation de Monte Carlo pour les valeurs déclenchant l'action2 minutes
Utilisation de méthodes de Monte Carlo pour l'itération de politiques généralisées2 minutes
Résoudre l'exemple du Blackjack3 minutes
Politiques douces d'Epsilon5 minutes
Pourquoi l'apprentissage hors politique est-il important ?4 minutes
Échantillonnage d'importance4 minutes
Prédiction de Monte Carlo hors politique5 minutes
Emma Brunskill : Apprentissage par renforcement par lots12 minutes
Résumé de la première semaine3 minutes

3 lecturesTotal 90 minutes

Module 1 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire40 minutes
Résumé du chapitre40 minutes

1 devoirTotal 30 minutes

Quiz noté30 minutes

1 devoir de programmationTotal 5 minutes

Blackjack5 minutes

1 sujet de discussionTotal 10 minutes

Comparaison entre l'apprentissage dans le cadre de la politique et l'apprentissage en dehors de la politique10 minutes

Cette semaine, vous découvrirez l'un des concepts les plus fondamentaux de l'apprentissage par renforcement : l'apprentissage par différence temporelle (TD). L'apprentissage par différence temporelle combine certaines caractéristiques des méthodes de Monte Carlo et de programmation dynamique (PD). Les méthodes TD sont similaires aux méthodes Monte Carlo en ce qu'elles peuvent apprendre de l'interaction de l'agent avec le monde, et ne nécessitent pas la connaissance du modèle. Les méthodes de TD sont similaires aux méthodes de DP dans la mesure où elles s'amorcent et peuvent donc apprendre en ligne, sans attendre la fin d'un épisode. Vous verrez comment la méthode TD peut apprendre plus efficacement que la méthode Monte Carlo, grâce au bootstrap. Pour ce module, nous nous concentrons d'abord sur la TD pour la prédiction, et nous aborderons la TD pour le contrôle dans le module suivant. Cette semaine, vous mettrez en œuvre la TD pour estimer la fonction de valeur pour une politique fixe, dans un domaine simulé.

Inclus

6 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion

6 vidéosTotal 36 minutes

Qu'est-ce que l'apprentissage par différence temporelle (TD) ?4 minutesPrévisualiser le module
Rich Sutton : L'importance de l'apprentissage par la TD6 minutes
Les avantages de l'apprentissage par différence temporelle5 minutes
Comparaison entre TD et Monte Carlo5 minutes
Andy Barto et Rich Sutton : Plus d'informations sur l'histoire de RL12 minutes
Résumé de la semaine 22 minutes

2 lecturesTotal 50 minutes

Objectifs d'apprentissage du module 210 minutes
Lecture hebdomadaire40 minutes

1 devoirTotal 30 minutes

Quiz pratique30 minutes

1 devoir de programmationTotal 180 minutes

Évaluation des politiques à l'aide de l'apprentissage par différence temporelle180 minutes

1 sujet de discussionTotal 10 minutes

Faut-il se préoccuper de la TD dans le cerveau ?10 minutes

Cette semaine, vous apprendrez à utiliser l'apprentissage par différence temporelle pour le contrôle, en tant que stratégie d'itération de politique généralisée. Vous verrez trois algorithmes différents basés sur le bootstrapping et les équations de Bellman pour le contrôle : Sarsa, Q-learning et Expected Sarsa. Vous verrez certaines des différences entre les méthodes pour le contrôle avec et sans politique, et que Expected Sarsa est un algorithme unifié pour les deux. Vous mettrez en œuvre Expected Sarsa et Q-learning, sur Cliff World.

Inclus

9 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion

9 vidéosTotal 29 minutes

Sarsa : GPI avec TD4 minutesPrévisualiser le module
Sarsa dans l'univers venteux de la grille3 minutes
Qu'est-ce que l'apprentissage par questions-réponses ?3 minutes
L'apprentissage par questions et réponses dans le monde venteux de la grille3 minutes
En quoi l'apprentissage par questions-réponses est-il contraire à la politique ?4 minutes
Sarsa prévue3 minutes
Sarsa attendue dans le monde de la falaise3 minutes
Généralité du Sarsa attendu1 minute
Résumé de la semaine 32 minutes

3 lecturesTotal 90 minutes

Module 3 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire40 minutes
Résumé du chapitre40 minutes

1 devoirTotal 30 minutes

Quiz pratique30 minutes

1 devoir de programmationTotal 180 minutes

Q-Learning et SARSA attendu180 minutes

1 sujet de discussionTotal 10 minutes

Comment pouvons-nous utiliser le hors-politique pour l'apprentissage d'objectifs multiples ?10 minutes

Jusqu'à présent, vous pouviez penser que l'apprentissage avec et sans modèle constituait deux stratégies distinctes et, d'une certaine manière, concurrentes : la planification avec la programmation dynamique et l'apprentissage basé sur l'échantillonnage via les méthodes de TD. Cette semaine, nous unifions ces deux stratégies avec l'architecture Dyna. Vous apprendrez à estimer le modèle à partir des données, puis à utiliser ce modèle pour générer une expérience hypothétique (un peu comme dans un rêve) afin d'améliorer considérablement l'efficacité de l'échantillonnage par rapport aux méthodes basées sur l'échantillonnage telles que l'apprentissage Q. En outre, vous apprendrez à concevoir des systèmes d'apprentissage robustes aux modèles imprécis.

Inclus

11 vidéos4 lectures2 devoirs1 devoir de programmation1 sujet de discussion

11 vidéosTotal 46 minutes

Qu'est-ce qu'un modèle ?4 minutesPrévisualiser le module
Comparaison des modèles d'échantillonnage et de distribution2 minutes
Planification Q tabulaire aléatoire3 minutes
L'architecture Dyna5 minutes
L'algorithme Dyna5 minutes
Apprentissage Dyna et Q dans un labyrinthe simple5 minutes
Que se passe-t-il si le modèle est inexact ?3 minutes
Connaissance approfondie des environnements changeants5 minutes
Drew Bagnell : conduite autonome, robotique et RL basé sur des modèles7 minutes
Résumé de la semaine 41 minute
Félicitations !2 minutes

4 lecturesTotal 130 minutes

Module 4 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire40 minutes
Résumé du chapitre40 minutes
Résumé de la première partie du manuel40 minutes

2 devoirsTotal 90 minutes

Exercice de remplacement45 minutes
Évaluation des pratiques45 minutes

1 devoir de programmationTotal 180 minutes

Dyna-Q et Dyna-Q+180 minutes

1 sujet de discussionTotal 10 minutes

Comparez la planification et le raisonnement10 minutes

Instructeurs

Évaluations de l’enseignant

4.7 (216 évaluations)

Martha White

University of Alberta

4 Cours99 236 apprenants

Adam White

University of Alberta

4 Cours99 236 apprenants

Offert par

University of Alberta

Alberta Machine Intelligence Institute

Recommandé si vous êtes intéressé(e) par Apprentissage automatique

University of Alberta
Prévision et contrôle par approximation de fonction
Cours
Illinois Tech
Apprentissage statistique
Cours
University of Alberta
Principes de l'apprentissage par renforcement
Cours
Stanford University
Apprentissage automatique
Spécialisation

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.8

1 229 avis

5 stars
82,20 %
4 stars
13,40 %
3 stars
2,84 %
2 stars
0,56 %
1 star
0,97 %

Affichage de 3 sur 1229

Révisé le 20 mai 2020

Overall a very nice course, well explained and presented.

Révisé le 15 oct. 2019

definitely interesting subjects, but I do not like the teaching method. Very mechanic and dull, with not enough connection to the real world

Révisé le 29 juin 2020

This course excellent, my only complaint is that there is a 5 attempts limits and a 4 months wait to retry. It seems excesive to me and adds extra pressure when taking on assignments.

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.

Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.