University of Alberta
Méthodes d'apprentissage par échantillonnage
University of Alberta

Méthodes d'apprentissage par échantillonnage

Ce cours fait partie de Spécialisation Apprentissage par renforcement

Enseigné en Anglais

Certains éléments de contenu peuvent ne pas être traduits

Martha White
Adam White

Instructeurs : Martha White

33 012 déjà inscrits

Inclus avec Coursera Plus

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.8

(1,225 avis)

|

90%

niveau Intermédiaire

Expérience recommandée

22 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Compétences que vous acquerrez

  • Catégorie : Approximation des fonctions
  • Catégorie : Intelligence artificielle (IA)
  • Catégorie : Apprentissage par renforcement
  • Catégorie : Apprentissage automatique
  • Catégorie : Systèmes intelligents

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

4 quizzes, 1 devoir

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.8

(1,225 avis)

|

90%

niveau Intermédiaire

Expérience recommandée

22 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Placeholder

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Apprentissage par renforcement
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable
Placeholder
Placeholder

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Placeholder

Il y a 5 modules dans ce cours

Bienvenue au deuxième cours de la spécialisation en apprentissage par renforcement : Méthodes d'apprentissage basées sur des échantillons, offert par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs et aurez un aperçu de ce que le cours vous réserve. N'oubliez pas de vous présenter à vos camarades de classe dans la section "Meet and Greet" !

Inclus

2 vidéos2 lectures1 sujet de discussion

Cette semaine, vous apprendrez à estimer les fonctions de valeur et les politiques optimales, en utilisant uniquement l'expérience échantillonnée de l'environnement. Ce module représente notre première étape vers des méthodes d'apprentissage incrémental qui apprennent à partir de l'interaction de l'agent avec le monde, plutôt qu'à partir d'un modèle du monde. Vous découvrirez les méthodes de prédiction et de contrôle avec et sans politique, en utilisant les méthodes de Monte Carlo, c'est-à-dire des méthodes qui utilisent des retours échantillonnés. Vous serez également réintroduit dans le problème de l'exploration, mais plus généralement en RL, au-delà des bandits.

Inclus

11 vidéos3 lectures1 quiz1 devoir de programmation1 sujet de discussion

Cette semaine, vous découvrirez l'un des concepts les plus fondamentaux de l'apprentissage par renforcement : l'apprentissage par différence temporelle (TD). L'apprentissage par différence temporelle combine certaines caractéristiques des méthodes de Monte Carlo et de programmation dynamique (PD). Les méthodes TD sont similaires aux méthodes Monte Carlo en ce qu'elles peuvent apprendre de l'interaction de l'agent avec le monde, et ne nécessitent pas la connaissance du modèle. Les méthodes de TD sont similaires aux méthodes de DP dans la mesure où elles s'amorcent et peuvent donc apprendre en ligne, sans attendre la fin d'un épisode. Vous verrez comment la méthode TD peut apprendre plus efficacement que la méthode Monte Carlo, grâce au bootstrap. Pour ce module, nous nous concentrons d'abord sur la TD pour la prédiction, et nous aborderons la TD pour le contrôle dans le module suivant. Cette semaine, vous mettrez en œuvre la TD pour estimer la fonction de valeur pour une politique fixe, dans un domaine simulé.

Inclus

6 vidéos2 lectures1 quiz1 devoir de programmation1 sujet de discussion

Cette semaine, vous apprendrez à utiliser l'apprentissage par différence temporelle pour le contrôle, en tant que stratégie d'itération de politique généralisée. Vous verrez trois algorithmes différents basés sur le bootstrapping et les équations de Bellman pour le contrôle : Sarsa, Q-learning et Expected Sarsa. Vous verrez certaines des différences entre les méthodes pour le contrôle avec et sans politique, et que Expected Sarsa est un algorithme unifié pour les deux. Vous mettrez en œuvre Expected Sarsa et Q-learning, sur Cliff World.

Inclus

9 vidéos3 lectures1 quiz1 devoir de programmation1 sujet de discussion

Jusqu'à présent, vous pouviez penser que l'apprentissage avec et sans modèle constituait deux stratégies distinctes et, d'une certaine manière, concurrentes : la planification avec la programmation dynamique et l'apprentissage basé sur l'échantillonnage via les méthodes de TD. Cette semaine, nous unifions ces deux stratégies avec l'architecture Dyna. Vous apprendrez à estimer le modèle à partir des données, puis à utiliser ce modèle pour générer une expérience hypothétique (un peu comme dans un rêve) afin d'améliorer considérablement l'efficacité de l'échantillonnage par rapport aux méthodes basées sur l'échantillonnage telles que l'apprentissage Q. En outre, vous apprendrez à concevoir des systèmes d'apprentissage robustes aux modèles imprécis.

Inclus

11 vidéos4 lectures1 quiz1 devoir1 devoir de programmation1 sujet de discussion

Instructeurs

Évaluations de l’enseignant
4.7 (212 évaluations)
Martha White
University of Alberta
4 Cours96 391 apprenants
Adam White
University of Alberta
4 Cours96 391 apprenants

Offert par

University of Alberta

Recommandé si vous êtes intéressé(e) par Apprentissage automatique

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

Affichage de 3 sur 1225

4.8

1 225 avis

  • 5 stars

    82,15 %

  • 4 stars

    13,44 %

  • 3 stars

    2,85 %

  • 2 stars

    0,57 %

  • 1 star

    0,97 %

IK
4

Révisé le 20 mai 2020

NH
4

Révisé le 15 oct. 2019

PS
5

Révisé le 1 août 2023

Placeholder

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions