University of Alberta
Prévision et contrôle par approximation de fonction
University of Alberta

Prévision et contrôle par approximation de fonction

Ce cours fait partie de Spécialisation Apprentissage par renforcement

Enseigné en Anglais

Certains éléments de contenu peuvent ne pas être traduits

Martha White
Adam White

Instructeurs : Martha White

25 444 déjà inscrits

Inclus avec Coursera Plus

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.8

(818 avis)

|

90%

niveau Intermédiaire

Expérience recommandée

21 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Compétences que vous acquerrez

  • Catégorie : Approximation des fonctions
  • Catégorie : Intelligence artificielle (IA)
  • Catégorie : Apprentissage par renforcement
  • Catégorie : Apprentissage automatique
  • Catégorie : Systèmes intelligents

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

4 quizzes

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

4.8

(818 avis)

|

90%

niveau Intermédiaire

Expérience recommandée

21 heures (approximativement)
Planning flexible
Apprenez à votre propre rythme

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Placeholder

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Apprentissage par renforcement
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable
Placeholder
Placeholder

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Placeholder

Il y a 5 modules dans ce cours

Bienvenue au troisième cours de la spécialisation en apprentissage par renforcement : Prédiction et contrôle avec approximation de fonction, qui vous est offert par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs et aurez un aperçu de ce que le cours vous réserve. N'oubliez pas de vous présenter à vos camarades de classe dans la section "Meet and Greet" !

Inclus

2 vidéos2 lectures1 sujet de discussion

Cette semaine, vous apprendrez à estimer une fonction de valeur pour une politique donnée, lorsque le nombre d'états est beaucoup plus important que la mémoire dont dispose l'agent. Vous apprendrez à spécifier une forme paramétrique de la fonction de valeur, à spécifier une fonction objectif et à utiliser la descente de gradient pour estimer des valeurs à partir de l'interaction avec le monde.

Inclus

13 vidéos2 lectures1 quiz1 devoir de programmation1 sujet de discussion

Les caractéristiques utilisées pour construire les estimations de valeur de l'agent sont peut-être la partie la plus cruciale d'un système d'apprentissage réussi. Dans ce module, nous discutons de deux stratégies de base pour la construction des caractéristiques : (1) des bases fixes qui forment une partition exhaustive de l'entrée, et (2) l'adaptation des caractéristiques pendant que l'agent interagit avec le monde via les réseaux neuronaux et la rétropropagation. Dans l'évaluation notée de cette semaine, vous résoudrez une tâche de prédiction d'état simple mais infinie à l'aide d'un réseau neuronal et de l'apprentissage par TD.

Inclus

11 vidéos2 lectures1 quiz1 devoir de programmation1 sujet de discussion

Cette semaine, vous verrez que les concepts et les outils introduits dans les modules 2 et 3 permettent une extension directe des méthodes de contrôle TD classiques au cadre de l'approximation de fonction. En particulier, vous apprendrez comment trouver la politique optimale dans les MDP à état infini en combinant simplement les méthodes de TD semi-gradient avec l'itération de politique généralisée, ce qui donne des méthodes de contrôle classiques comme Q-learning et Sarsa. Nous concluons par une discussion sur une nouvelle formulation de problème pour la RL - la récompense moyenne - qui sera sans aucun doute utilisée dans de nombreuses applications de la RL à l'avenir.

Inclus

7 vidéos2 lectures1 quiz1 devoir de programmation2 sujets de discussion

Tous les algorithmes que vous avez étudiés jusqu'à présent estiment une fonction de valeur en tant qu'étape intermédiaire vers la recherche d'une politique optimale. Une stratégie alternative consiste à apprendre directement les paramètres de la politique. Cette semaine, vous découvrirez ces méthodes de gradient de politique et leurs avantages par rapport aux méthodes basées sur la fonction de valeur. Vous apprendrez également comment les méthodes de gradient de politique peuvent être utilisées pour trouver la politique optimale dans des tâches avec des espaces d'état et d'action continus.

Inclus

11 vidéos2 lectures1 quiz1 devoir de programmation1 sujet de discussion

Instructeurs

Évaluations de l’enseignant
4.8 (107 évaluations)
Martha White
University of Alberta
4 Cours96 391 apprenants
Adam White
University of Alberta
4 Cours96 391 apprenants

Offert par

University of Alberta

Recommandé si vous êtes intéressé(e) par Apprentissage automatique

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

Affichage de 3 sur 818

4.8

818 avis

  • 5 stars

    84,51 %

  • 4 stars

    12,43 %

  • 3 stars

    1,95 %

  • 2 stars

    0,73 %

  • 1 star

    0,36 %

FR
5

Révisé le 11 sept. 2023

AP
4

Révisé le 12 avr. 2020

JF
5

Révisé le 13 août 2020

Placeholder

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions