Prévision et contrôle par approximation de fonction

Offrez à votre carrière le cadeau de Coursera Plus avec $160 de réduction, facturé annuellement. Économisez aujourd’hui.

Prévision et contrôle par approximation de fonction

Name: Prévision et contrôle par approximation de fonction
Rating: 4.8 (820 reviews)

Ce cours fait partie de Spécialisation Apprentissage par renforcement

Instructeurs : Martha White

25 872 déjà inscrits

Inclus avec Coursera Plus

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.8

(820 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 21 heures

Apprenez à votre propre rythme

90%

La plupart des apprenants ont aimé ce cours

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.8

(820 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 21 heures

Apprenez à votre propre rythme

90%

La plupart des apprenants ont aimé ce cours

Compétences que vous acquerrez

Catégorie : Approximation des fonctions
Catégorie : Intelligence artificielle (IA)
Catégorie : Apprentissage par renforcement
Catégorie : Apprentissage automatique
Catégorie : Systèmes intelligents

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

4 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Apprentissage par renforcement

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 5 modules dans ce cours

Dans ce cours, vous apprendrez à résoudre des problèmes avec des espaces d'état larges, de haute dimension et potentiellement infinis. Vous verrez que l'estimation des fonctions de valeur peut être considérée comme un problème d'apprentissage supervisé - l'approximation de fonction - vous permettant de construire des agents qui équilibrent soigneusement la généralisation et la discrimination afin de maximiser la récompense. Nous commencerons ce voyage en étudiant comment nos méthodes d'évaluation ou de prédiction des politiques, comme Monte Carlo et TD, peuvent être étendues au cadre de l'approximation des fonctions. Vous apprendrez les techniques de construction de caractéristiques pour le RL, et l'apprentissage de représentation via les réseaux neuronaux et le backprop. Nous conclurons ce cours par une plongée en profondeur dans les méthodes de gradient de politique, un moyen d'apprendre des politiques directement sans apprendre une fonction de valeur. Dans ce cours, vous résoudrez deux tâches de contrôle d'état continu et étudierez les avantages des méthodes de gradient de politique dans un environnement d'action continue.

Prérequis : Ce cours s'appuie fortement sur les fondamentaux des cours 1 et 2, et les apprenants doivent les avoir suivis avant de commencer ce cours. Les apprenants doivent également être à l'aise avec les probabilités et les attentes, l'algèbre linéaire de base, le calcul de base, Python 3.0 (au moins 1 an), et l'implémentation d'algorithmes à partir de pseudocodes. A la fin de ce cours, vous serez capable de : -Comprendre comment utiliser des approches d'apprentissage supervisé pour approximer des fonctions de valeur -Comprendre les objectifs de prédiction (estimation de valeur) sous approximation de fonction -Implémenter des TD avec approximation de fonction (agrégation d'état), comprendre les objectifs de la prédiction (estimation de la valeur) dans le cadre de l'approximation de fonction -Mettre en œuvre la TD avec l'approximation de fonction (agrégation d'états), dans un environnement avec un espace d'états infini (espace d'états continu)Contraster les formulations de problèmes actualisés pour le contrôle avec une formulation de problème de récompense moyenne -Implémenter Sarsa attendu et Q-learning avec approximation de fonction sur une tâche de contrôle d'état continu -Comprendre les objectifs pour estimer directement les politiques (objectifs de gradient de politique) -Implémenter une méthode de gradient de politique (appelée Actor-Critic) sur un environnement d'état discret

Bienvenue au troisième cours de la spécialisation en apprentissage par renforcement : Prédiction et contrôle avec approximation de fonction, qui vous est offert par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs et aurez un aperçu de ce que le cours vous réserve. N'oubliez pas de vous présenter à vos camarades de classe dans la section "Meet and Greet" !

Inclus

2 vidéos2 lectures1 sujet de discussion

Cette semaine, vous apprendrez à estimer une fonction de valeur pour une politique donnée, lorsque le nombre d'états est beaucoup plus important que la mémoire dont dispose l'agent. Vous apprendrez à spécifier une forme paramétrique de la fonction de valeur, à spécifier une fonction objectif et à utiliser la descente de gradient pour estimer des valeurs à partir de l'interaction avec le monde.

Inclus

13 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion

13 vidéosTotal 68 minutes

Passer aux fonctions paramétrées6 minutesPrévisualiser le module
Généralisation et discrimination5 minutes
L'estimation de la valeur en tant qu'apprentissage supervisé3 minutes
L'objectif de l'erreur de valeur4 minutes
Introduction à la descente en gradient7 minutes
Gradient Monte pour l'évaluation des politiques5 minutes
Agrégation d'états avec Monte Carlo7 minutes
TD semi-gradient pour l'évaluation des politiques3 minutes
Comparaison entre TD et Monte Carlo avec agrégation d'états4 minutes
Doina Precup : Construire des connaissances pour les agents d'IA avec l'apprentissage par renforcement7 minutes
La mise à jour de la TD linéaire3 minutes
Le véritable objectif de la DT5 minutes
Résumé de la première semaine4 minutes

2 lecturesTotal 50 minutes

Module 1 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire : Prédiction en cours de route avec approximation40 minutes

1 devoirTotal 30 minutes

Prédiction de la politique avec approximation30 minutes

1 devoir de programmationTotal 120 minutes

TD(0) semi-gradient avec agrégation d'états120 minutes

1 sujet de discussionTotal 10 minutes

De bons objectifs pour le contrôle10 minutes

Les caractéristiques utilisées pour construire les estimations de valeur de l'agent sont peut-être la partie la plus cruciale d'un système d'apprentissage réussi. Dans ce module, nous discutons de deux stratégies de base pour la construction des caractéristiques : (1) des bases fixes qui forment une partition exhaustive de l'entrée, et (2) l'adaptation des caractéristiques pendant que l'agent interagit avec le monde via les réseaux neuronaux et la rétropropagation. Dans l'évaluation notée de cette semaine, vous résoudrez une tâche de prédiction d'état simple mais infinie à l'aide d'un réseau neuronal et de l'apprentissage par TD.

Inclus

11 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion

11 vidéosTotal 52 minutes

Codage grossier3 minutesPrévisualiser le module
Propriétés de généralisation du codage grossier5 minutes
Codage des carreaux3 minutes
Utilisation du codage des tuiles dans la TD4 minutes
Qu'est-ce qu'un réseau neuronal ?3 minutes
Approximation non linéaire avec des réseaux neuronaux4 minutes
Réseaux neuronaux profonds3 minutes
Descente de gradient pour la formation des réseaux neuronaux8 minutes
Stratégies d'optimisation pour les réseaux nationaux4 minutes
David Silver sur Deep Learning + RL = AI ?9 minutes
Bilan de la semaine 22 minutes

2 lecturesTotal 50 minutes

Objectifs d'apprentissage du module 210 minutes
Lecture hebdomadaire : Prédiction on-policy avec approximation II40 minutes

1 devoirTotal 28 minutes

Construire des caractéristiques pour la prédiction28 minutes

1 devoir de programmationTotal 180 minutes

TD semi-gradient avec un réseau neuronal180 minutes

1 sujet de discussionTotal 10 minutes

Construire des caractéristiques pour la prédiction10 minutes

Cette semaine, vous verrez que les concepts et les outils introduits dans les modules 2 et 3 permettent une extension directe des méthodes de contrôle TD classiques au cadre de l'approximation de fonction. En particulier, vous apprendrez comment trouver la politique optimale dans les MDP à état infini en combinant simplement les méthodes de TD semi-gradient avec l'itération de politique généralisée, ce qui donne des méthodes de contrôle classiques comme Q-learning et Sarsa. Nous concluons par une discussion sur une nouvelle formulation de problème pour la RL - la récompense moyenne - qui sera sans aucun doute utilisée dans de nombreuses applications de la RL à l'avenir.

Inclus

7 vidéos2 lectures1 devoir1 devoir de programmation2 sujets de discussion

7 vidéosTotal 40 minutes

Sarsa épisodique avec approximation de fonction4 minutesPrévisualiser le module
Sarsa épisodique dans une voiture de montagne5 minutes
Sarsa attendu avec approximation de fonction2 minutes
Exploration sous approximation de fonction3 minutes
Récompense moyenne : Une nouvelle façon de formuler les problèmes de contrôle10 minutes
Satinder Singh sur les récompenses intrinsèques12 minutes
Bilan de la semaine 32 minutes

2 lecturesTotal 50 minutes

Module 3 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire : Contrôle des politiques par approximation40 minutes

1 devoirTotal 40 minutes

Contrôle par approximation40 minutes

1 devoir de programmationTotal 180 minutes

Approximation et contrôle des fonctions180 minutes

2 sujets de discussionTotal 20 minutes

Contrôle avec l'AF n° 110 minutes
Contrôle avec FA #210 minutes

Tous les algorithmes que vous avez étudiés jusqu'à présent estiment une fonction de valeur en tant qu'étape intermédiaire vers la recherche d'une politique optimale. Une stratégie alternative consiste à apprendre directement les paramètres de la politique. Cette semaine, vous découvrirez ces méthodes de gradient de politique et leurs avantages par rapport aux méthodes basées sur la fonction de valeur. Vous apprendrez également comment les méthodes de gradient de politique peuvent être utilisées pour trouver la politique optimale dans des tâches avec des espaces d'état et d'action continus.

Inclus

11 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion

11 vidéosTotal 54 minutes

Apprentissage direct des politiques5 minutesPrévisualiser le module
Avantages de la paramétrisation des politiques5 minutes
L'objectif des politiques d'apprentissage5 minutes
Théorème du gradient de politique5 minutes
Estimation du gradient politique4 minutes
Algorithme acteur-critique5 minutes
Critique d'acteur avec politiques Softmax3 minutes
Démonstration avec l'acteur-critique6 minutes
Politiques gaussiennes pour les actions continues7 minutes
Résumé de la semaine 43 minutes
Félicitations ! Aperçu du cours 42 minutes

2 lecturesTotal 50 minutes

Module 4 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire : Méthodes de gradient de politique40 minutes

1 devoirTotal 45 minutes

Méthodes de gradient de politique45 minutes

1 devoir de programmationTotal 180 minutes

Récompense moyenne Softmax Acteur-Critique utilisant le codage par tuiles180 minutes

1 sujet de discussionTotal 10 minutes

Méthodes de gradient de politique10 minutes

Instructeurs

Évaluations de l’enseignant

4.8 (107 évaluations)

Martha White

University of Alberta

4 Cours98 394 apprenants

Adam White

University of Alberta

4 Cours98 394 apprenants

Offert par

University of Alberta

Alberta Machine Intelligence Institute

Recommandé si vous êtes intéressé(e) par Apprentissage automatique

University of Colorado Boulder
Analyse des systèmes de contrôle : Modélisation des systèmes dynamiques
Cours
New York Institute of Finance
Apprentissage par renforcement pour les stratégies de trading
Cours
New York University
Aperçu des méthodes avancées d'apprentissage par renforcement en finance
Cours
Google Cloud
L'apprentissage automatique pour la négociation
Spécialisation

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

Affichage de 3 sur 820

4.8

820 avis

5 stars
84,54 %
4 stars
12,40 %
3 stars
1,94 %
2 stars
0,72 %
1 star
0,36 %

Révisé le 12 avr. 2020

Révisé le 31 mai 2020

Révisé le 18 janv. 2020

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.

Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.