Dans ce cours, vous apprendrez à résoudre des problèmes avec des espaces d'état larges, de haute dimension et potentiellement infinis. Vous verrez que l'estimation des fonctions de valeur peut être considérée comme un problème d'apprentissage supervisé - l'approximation de fonction - vous permettant de construire des agents qui équilibrent soigneusement la généralisation et la discrimination afin de maximiser la récompense. Nous commencerons ce voyage en étudiant comment nos méthodes d'évaluation ou de prédiction des politiques, comme Monte Carlo et TD, peuvent être étendues au cadre de l'approximation des fonctions. Vous apprendrez les techniques de construction de caractéristiques pour le RL, et l'apprentissage de représentation via les réseaux neuronaux et le backprop. Nous conclurons ce cours par une plongée en profondeur dans les méthodes de gradient de politique, un moyen d'apprendre des politiques directement sans apprendre une fonction de valeur. Dans ce cours, vous résoudrez deux tâches de contrôle d'état continu et étudierez les avantages des méthodes de gradient de politique dans un environnement d'action continue.
Prévision et contrôle par approximation de fonction
Ce cours fait partie de Spécialisation Apprentissage par renforcement
Instructeurs : Martha White
25 764 déjà inscrits
Inclus avec
(820 avis)
Expérience recommandée
Compétences que vous acquerrez
- Catégorie : Approximation des fonctions
- Catégorie : Intelligence artificielle (IA)
- Catégorie : Apprentissage par renforcement
- Catégorie : Apprentissage automatique
- Catégorie : Systèmes intelligents
Détails à connaître
Ajouter à votre profil LinkedIn
4 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 5 modules dans ce cours
Bienvenue au troisième cours de la spécialisation en apprentissage par renforcement : Prédiction et contrôle avec approximation de fonction, qui vous est offert par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs et aurez un aperçu de ce que le cours vous réserve. N'oubliez pas de vous présenter à vos camarades de classe dans la section "Meet and Greet" !
Inclus
2 vidéos2 lectures1 sujet de discussion
Cette semaine, vous apprendrez à estimer une fonction de valeur pour une politique donnée, lorsque le nombre d'états est beaucoup plus important que la mémoire dont dispose l'agent. Vous apprendrez à spécifier une forme paramétrique de la fonction de valeur, à spécifier une fonction objectif et à utiliser la descente de gradient pour estimer des valeurs à partir de l'interaction avec le monde.
Inclus
13 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion
Les caractéristiques utilisées pour construire les estimations de valeur de l'agent sont peut-être la partie la plus cruciale d'un système d'apprentissage réussi. Dans ce module, nous discutons de deux stratégies de base pour la construction des caractéristiques : (1) des bases fixes qui forment une partition exhaustive de l'entrée, et (2) l'adaptation des caractéristiques pendant que l'agent interagit avec le monde via les réseaux neuronaux et la rétropropagation. Dans l'évaluation notée de cette semaine, vous résoudrez une tâche de prédiction d'état simple mais infinie à l'aide d'un réseau neuronal et de l'apprentissage par TD.
Inclus
11 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion
Cette semaine, vous verrez que les concepts et les outils introduits dans les modules 2 et 3 permettent une extension directe des méthodes de contrôle TD classiques au cadre de l'approximation de fonction. En particulier, vous apprendrez comment trouver la politique optimale dans les MDP à état infini en combinant simplement les méthodes de TD semi-gradient avec l'itération de politique généralisée, ce qui donne des méthodes de contrôle classiques comme Q-learning et Sarsa. Nous concluons par une discussion sur une nouvelle formulation de problème pour la RL - la récompense moyenne - qui sera sans aucun doute utilisée dans de nombreuses applications de la RL à l'avenir.
Inclus
7 vidéos2 lectures1 devoir1 devoir de programmation2 sujets de discussion
Tous les algorithmes que vous avez étudiés jusqu'à présent estiment une fonction de valeur en tant qu'étape intermédiaire vers la recherche d'une politique optimale. Une stratégie alternative consiste à apprendre directement les paramètres de la politique. Cette semaine, vous découvrirez ces méthodes de gradient de politique et leurs avantages par rapport aux méthodes basées sur la fonction de valeur. Vous apprendrez également comment les méthodes de gradient de politique peuvent être utilisées pour trouver la politique optimale dans des tâches avec des espaces d'état et d'action continus.
Inclus
11 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion
Instructeurs
Recommandé si vous êtes intéressé(e) par Apprentissage automatique
University of Alberta
University of Alberta
University of Alberta
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Avis des étudiants
Affichage de 3 sur 820
820 avis
- 5 stars
84,54 %
- 4 stars
12,40 %
- 3 stars
1,94 %
- 2 stars
0,72 %
- 1 star
0,36 %
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :
Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.
Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.