Dans ce cours, vous apprendrez plusieurs algorithmes qui peuvent apprendre des politiques presque optimales basées sur l'interaction d'essais et d'erreurs avec l'environnement - l'apprentissage à partir de l'expérience de l'agent. L'apprentissage à partir de l'expérience réelle est frappant parce qu'il ne nécessite aucune connaissance préalable de la dynamique de l'environnement, tout en permettant d'atteindre un comportement optimal. Nous aborderons des méthodes de Monte Carlo intuitivement simples mais puissantes, ainsi que des méthodes d'apprentissage par différence temporelle, y compris l'apprentissage Q. A la fin de ce cours, vous serez capable de : - Comprendre l'apprentissage par différence temporelle et Monte Carlo comme deux stratégies pour estimer les fonctions de valeur à partir de l'expérience échantillonnée - Comprendre l'importance de l'exploration, lorsque l'on utilise l'expérience échantillonnée plutôt que les balayages de programmation dynamique dans un modèle - Comprendre les liens entre Monte Carlo et la programmation dynamique et la TD.
Méthodes d'apprentissage par échantillonnage
Ce cours fait partie de Spécialisation Apprentissage par renforcement
Instructeurs : Martha White
33 517 déjà inscrits
Inclus dans le site
(1,228 avis)
Expérience recommandée
Compétences que vous acquerrez
- Catégorie : Approximation des fonctions
- Catégorie : Intelligence artificielle (IA)
- Catégorie : Apprentissage par renforcement
- Catégorie : Apprentissage automatique
- Catégorie : Systèmes intelligents
Détails à connaître
Ajouter à votre profil LinkedIn
5 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 5 modules dans ce cours
Bienvenue au deuxième cours de la spécialisation en apprentissage par renforcement : Méthodes d'apprentissage basées sur des échantillons, offert par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs et aurez un aperçu de ce que le cours vous réserve. N'oubliez pas de vous présenter à vos camarades de classe dans la section "Meet and Greet" !
Inclus
2 vidéos2 lectures1 sujet de discussion
Cette semaine, vous apprendrez à estimer les fonctions de valeur et les politiques optimales, en utilisant uniquement l'expérience échantillonnée de l'environnement. Ce module représente notre première étape vers des méthodes d'apprentissage incrémental qui apprennent à partir de l'interaction de l'agent avec le monde, plutôt qu'à partir d'un modèle du monde. Vous découvrirez les méthodes de prédiction et de contrôle avec et sans politique, en utilisant les méthodes de Monte Carlo, c'est-à-dire des méthodes qui utilisent des retours échantillonnés. Vous serez également réintroduit dans le problème de l'exploration, mais plus généralement en RL, au-delà des bandits.
Inclus
11 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion
Cette semaine, vous découvrirez l'un des concepts les plus fondamentaux de l'apprentissage par renforcement : l'apprentissage par différence temporelle (TD). L'apprentissage par différence temporelle combine certaines caractéristiques des méthodes de Monte Carlo et de programmation dynamique (PD). Les méthodes TD sont similaires aux méthodes Monte Carlo en ce qu'elles peuvent apprendre de l'interaction de l'agent avec le monde, et ne nécessitent pas la connaissance du modèle. Les méthodes de TD sont similaires aux méthodes de DP dans la mesure où elles s'amorcent et peuvent donc apprendre en ligne, sans attendre la fin d'un épisode. Vous verrez comment la méthode TD peut apprendre plus efficacement que la méthode Monte Carlo, grâce au bootstrap. Pour ce module, nous nous concentrons d'abord sur la TD pour la prédiction, et nous aborderons la TD pour le contrôle dans le module suivant. Cette semaine, vous mettrez en œuvre la TD pour estimer la fonction de valeur pour une politique fixe, dans un domaine simulé.
Inclus
6 vidéos2 lectures1 devoir1 devoir de programmation1 sujet de discussion
Cette semaine, vous apprendrez à utiliser l'apprentissage par différence temporelle pour le contrôle, en tant que stratégie d'itération de politique généralisée. Vous verrez trois algorithmes différents basés sur le bootstrapping et les équations de Bellman pour le contrôle : Sarsa, Q-learning et Expected Sarsa. Vous verrez certaines des différences entre les méthodes pour le contrôle avec et sans politique, et que Expected Sarsa est un algorithme unifié pour les deux. Vous mettrez en œuvre Expected Sarsa et Q-learning, sur Cliff World.
Inclus
9 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion
Jusqu'à présent, vous pouviez penser que l'apprentissage avec et sans modèle constituait deux stratégies distinctes et, d'une certaine manière, concurrentes : la planification avec la programmation dynamique et l'apprentissage basé sur l'échantillonnage via les méthodes de TD. Cette semaine, nous unifions ces deux stratégies avec l'architecture Dyna. Vous apprendrez à estimer le modèle à partir des données, puis à utiliser ce modèle pour générer une expérience hypothétique (un peu comme dans un rêve) afin d'améliorer considérablement l'efficacité de l'échantillonnage par rapport aux méthodes basées sur l'échantillonnage telles que l'apprentissage Q. En outre, vous apprendrez à concevoir des systèmes d'apprentissage robustes aux modèles imprécis.
Inclus
11 vidéos4 lectures2 devoirs1 devoir de programmation1 sujet de discussion
Instructeurs
Recommandé si vous êtes intéressé(e) par Apprentissage automatique
University of Alberta
University of Alberta
University of Alberta
University of Alberta
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Avis des étudiants
Affichage de 3 sur 1228
1 228 avis
- 5 stars
82,18 %
- 4 stars
13,42 %
- 3 stars
2,84 %
- 2 stars
0,56 %
- 1 star
0,97 %
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :
Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.
Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.