Principes de l'apprentissage par renforcement

Principes de l'apprentissage par renforcement

Ce cours fait partie de Spécialisation Apprentissage par renforcement

Instructeurs : Martha White

93 878 déjà inscrits

Inclus avec Coursera Plus

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.8

(2,783 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 15 heures

Apprenez à votre propre rythme

92%

La plupart des étudiants ont apprécié ce cours

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.8

(2,783 avis)

niveau Intermédiaire

Expérience recommandée

Planning flexible

Env. 15 heures

Apprenez à votre propre rythme

92%

La plupart des étudiants ont apprécié ce cours

Ce que vous apprendrez

Formaliser les problèmes sous forme de processus de décision de Markov
Comprendre les méthodes d'exploration de base et le compromis exploration/exploitation
Comprendre les fonctions de valeur, en tant qu'outil général pour une prise de décision optimale
Savoir comment mettre en œuvre la programmation dynamique en tant que solution efficace à un problème de contrôle industriel

Compétences que vous acquerrez

Catégorie : Approximation des fonctions
Catégorie : Intelligence artificielle (IA)
Catégorie : Apprentissage par renforcement
Catégorie : Apprentissage automatique
Catégorie : Systèmes intelligents

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

5 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation Apprentissage par renforcement

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 5 modules dans ce cours

L'apprentissage par renforcement est un sous-domaine de l'apprentissage automatique, mais c'est aussi un formalisme général pour la prise de décision automatisée et l'IA. Ce cours vous présente les techniques d'apprentissage statistique dans lesquelles un agent entreprend explicitement des actions et interagit avec le monde. Comprendre l'importance et les défis des agents d'apprentissage qui prennent des décisions est d'une importance vitale aujourd'hui, avec de plus en plus d'entreprises intéressées par les agents interactifs et la prise de décision intelligente.

Ce cours vous présente les principes fondamentaux de l'apprentissage par renforcement. A l'issue de ce cours, vous saurez : - Formaliser les problèmes en tant que processus de décision de Markov - Comprendre les méthodes d'exploration de base et le compromis exploration/exploitation - Comprendre les fonctions de valeur, en tant qu'outil général pour la prise de décision optimale - Savoir comment implémenter la programmation dynamique en tant qu'approche de solution efficace à un problème de contrôle industriel Ce cours vous enseigne les concepts clés de l'apprentissage par renforcement, sous-jacents aux algorithmes classiques et modernes de l'apprentissage par renforcement. A l'issue de ce cours, vous serez en mesure de commencer à utiliser la programmation dynamique pour des problèmes réels, où vous avez ou pouvez spécifier le MDP. Il s'agit du premier cours de la Specialization Reinforcement Learning.

Bienvenue à : Fundamentals of Reinforcement Learning, le premier cours d'une spécialisation en quatre parties sur l'apprentissage par renforcement qui vous est proposée par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs, aurez un aperçu de ce que le cours vous réserve, et recevrez une feuille de route approfondie pour vous aider à rendre votre voyage à travers cette spécialisation aussi fluide que possible.

Inclus

4 vidéos2 lectures1 sujet de discussion

4 vidéosTotal 20 minutes

Introduction à la spécialisation2 minutesPrévisualiser le module
Introduction au cours5 minutes
Rencontrez vos instructeurs !8 minutes
Votre feuille de route en matière de spécialisation3 minutes

2 lecturesTotal 20 minutes

Manuel sur l'apprentissage par renforcement10 minutes
Lisez-moi : Pré-requis et objectifs d'apprentissage10 minutes

1 sujet de discussionTotal 10 minutes

Rencontrez et accueillez !10 minutes

Au cours de la première semaine de ce cours, vous apprendrez à comprendre le compromis exploration-exploitation dans la prise de décision séquentielle, à mettre en œuvre des algorithmes incrémentaux pour estimer les valeurs d'action et à comparer les forces et les faiblesses de différents algorithmes d'exploration. Pour l'évaluation notée de cette semaine, vous implémenterez et testerez un agent epsilon-greedy.

Inclus

8 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion2 plugins

8 vidéosTotal 46 minutes

Prise de décision séquentielle avec retour d'information évaluatif5 minutesPrévisualiser le module
Valeurs de l'action éducative4 minutes
Estimation incrémentale des valeurs d'action5 minutes
Quel est le compromis ?7 minutes
Valeurs initiales optimistes6 minutes
Limite supérieure de confiance (LSC) Sélection des actions5 minutes
Jonathan Langford : Bandits contextuels pour l'apprentissage par renforcement dans le monde réel8 minutes
Résumé de la première semaine3 minutes

3 lecturesTotal 70 minutes

Module 1 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire30 minutes
Résumé du chapitre30 minutes

1 devoirTotal 45 minutes

Prise de décision séquentielle45 minutes

1 devoir de programmationTotal 30 minutes

Bandits et exploration/exploitation30 minutes

1 sujet de discussionTotal 10 minutes

Comparez les bandits à l'apprentissage supervisé10 minutes

2 pluginsTotal 30 minutes

Jouons à un jeu !15 minutes
Qu'y a-t-il en dessous ?15 minutes

Lorsque vous êtes confronté à un problème industriel, la première étape, et la plus importante, consiste à traduire ce problème en un processus décisionnel de Markov (PDM). La qualité de votre solution dépend fortement de la façon dont vous effectuez cette traduction. Cette semaine, vous apprendrez la définition des PDM, vous comprendrez ce qu'est un comportement orienté vers un but et comment il peut être obtenu en maximisant des récompenses scalaires, et vous comprendrez également la différence entre les tâches épisodiques et les tâches continues. Pour l'évaluation notée de cette semaine, vous créerez trois exemples de tâches de votre cru qui s'inscrivent dans le cadre des PDM.

Inclus

7 vidéos2 lectures1 devoir1 évaluation par les pairs1 sujet de discussion

7 vidéosTotal 36 minutes

Processus de décision de Markov6 minutesPrévisualiser le module
Exemples de PDM4 minutes
L'objectif de l'apprentissage par renforcement3 minutes
Michael Littman : L'hypothèse de la récompense12 minutes
Tâches permanentes5 minutes
Exemples de tâches épisodiques et continues3 minutes
Résumé de la semaine 21 minute

2 lecturesTotal 40 minutes

Objectifs d'apprentissage du module 210 minutes
Lecture hebdomadaire30 minutes

1 devoirTotal 45 minutes

PDM45 minutes

1 évaluation par les pairsTotal 60 minutes

Travail noté : Décrivez trois PDM60 minutes

1 sujet de discussionTotal 10 minutes

L'hypothèse de la récompense est-elle suffisante ?10 minutes

Une fois que le problème est formulé comme un MDP, la recherche de la politique optimale est plus efficace lorsque l'on utilise des fonctions de valeur. Cette semaine, vous apprendrez à définir les politiques et les fonctions de valeur, ainsi que les équations de Bellman, qui est la technologie clé que tous nos algorithmes utiliseront.

Inclus

9 vidéos3 lectures2 devoirs1 sujet de discussion

9 vidéosTotal 56 minutes

Spécification des politiques4 minutesPrévisualiser le module
Fonctions de valeur6 minutes
Rich Sutton et Andy Barto : Une brève histoire de RL7 minutes
Dérivation de l'équation de Bellman6 minutes
Pourquoi les équations de Bellman ?5 minutes
Politiques optimales7 minutes
Fonctions de valeur optimale5 minutes
Utilisation des fonctions de valeur optimale pour obtenir des politiques optimales8 minutes
Résumé de la semaine 34 minutes

3 lecturesTotal 53 minutes

Module 3 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire30 minutes
Résumé du chapitre13 minutes

2 devoirsTotal 90 minutes

[Pratique] Fonctions de valeur et équations de Bellman45 minutes
[Noté] Fonctions de valeur et équations de Bellman45 minutes

1 sujet de discussionTotal 10 minutes

Enregistrement10 minutes

Cette semaine, vous apprendrez à calculer des fonctions de valeur et des politiques optimales, en supposant que vous disposiez du modèle MDP. Vous mettrez en œuvre la programmation dynamique pour calculer les fonctions de valeur et les politiques optimales et comprendrez l'utilité de la programmation dynamique pour les applications et les problèmes industriels. En outre, vous découvrirez l'itération de politique généralisée en tant que modèle commun pour la construction d'algorithmes qui maximisent la récompense. Pour l'évaluation notée de cette semaine, vous mettrez en œuvre un agent de programmation dynamique efficace dans un problème de contrôle industriel simulé.

Inclus

10 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion

10 vidéosTotal 72 minutes

Évaluation et contrôle des politiques4 minutesPrévisualiser le module
Évaluation itérative des politiques8 minutes
Amélioration de la politique4 minutes
Itération de la politique8 minutes
Flexibilité du cadre d'itération des politiques4 minutes
Efficacité de la programmation dynamique5 minutes
Warren Powell : Programmation dynamique approximative pour la gestion de flotte (court)7 minutes
Warren Powell : Programmation dynamique approximative pour la gestion de flotte (Long)21 minutes
Résumé de la semaine 42 minutes
Félicitations !3 minutes

3 lecturesTotal 70 minutes

Module 4 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire30 minutes
Résumé du chapitre30 minutes

1 devoirTotal 45 minutes

Programmation dynamique45 minutes

1 devoir de programmationTotal 30 minutes

Politiques optimales avec la programmation dynamique30 minutes

1 sujet de discussionTotal 10 minutes

Où pouvez-vous utiliser la programmation dynamique ?10 minutes

Instructeurs

Évaluations de l’enseignant

4.7 (802 évaluations)

Martha White

University of Alberta

4 Cours99 236 apprenants

Adam White

University of Alberta

4 Cours99 236 apprenants

Offert par

University of Alberta

Alberta Machine Intelligence Institute

Recommandé si vous êtes intéressé(e) par Apprentissage automatique

University of Alberta
Apprentissage par renforcement
Spécialisation
Columbia University
Prise de décision et apprentissage par renforcement
Cours
New York University
Apprentissage par renforcement en finance
Cours
University of Alberta
Un système complet d'apprentissage par renforcement (Capstone)
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.8

2 783 avis

5 stars
81,69 %
4 stars
14,57 %
3 stars
2,54 %
2 stars
0,43 %
1 star
0,75 %

Affichage de 3 sur 2783

Révisé le 1 juil. 2021

This course is great for people who are just starting out. The programming assignments are really great and practically introduce you to the basic concepts of reinforcement learning.

Révisé le 11 avr. 2024

The concepts may sound confusing in the beginning, but as you go forward you find it interesting and understanding. I suggest you completely read the reading assignments before watching the videos.

Révisé le 24 juin 2020

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.

Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.