L'apprentissage par renforcement est un sous-domaine de l'apprentissage automatique, mais c'est aussi un formalisme général pour la prise de décision automatisée et l'IA. Ce cours vous présente les techniques d'apprentissage statistique dans lesquelles un agent entreprend explicitement des actions et interagit avec le monde. Comprendre l'importance et les défis des agents d'apprentissage qui prennent des décisions est d'une importance vitale aujourd'hui, avec de plus en plus d'entreprises intéressées par les agents interactifs et la prise de décision intelligente.
Principes de l'apprentissage par renforcement
Ce cours fait partie de Spécialisation Apprentissage par renforcement
Instructeurs : Martha White
93 075 déjà inscrits
Inclus avec
(2,778 avis)
Expérience recommandée
Ce que vous apprendrez
Formaliser les problèmes sous forme de processus de décision de Markov
Comprendre les méthodes d'exploration de base et le compromis exploration/exploitation
Comprendre les fonctions de valeur, en tant qu'outil général pour une prise de décision optimale
Savoir comment mettre en œuvre la programmation dynamique en tant que solution efficace à un problème de contrôle industriel
Compétences que vous acquerrez
- Catégorie : Approximation des fonctions
- Catégorie : Intelligence artificielle (IA)
- Catégorie : Apprentissage par renforcement
- Catégorie : Apprentissage automatique
- Catégorie : Systèmes intelligents
Détails à connaître
Ajouter à votre profil LinkedIn
5 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 5 modules dans ce cours
Bienvenue à : Fundamentals of Reinforcement Learning, le premier cours d'une spécialisation en quatre parties sur l'apprentissage par renforcement qui vous est proposée par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs, aurez un aperçu de ce que le cours vous réserve, et recevrez une feuille de route approfondie pour vous aider à rendre votre voyage à travers cette spécialisation aussi fluide que possible.
Inclus
4 vidéos2 lectures1 sujet de discussion
Au cours de la première semaine de ce cours, vous apprendrez à comprendre le compromis exploration-exploitation dans la prise de décision séquentielle, à mettre en œuvre des algorithmes incrémentaux pour estimer les valeurs d'action et à comparer les forces et les faiblesses de différents algorithmes d'exploration. Pour l'évaluation notée de cette semaine, vous implémenterez et testerez un agent epsilon-greedy.
Inclus
8 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion2 plugins
Lorsque vous êtes confronté à un problème industriel, la première étape, et la plus importante, consiste à traduire ce problème en un processus décisionnel de Markov (PDM). La qualité de votre solution dépend fortement de la façon dont vous effectuez cette traduction. Cette semaine, vous apprendrez la définition des PDM, vous comprendrez ce qu'est un comportement orienté vers un but et comment il peut être obtenu en maximisant des récompenses scalaires, et vous comprendrez également la différence entre les tâches épisodiques et les tâches continues. Pour l'évaluation notée de cette semaine, vous créerez trois exemples de tâches de votre cru qui s'inscrivent dans le cadre des PDM.
Inclus
7 vidéos2 lectures1 devoir1 évaluation par les pairs1 sujet de discussion
Une fois que le problème est formulé comme un MDP, la recherche de la politique optimale est plus efficace lorsque l'on utilise des fonctions de valeur. Cette semaine, vous apprendrez à définir les politiques et les fonctions de valeur, ainsi que les équations de Bellman, qui est la technologie clé que tous nos algorithmes utiliseront.
Inclus
9 vidéos3 lectures2 devoirs1 sujet de discussion
Cette semaine, vous apprendrez à calculer des fonctions de valeur et des politiques optimales, en supposant que vous disposiez du modèle MDP. Vous mettrez en œuvre la programmation dynamique pour calculer les fonctions de valeur et les politiques optimales et comprendrez l'utilité de la programmation dynamique pour les applications et les problèmes industriels. En outre, vous découvrirez l'itération de politique généralisée en tant que modèle commun pour la construction d'algorithmes qui maximisent la récompense. Pour l'évaluation notée de cette semaine, vous mettrez en œuvre un agent de programmation dynamique efficace dans un problème de contrôle industriel simulé.
Inclus
10 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion
Instructeurs
Recommandé si vous êtes intéressé(e) par Apprentissage automatique
Johns Hopkins University
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Avis des étudiants
Affichage de 3 sur 2778
2 778 avis
- 5 stars
81,71 %
- 4 stars
14,55 %
- 3 stars
2,55 %
- 2 stars
0,43 %
- 1 star
0,75 %
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :
Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la Specializations, et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.
Si vous vous êtes abonné, vous bénéficiez d'une période d'essai gratuite de 7 jours pendant laquelle vous pouvez annuler votre abonnement sans pénalité. Après cette période, nous ne remboursons pas, mais vous pouvez résilier votre abonnement à tout moment. Consultez notre politique de remboursement complète.