Columbia University
Prise de décision et apprentissage par renforcement
Columbia University

Prise de décision et apprentissage par renforcement

Enseigné en Anglais

Certains éléments de contenu peuvent ne pas être traduits

2 713 déjà inscrits

Cours

Familiarisez-vous avec un sujet et apprenez les fondamentaux

Tony Dear

Instructeur : Tony Dear

4.3

(14 avis)

niveau Intermédiaire

Expérience recommandée

47 heures pour terminer
3 semaines à 15 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Établir une correspondance entre les préférences qualitatives et les utilités quantitatives appropriées.

  • Modéliser les problèmes de décision séquentielle non associatifs et associatifs par des problèmes de bandits à bras multiples et des processus de décision de Markov, respectivement

  • Mettre en œuvre des algorithmes de programmation dynamique pour trouver des politiques optimales

  • Mettre en œuvre des algorithmes de base d'apprentissage par renforcement en utilisant les méthodes de Monte Carlo et de différence temporelle

Compétences que vous acquerrez

  • Catégorie : Méthode de Monte Carlo
  • Catégorie : Apprentissage par renforcement
  • Catégorie : Processus de décision de Markov
  • Catégorie : Apprentissage automatique
  • Catégorie : Deep learning

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

8 quizzes

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Placeholder
Placeholder

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Placeholder

Il y a 8 modules dans ce cours

Bienvenue au cours sur la prise de décision et l'apprentissage par renforcement ! Au cours de cette semaine, le professeur Tony Dear présente une vue d'ensemble du cours. Vous verrez également des lignes directrices pour vous aider dans votre apprentissage de la modélisation des problèmes de décision séquentielle et de l'implémentation d'algorithmes d'apprentissage par renforcement.

Inclus

6 vidéos6 lectures1 quiz1 devoir de programmation3 sujets de discussion1 plugin

Bienvenue à la deuxième semaine ! Cette semaine, nous allons nous familiariser avec les problèmes de bandits à plusieurs bras, un type de problème d'optimisation dans lequel l'algorithme équilibre l'exploration et l'exploitation afin de maximiser les récompenses. Les sujets abordés comprennent les valeurs des actions et l'estimation de la moyenne des échantillons, la sélection des actions par 𝜀-greedy et la limite supérieure de confiance. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

3 vidéos1 lecture1 quiz1 devoir de programmation2 sujets de discussion

Bienvenue à la troisième semaine ! Cette semaine, nous nous concentrerons sur les bases du processus de décision de Markov, y compris les récompenses, les utilités, l'actualisation, les politiques, les fonctions de valeur et les équations de Bellman. Vous modéliserez des problèmes de décision séquentielle, comprendrez l'impact des récompenses et des facteurs d'actualisation sur les résultats, définirez des politiques et des fonctions de valeur, et écrirez des équations de Bellman pour les solutions optimales. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

6 vidéos1 lecture1 quiz1 devoir de programmation3 sujets de discussion

Bienvenue à la semaine 4 ! Cette semaine, nous aborderons les algorithmes de programmation dynamique pour résoudre les processus de décision de Markov (PDM). Les sujets abordés incluent l'itération de valeur et l'itération de politique, les équations de Bellman non linéaires, la complexité et la convergence, ainsi qu'une comparaison des deux approches.

Inclus

6 vidéos1 lecture1 quiz2 devoirs de programmation3 sujets de discussion

Bienvenue à la semaine 5 ! Cette semaine, nous aborderons les thèmes de l'observabilité partielle et des POMDP, des états de croyance, de la représentation en tant que MDP de croyance et de la planification en ligne dans les MDP et les POMDP. Vous appliquerez également vos connaissances pour mettre à jour l'état de croyance et utiliser une fonction de transition de croyance pour calculer les valeurs de l'état. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

5 vidéos2 lectures1 quiz1 devoir de programmation3 sujets de discussion

Bienvenue à la semaine 6 ! Cette semaine, nous présenterons les méthodes de Monte Carlo et couvrirons des sujets liés à l'estimation des valeurs d'état à l'aide de la moyenne d'échantillonnage et de la prédiction de Monte Carlo, aux valeurs d'état-action et aux politiques epsilon-greedy, ainsi qu'à l'échantillonnage d'importance pour le contrôle de Monte Carlo hors politique et sur politique. Vous apprendrez à estimer les valeurs d'état, les valeurs d'état-action, à utiliser l'échantillonnage d'importance et à mettre en œuvre le contrôle Monte Carlo hors politique pour un apprentissage optimal de la politique. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

6 vidéos2 lectures1 quiz1 devoir de programmation2 sujets de discussion

Bienvenue à la semaine 7 ! Cette semaine, nous aborderons des sujets liés à l'apprentissage par différence temporelle pour la prédiction, aux méthodes TD batch, à SARSA pour le contrôle sur la politique, et à Q-learning pour le contrôle hors politique. Vous apprendrez à mettre en œuvre la prédiction TD, les méthodes TD batch et offline, SARSA et Q-learning, et à comparer l'apprentissage TD on-policy et off-policy. Vous appliquerez ensuite vos connaissances en résolvant un devoir de programmation de type morpion. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

5 vidéos2 lectures1 quiz3 devoirs de programmation2 sujets de discussion

Bienvenue à la semaine 8 ! Ce module couvre la prédiction de différence temporelle en une étape, SARSA en une étape (avec et sans politique), RL basé sur un modèle avec Dyna-Q, et l'approximation de fonction. Vous serez prêt à mettre en œuvre l'apprentissage par différence temporelle en une étape, la SARSA en une étape, Dyna-Q pour l'apprentissage basé sur un modèle, et à utiliser l'approximation de fonction pour l'apprentissage par renforcement. Vous appliquerez vos connaissances dans l'environnement de programmation Frozen Lake. Vous pouvez poster dans le forum de discussion si vous avez besoin d'aide pour le quiz et le devoir.

Inclus

4 vidéos3 lectures1 quiz1 devoir de programmation2 sujets de discussion1 plugin

Instructeur

Évaluations de l’enseignant
4.2 (5 évaluations)
Tony Dear
Columbia University
1 Cours2 713 apprenants

Offert par

Columbia University

Recommandé si vous êtes intéressé(e) par Algorithmes

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

Affichage de 3 sur 14

4.3

14 avis

  • 5 stars

    60 %

  • 4 stars

    26,66 %

  • 3 stars

    0 %

  • 2 stars

    13,33 %

  • 1 star

    0 %

QN
5

Révisé le 20 janv. 2024

SH
5

Révisé le 9 juil. 2023

Placeholder

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à plus de 7 000 cours de renommée internationale, à des projets pratiques et à des programmes de certificats reconnus sur le marché du travail, tous inclus dans votre abonnement

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions