Qu'est-ce que l'apprentissage par renforcement ?

Écrit par Coursera Staff • Mise à jour à 25 oct. 2024

L'apprentissage par renforcement est un type d'algorithme d'apprentissage automatique qui permet à une intelligence artificielle de résoudre des problèmes par essais et erreurs dans des environnements imprévisibles. Lisez la suite pour en savoir plus.

[Image en vedette] Une femme utilise l'apprentissage par renforcement pour affiner son travail en robotique, alors qu'elle examine un petit robot à côté d'un ordinateur portable ouvert.

Read in English (Lire en Anglais).

L'apprentissage par renforcement, parfois appelé apprentissage par renforcement profond, est un ensemble d'outils d'apprentissage automatique. Par exemple, vous pouvez utiliser une variété de techniques de renforcement pour apprendre à un robot à effectuer une tâche. L'élément clé de l'apprentissage par renforcement est que le robot se récompense lui-même lorsqu'il exécute correctement la tâche.

L'apprentissage par renforcement est un terme inventé il y a plus d'un siècle par le psychologue expérimental Ivan Pavlov en 1927. À l'époque, Pavlov décrivait une forme d'apprentissage qui nécessite un stimulus pour ajouter un renforcement positif ou négatif à un comportement. Les travaux de Pavlov ont permis de démontrer que si nous effectuons une action et que nous recevons une récompense, nous sommes plus enclins à répéter ce comportement, alors que l'inverse est vrai pour une punition.

Aujourd'hui, l'apprentissage par renforcement fait référence au processus décisionnel des algorithmes d'apprentissage automatique et des intelligences automatisées, telles que les équipements d'usine robotisés ou les véhicules autonomes.

Qu'est-ce que l'apprentissage par renforcement ?

L'apprentissage par renforcement est un type d'apprentissage automatique qui traite les informations par essais et erreurs, de la même manière que les humains abordent un problème. Contrairement à d'autres types d'apprentissage, tels que l'apprentissage supervisé, l'apprentissage par renforcement peut se faire sans qu'un humain ne surveille l'interaction et n'y réagisse. L'apprentissage par renforcement permet à un algorithme d'apprentissage automatique d'apprendre par l'expérience en essayant différentes choses et en attribuant une valeurpositive ou négative à chaque action en fonction du résultat.

Cela permet aux robots et aux machines de naviguer dans des situations nouvelles ou inattendues et d'apprendre quelles actions mènent aux meilleurs résultats sans supervision humaine directe.

Comment l'apprentissage par renforcement est-il utilisé ?

L'apprentissage par renforcement est utile lorsque l'agent d'apprentissage automatique, tel qu'un robot, tente d'accomplir une tâche dans un environnement inexploré ou difficile à prévoir. L'apprentissage par renforcement fait appel au modèle mathématique appelé processus de décision de Markov, qui permet de comprendre comment les décisions sont prises lorsqu'un élément aléatoire affecte le résultat.

Un système d'apprentissage par renforcement doit comporter quatre éléments :

L'agent ou l'algorithme d'apprentissage automatique
L'environnement dans lequel l'agent travaille
La politique ou les instructions de base que l'agent suit
Un signal de récompense que l'agent observe en fonction de ses actions.

Types d'algorithmes d'apprentissage par renforcement

L'apprentissage par renforcement peut entrer dans l'une des deux grandes catégories suivantes : sans modèle ou basé sur un modèle. Un algorithme basé sur un modèle commencera à résoudre le problème en construisant un modèle de son environnement et de toutes les actions possibles qu'il peut entreprendre. En revanche, un algorithme sans modèle saute cette étape et commence à résoudre le problème par essais et erreurs, en observant les actions qui donnent les meilleurs résultats.

Les algorithmes sans modèle se présentent également sous deux formes principales : les algorithmes basés sur la valeur et les algorithmes basés sur la politique. Un algorithme d'apprentissage par renforcement basé sur la valeur attribue une valeur à chaque action en fonction du résultat. Cette valeur peut également être appelée « état positif », dans la mesure où l'action donnée était « positive ». L'algorithme procède ensuite par essais et erreurs pour déterminer les actions qui produisent la valeur la plus élevée ou la plus « positive ». En revanche, un algorithme basé sur une politique déterminera les meilleures actions à entreprendre sur la base de politiques ou de règles programmées.

Exemples d'apprentissage par renforcement

L'apprentissage par renforcement permet à l'intelligence artificielle de s'attaquer à des problèmes plus complexes. Voici quelques exemples du type de problèmes que l'apprentissage par renforcement peut résoudre :

Les jeux d'intelligence artificielle : Dans les jeux vidéo, l'apprentissage par renforcement permet aux intelligences artificielles de réagir aux manœuvres particulières des joueurs humains.

Véhicules autonomes : Une voiture sur la route rencontre tellement de variables que l'apprentissage par renforcement peut aider l'algorithme à prédire le meilleur plan d'action dans des situations imprévisibles.

Robots automatisés : Certains magasins utilisent des robots pour mesurer les stocks sur les étagères et en commander davantage si nécessaire, en utilisant l'apprentissage par renforcement pour naviguer dans un magasin où les déplacements des clients sont imprévisibles.

Avantages de l'apprentissage par renforcement

L'un des principaux avantages des algorithmes d'apprentissage par renforcement est leur capacité à résoudre des problèmes dans des environnements compliqués et imprévisibles. C'est cette capacité qui permettra peut-être un jour de créer des véhicules autonomes sûrs, capables de réagir avec précision à des variables telles que les piétons.

Un autre avantage est que l'apprentissage par renforcement n'a pas besoin d'un ensemble de données préprogrammées pour commencer. Au lieu de cela, l'algorithme peut apprendre par lui-même, par essais et erreurs, à trouver les meilleures actions possibles pour maximiser un résultat. Les algorithmes d'apprentissage par renforcement sont capables de fonctionner sans qu'un superviseur humain ne dirige l'apprentissage.

Un autre avantage à prendre en compte est que l'apprentissage par renforcement produit souvent des résultats plus originaux que les modèles fonctionnant à partir d'un grand ensemble de données. Les algorithmes d'apprentissage supervisé risquent de développer des biais basés sur les caractéristiques individuelles, les expériences et les connaissances de l'homme qui les a programmés, mais l'apprentissage par renforcement permet à l'algorithme de chercher de nouvelles façons de résoudre le problème sans les biais des humains qui supervisent le travail.

Qui utilise l'apprentissage par renforcement, et comment commencer ?

L'apprentissage par renforcement s'applique à un large éventail d'utilisations, notamment dans des secteurs tels que les soins de santé, l'automobile, les jeux vidéo, la vente au détail, le génie civil, l'énergie et bien d'autres encore. Parmi les carrières potentielles dans le domaine de l'apprentissage par renforcement, citons celles d'ingénieur en apprentissage automatique, de scientifique des données et d’ingénieur chercheur en IA.

Ingénieur en apprentissage automatique

Salaire moyen : € 56 248 [1]

Perspectives d'emploi : L’étude « Les métiers en 2030 » de France Stratégie prévoit une augmentation de 26 % des postes d’ingénieurs de l’informatique entre 2019 et 2030 [2].

Formation requise : Un niveau bac + 4/5 est requis. Ce peut être un diplôme d’une école d’ingénieurs ou un master en informatique, avec spécialisation en science des données et apprentissage automatique.

En tant qu'ingénieur en apprentissage automatique, vous créerez des algorithmes qui utilisent l'intelligence artificielle pour résoudre des problèmes. Vous évaluerez également les modèles existants afin de trouver des domaines d'amélioration, tout en effectuant des tests, en recherchant des bogues et en fournissant une documentation appropriée. Les ingénieurs en apprentissage automatique travaillent dans des secteurs tels que l'industrie manufacturière, les soins de santé, les transports, etc.

Scientifique des données

Salaire moyen : € 54 000 [3]

Perspectives d'emploi (croissance prévue entre 2019 et 2030) : comme pour les ingénieurs en apprentissage automatique [2].

Formation requise : La formation la plus courante pour un scientifique des données est de niveau bac + 4/5, soit un diplôme d’une école d’ingénieurs, soit un master, avec spécialisation en statistiques, data science ou big data.

En tant que data scientist, vous collecterez, traiterez et analyserez des données afin de rechercher des tendances, de formuler des recommandations et de communiquer vos conclusions à la direction. Vous devrez vous familiariser avec les outils de visualisation des données ainsi qu'avec les modèles et algorithmes nécessaires à l'apprentissage automatique. Dans ce domaine, vous aurez l'occasion de travailler sur une variété de projets, allant de l'amélioration des processus d'entreprise à la conduite de recherches.

Ingénieur chercheur en IA

Salaire moyen : € 48 581 [4]

Perspectives d'emploi (croissance prévue entre 2019 et 2030) : comme pour les ingénieurs en apprentissage automatique [2]

Formation requise : Pour devenir ingénieur chercheur en IA, vous devez généralement être titulaire d'un master en informatique ou en mathématique avec une spécialisation en intelligence artificielle, ou un diplôme équivalent d’une école d’ingénieurs.

Les ingénieurs chercheurs en IA travaillent à la création d'une intelligence artificielle capable d'apprendre par elle-même et d'obtenir des résultats précis. Dans ce métier, vous pouvez également créer des algorithmes et des modèles capables d'analyser de grands ensembles de données. Vous travaillerez avec des data scientists et des ingénieurs, ainsi qu'avec d'autres professionnels. En tant qu’ingénieur chercheur en IA, vous aurez l'occasion de travailler sur des projets dans les domaines de la santé, du marketing, des ressources humaines, etc.

Apprenez-en plus avec Coursera

Si vous êtes prêt à passer à l'étape suivante et à entamer une carrière dans le domaine de l'apprentissage par renforcement et de l'intelligence artificielle, vous pouvez envisager de suivre le cours Reinforcement Learning Specialization offert par l'Université de l'Alberta sur Coursera. Cette série de quatre cours dure environ deux mois à raison de 10 heures par semaine et peut vous aider à acquérir des compétences en intelligence artificielle, en apprentissage automatique, en apprentissage par renforcement, en approximation de fonction et en systèmes intelligents.

Sources de l’article

Glassdoor. « Salaires d'un Machine Learning Engineer, France, https://www.glassdoor.fr/Salaires/machine-learning-engineer-salaire-SRCH_KO0,25.htm. » Consulté le 20 septembre 2024.

Mise à jour à 25 oct. 2024

Écrit par :

Coursera Staff

Équipe éditoriale

L’équipe éditoriale de Coursera est composée de rédacteurs, de rédacteurs et de vérificateurs de fai...

Ce contenu a été mis à disposition à des fins d'information uniquement. Il est conseillé aux étudiants d'effectuer des recherches supplémentaires afin de s'assurer que les cours et autres qualifications suivis correspondent à leurs objectifs personnels, professionnels et financiers.