Ai-je besoin d'un logiciel ou d'un outil spécifique pour suivre le cours avec succès ?

<text variant="body1">Seul un navigateur web moderne est nécessaire pour suivre ce cours et tous les travaux pratiques. Vous aurez accès gratuitement à des environnements basés sur le cloud pour effectuer les travaux pratiques.

Qu'est-ce que je recevrai si je m'abonne à ce certificat ?

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - à partir de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

IA générative : mise au point avancée pour les LLM

IA générative : mise au point avancée pour les LLM

Ce cours fait partie de plusieurs programmes.

Instructeurs : Joseph Santarcangelo

23 214 déjà inscrits

Inclus avec

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

132 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

9 heures à compléter

Apprenez à votre propre rythme

88%

La plupart des étudiants ont apprécié ce cours

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

132 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

9 heures à compléter

Apprenez à votre propre rythme

88%

La plupart des étudiants ont apprécié ce cours

Ce que vous apprendrez

Compétences en ingénierie de l'IA générative en demande dans les LLM de mise au point que les employeurs recherchent activement
Réglage des instructions et modélisation des récompenses à l'aide de Hugging Face, ainsi que compréhension des LLM en tant que politiques et application des techniques RLHF
Optimisation directe des préférences (DPO) avec fonction de partition et Hugging Face, y compris la manière de définir les solutions optimales aux problèmes de DPO
Utilisation de l'optimisation proximale des politiques (PPO) avec Hugging Face pour construire des fonctions d'évaluation et tokeniser des ensembles de données pour un réglage fin

Compétences que vous acquerrez

Catégorie : Modèle de formation
Catégorie : Mise au point
Catégorie : Optimisation du modèle
Catégorie : Architectures de modèles génératifs
Catégorie : Apprentissage par renforcement
Catégorie : Méthodes d'apprentissage automatique
Catégorie : Évaluation du modèle
Catégorie : Modélisation des grandes langues

Outils que vous découvrirez

Catégorie : IA générative

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

5 devoirs

Enseigné en Anglais

91%

of learners achieved a positive career outcome

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de

Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 2 modules dans ce cours

" Le réglage fin des grands modèles de langage (LLM) est essentiel pour les aligner sur les besoins spécifiques de l'entreprise, améliorer la précision et optimiser les performances. Dans le monde actuel axé sur l'IA, les organisations s'appuient sur des modèles génératifs affinés pour générer des perspectives précises et exploitables qui favorisent l'innovation et l'efficacité. Ce cours équipe les aspirants ingénieurs en IA générative avec les compétences en demande que les employeurs recherchent activement. Vous explorerez des techniques avancées de réglage fin pour les LLM causaux, y compris le réglage des instructions, la modélisation des récompenses et l'optimisation des préférences directes. Apprenez comment les LLM agissent comme des politiques probabilistes pour générer des réponses et comment les aligner sur les préférences humaines à l'aide d'outils tels que Hugging Face. Vous plongerez dans le calcul des récompenses, l'apprentissage par renforcement à partir du feedback humain (RLHF), l'optimisation proximale des politiques (PPO), l'entraîneur PPO et les stratégies optimales pour l'optimisation directe des préférences (DPO). Les laboratoires pratiques du cours vous fourniront une expérience réelle avec le réglage des instructions, la modélisation des récompenses, le PPO et le DPO, vous donnant les outils pour affiner en toute confiance les LLM pour des applications à fort impact. Développez des compétences en IA générative prêtes à l'emploi en seulement deux semaines ! Inscrivez-vous dès aujourd'hui et faites progresser votre carrière dans l'IA !"

Dans ce module, vous explorerez des techniques avancées pour affiner les grands modèles de langage (LLM) à travers l'ajustement des instructions et la modélisation de la récompense. Vous commencerez par définir le réglage des instructions et apprendrez son processus, y compris le chargement des ensembles de données, les pipelines de génération de texte et les arguments d'entraînement en utilisant Hugging Face. Vous vous plongerez ensuite dans la modélisation des récompenses, où vous prétraiterez des ensembles de données, appliquerez des configurations d'adaptation de rang faible (LoRA) et quantifierez les réponses de qualité pour guider l'optimisation du modèle et s'aligner sur les préférences humaines. Vous décrirez et utiliserez également des formateurs de récompense et des fonctions de perte de modèle de récompense. En outre, les laboratoires pratiques renforceront votre apprentissage avec une expérience pratique dans le réglage des instructions et la modélisation de la récompense, vous permettant de personnaliser efficacement les LLM pour des tâches ciblées.

Inclus

6 vidéos4 lectures2 devoirs2 éléments d'application3 plugins

6 vidéosTotal 36 minutes

Introduction au cours3 minutes
Les bases de l'instruction et de l'accordage7 minutes
Instruction - Accorder avec le visage qui étreint7 minutes
Modélisation des récompenses : Évaluation des réponses5 minutes
Modèle de récompense7 minutes
Récompenser le modelage avec un visage câlin8 minutes

4 lecturesTotal 18 minutes

Aperçu du cours3 minutes
Aperçu des spécialisations10 minutes
Meilleures pratiques pour l'ajustement de l'instruction des grands modèles de langage (LLM)3 minutes
Résumé et points forts2 minutes

2 devoirsTotal 30 minutes

Différentes approches de l'harmonisation des instructions21 minutes
Quiz pratique : Instruction-Tuning et modélisation de la récompense9 minutes

2 éléments d'applicationTotal 150 minutes

Instruction Fine-Tuning LLMs90 minutes
Laboratoire : Modélisation de la récompense60 minutes

3 pluginsTotal 35 minutes

Conseils utiles pour l'achèvement des cours5 minutes
Instruction Tuning15 minutes
Évaluation de modèles de récompenses et de réponses15 minutes

Dans ce module, vous explorerez des techniques avancées pour affiner les grands modèles de langage (LLM) en utilisant l'apprentissage par renforcement à partir du feedback humain (RLHF), l'optimisation proximale des politiques (PPO) et l'optimisation directe des préférences (DPO). Vous commencerez par décrire comment les LLM fonctionnent comme des distributions probabilistes et comment celles-ci peuvent être transformées en politiques pour générer des réponses basées sur le texte d'entrée. Vous examinerez la relation entre les politiques et les modèles de langage en fonction de paramètres, tels que l'oméga, et la manière dont les récompenses peuvent être calculées en utilisant le retour d'information humain. Cela inclut la formation d'échantillons de réponses, l'évaluation des performances des agents et la définition de fonctions de notation pour des tâches telles que l'analyse des sentiments à l'aide de PPO. Vous serez également en mesure d'expliquer la configuration du PPO, les taux d'apprentissage et le rôle du formateur PPO dans l'optimisation des réponses du chatbot à l'aide des outils Hugging Face. Le module présente également le DPO, un moyen plus direct et plus efficace d'aligner les modèles sur les préférences humaines. Bien que des sujets complexes tels que l'OPP et l'apprentissage par renforcement soient introduits, vous n'êtes pas censé les comprendre en profondeur dans le cadre de ce cours. Les travaux pratiques de ce module vous permettront de vous exercer à l'application de la RLHF et de la DPO. Pour vous aider dans votre apprentissage, une antisèche et un glossaire sont inclus pour une référence rapide.

Inclus

10 vidéos5 lectures3 devoirs2 éléments d'application4 plugins

10 vidéosTotal 59 minutes

Les grands modèles linguistiques (LLM) en tant que distributions7 minutes
Des distributions aux politiques4 minutes
Apprentissage par renforcement à partir du feedback humain (RLHF)8 minutes
Optimisation de la politique proximale (PPO)5 minutes
OPP avec visage étreignant4 minutes
Formateur OPP6 minutes
DPO : Fonction de partition6 minutes
DPO : Solution optimale8 minutes
De la politique optimale au DPD6 minutes
DPD avec visage étreint5 minutes

5 lecturesTotal 18 minutes

Résumé et points forts4 minutes
Résumé et points forts3 minutes
Conclusion du cours6 minutes
Félicitations et prochaines étapes3 minutes
Remerciements de la part de l'équipe du cours2 minutes

3 devoirsTotal 61 minutes

Ajustement fin des LLM causaux avec le retour d'information humain et la préférence directe30 minutes
Quiz pratique : Optimisation de la politique proximale (PPO)21 minutes
Quiz pratique : Optimisation des préférences directes (OPD)10 minutes

2 éléments d'applicationTotal 75 minutes

Lab : Apprentissage par renforcement à partir du feedback humain en utilisant PPO30 minutes
Laboratoire : Optimisation directe des préférences (DPO) à l'aide de Hugging Face45 minutes

4 pluginsTotal 60 minutes

Truc de la dérivée logarithmique15 minutes
Affiner les LLM localement avec InstructLab15 minutes
Aide-mémoire : IA générative - Mise au point avancée pour les LLMs15 minutes
Glossaire : L'IA générative fait progresser la mise au point pour les MLD15 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant

(16 évaluations)

Joseph Santarcangelo

IBM

37 Cours2 470 530 apprenants

Offert par

IBM

En savoir plus sur Apprentissage automatique

Simplilearn
LLM Fine-Tuning and Customization Training
Cours
Packt
Building and Fine-Tuning LLM Applications
Cours
Edureka
Fine-Tuning & Optimizing Large Language Models
Cours
Coursera
Harnessing LLMs: Strategy, Fine-Tuning & Evaluation
Spécialisation

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
75,18 %
4 stars
8,27 %
3 stars
3,75 %
2 stars
4,51 %
1 star
8,27 %

Affichage de 3 sur 132

Révisé le 29 avr. 2026

Good course starts with origins of LLM and brings you up to date with DPO

Révisé le 20 août 2025

An excellent course with a wealth of high-quality material, featuring highly informative lessons such as DPO and PPO.

Révisé le 10 mars 2025

Great course, love the deep-rooted content. All my concepts are so clear now. Kudos!!

Voir plus d’avis

Débloquez l'accès à plus de 10 000 cours grâce à un abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez les 4 700 entreprises internationales qui ont choisi Coursera for Business.

Foire Aux Questions

Il faut environ 3 à 5 heures pour suivre ce cours, ce qui vous permet d'acquérir les compétences professionnelles nécessaires pour impressionner un employeur en seulement deux semaines !

Ce cours est de niveau intermédiaire, donc pour tirer le meilleur parti de votre apprentissage, vous devez avoir des connaissances de base de Python, des grands modèles de langage (LLM), de l'apprentissage par renforcement et de l'ajustement des instructions. Vous devriez également être familier avec l'apprentissage automatique et les concepts de réseaux neurones.

Ce cours fait partie de la spécialisation en ingénierie de l'IA générative avec les LLM. Lorsque vous terminez la spécialisation, vous aurez les compétences et la confiance nécessaires pour assumer des rôles professionnels tels que l'ingénieur IA, le scientifique des données, l'ingénieur en apprentissage automatique, l'ingénieur en apprentissage profond, l'ingénieur en IA et les développeurs cherchant à travailler avec des LLM.

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.