L'IA générative fait progresser la mise au point des LLM

L'IA générative fait progresser la mise au point des LLM

Ce cours fait partie de plusieurs programmes.

Instructeurs : Joseph Santarcangelo

1 625 déjà inscrits

Inclus avec Coursera Plus

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.4

(13 avis)

niveau Intermédiaire

Expérience recommandée

8 heures pour terminer

3 semaines à 2 heures par semaine

Planning flexible

Apprenez à votre propre rythme

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

4.4

(13 avis)

niveau Intermédiaire

Expérience recommandée

8 heures pour terminer

3 semaines à 2 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Compétences en ingénierie de l'IA en demande dans les LLM de précision que les employeurs recherchent activement en seulement 2 semaines
Modélisation de l'instruction et de la récompense avec le Hugging Face, plus les LLM en tant que politiques et RLHF
Optimisation des préférences directes (DPO) avec fonction de partition et Hugging Face et comment créer une solution optimale à un problème DPO
Comment utiliser l'optimisation proximale des politiques (PPO) avec Hugging Face pour créer une fonction de notation et effectuer la tokenisation de l'ensemble des données

Compétences que vous acquerrez

Catégorie : Apprentissage par renforcement
Catégorie : Optimisation de la politique proximale (PPO)
Catégorie : Apprentissage par renforcement
Catégorie : Optimisation des préférences directes (DPO)
Catégorie : Visage étreint
Catégorie : Instruction-tuning

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

octobre 2024

Évaluations

5 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de

Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Il y a 2 modules dans ce cours

Le réglage fin d'un Grand modèle de langage (LLM) est essentiel pour l'aligner sur les besoins spécifiques de l'entreprise, améliorer la précision et optimiser ses performances. Cela permet aux entreprises d'obtenir des informations précises et exploitables qui favorisent l'efficacité et l'innovation. Ce cours donne aux aspirants ingénieurs IA de précieuses compétences de réglage fin que les employeurs recherchent activement. Au cours de ce cours, vous explorerez différentes approches de réglage fin et de LLM causal avec un retour d'information humain et une préférence directe. Vous examinerez les LLM en tant que serveurs d'authentification pour les distributions de probabilité afin de générer des réponses et les concepts de réglage des instructions avec Hugging Face. Vous apprendrez à calculer les récompenses en utilisant le feedback humain et la modélisation des récompenses avec Hugging Face. De plus, vous explorerez l'apprentissage par renforcement à partir du feedback humain (RLHF), l'optimisation proximale des politiques (PPO) et le PPO Trainer, ainsi que les solutions optimales pour les problèmes d'optimisation directe des préférences (DPO).

Au fur et à mesure de votre apprentissage, vous obtiendrez une expérience pratique précieuse dans des laboratoires en ligne où vous travaillerez sur la modélisation des récompenses, la PPO et la DPO. Si vous souhaitez ajouter à votre CV des compétences très demandées dans le domaine de la mise au point de LLM, inscrivez-vous dès aujourd'hui et développez en deux semaines seulement les compétences professionnelles recherchées par les employeurs !

Dans ce module, vous commencerez par définir le réglage des instructions et son processus. Vous apprendrez également à charger un ensemble de données, à générer des pipelines de texte et des arguments d'entraînement. En outre, vous vous plongerez dans la modélisation de la récompense, où vous prétraiterez l'ensemble de données et appliquerez la configuration de l'adaptation à faible rang (LoRA). Vous apprendrez également à quantifier les réponses de qualité, à guider l'optimisation du modèle et à intégrer les préférences en matière de récompenses. Vous décrirez également le formateur de récompense, une technique de formation avancée pour former un modèle, et la perte de modèle de récompense à l'aide de Hugging Face. Les travaux pratiques, dans ce module, permettront de s'exercer sur les modèles d'instruction-tuning et de récompense.

Inclus

6 vidéos4 lectures2 devoirs2 éléments d'application1 plugin

6 vidéosTotal 36 minutes

Introduction au cours3 minutesPrévisualiser le module
Les bases de l'instruction et de l'accordage6 minutes
Instruction - Accorder avec le visage qui étreint7 minutes
Modélisation des récompenses : Évaluation des réponses4 minutes
Modèle de récompense6 minutes
Récompenser le modelage avec un visage câlin7 minutes

4 lecturesTotal 18 minutes

Aperçu du cours3 minutes
Aperçu des spécialisations10 minutes
Meilleures pratiques pour l'ajustement de l'instruction des grands modèles de langage (LLM)3 minutes
Résumé et points forts2 minutes

2 devoirsTotal 30 minutes

Différentes approches de l'harmonisation des instructions21 minutes
Quiz pratique : Instruction-Tuning et modélisation de la récompense9 minutes

2 éléments d'applicationTotal 150 minutes

Instruction Fine-Tuning LLMs90 minutes
Laboratoire : Modélisation de la récompense60 minutes

1 pluginTotal 5 minutes

Conseils utiles pour l'achèvement des cours5 minutes

Dans ce module, vous décrirez les applications des grands modèles de langage (LLM) pour générer des règles d'application et des probabilités pour générer des réponses sur la base du texte d'entrée. Vous aurez également un aperçu de la relation entre la politique et le modèle génératif de langage en tant que fonction d'oméga pour générer des réponses possibles. En outre, ce module montrera comment calculer les récompenses en utilisant le feedback humain incorporant la fonction de récompense, former des échantillons de réponses et évaluer la performance de l'agent. Vous définirez également la fonction de notation pour l'Analyse des sentiments en utilisant PPO avec Hugging Face. Vous expliquerez également la classe de configuration PPO pour des modèles spécifiques et le taux d'apprentissage pour la formation PPO et comment le formateur PPO traite les échantillons de requêtes pour optimiser les politiques du chatbot afin d'obtenir des réponses de haute qualité. Ce module approfondit les concepts d'optimisation directe des préférences (DPO) afin de fournir des solutions optimales pour les requêtes générées basées sur les préférences humaines de manière plus directe et plus efficace en utilisant Hugging Face. Les travaux pratiques de ce module permettent de s'exercer sur le retour d'information humain et la DPO. Les méthodes telles que l'apprentissage par renforcement et le PPO sont assez complexes et pourraient être considérées comme des sujets d'étude à part entière. Bien que nous ayons fourni quelques références pour ceux qui sont intéressés, on ne s'attend pas à ce que vous les compreniez en profondeur dans le cadre de ce cours

Inclus

10 vidéos5 lectures3 devoirs2 éléments d'application3 plugins

10 vidéosTotal 58 minutes

Les grands modèles de langage (LLM) en tant que distributions7 minutesPrévisualiser le module
Des distributions aux politiques3 minutes
Apprentissage par renforcement à partir du feedback humain (RLHF)7 minutes
Optimisation de la politique proximale (PPO)5 minutes
OPP avec visage embrassant3 minutes
Formateur OPP5 minutes
DPO : Fonction de partition5 minutes
DPO : Solution optimale7 minutes
De la politique optimale aux DPO6 minutes
DPO avec visage étreint5 minutes

5 lecturesTotal 18 minutes

Résumé et points forts4 minutes
Résumé et points forts3 minutes
Conclusion du cours6 minutes
Félicitations et prochaines étapes3 minutes
Remerciements de la part de l'équipe du cours2 minutes

3 devoirsTotal 61 minutes

Ajustement fin des LLM causaux avec le retour d'information humain et la préférence directe30 minutes
Quiz pratique : Optimisation de la politique proximale (PPO)21 minutes
Quiz pratique : Optimisation des préférences directes (DPO)10 minutes

2 éléments d'applicationTotal 75 minutes

Lab : Apprentissage par renforcement à partir du feedback humain en utilisant PPO30 minutes
Laboratoire : Optimisation directe des préférences (DPO) à l'aide de Hugging Face45 minutes

3 pluginsTotal 45 minutes

Affiner les LLM localement avec InstructLab15 minutes
Aide-mémoire : IA générative - Mise au point avancée pour les LLMs15 minutes
Glossaire : L'IA générative fait progresser la mise au point pour les MLD15 minutes

Instructeurs

Joseph Santarcangelo

IBM

33 Cours1 704 068 apprenants

Offert par

IBM

Recommandé si vous êtes intéressé(e) par Apprentissage automatique

IBM
IA générative : Principes de base de l'ingénierie des invites
Cours
DeepLearning.AI
Introduction à l'IA générative pour le développement de logiciels
Cours
IBM
IA générative : modèles et plates-formes de base
Cours
Fred Hutchinson Cancer Center
L'IA pour une programmation efficace : exploiter la puissance des LLM
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

Il faut environ 3 à 5 heures pour suivre ce cours, ce qui vous permet d'acquérir les compétences professionnelles nécessaires pour impressionner un employeur en seulement deux semaines !

Ce cours est de niveau intermédiaire, donc pour tirer le meilleur parti de votre apprentissage, vous devez avoir des connaissances de base de Python, des grands modèles de langage (LLM), de l'apprentissage par renforcement et de l'ajustement des instructions. Vous devriez également être familier avec l'apprentissage automatique et les concepts de réseaux neurones.

Ce cours fait partie de la spécialisation en ingénierie de l'IA générative avec les LLM. Lorsque vous terminez la spécialisation, vous aurez les compétences et la confiance nécessaires pour assumer des rôles professionnels tels que l'ingénieur IA, le scientifique des données, l'ingénieur en apprentissage automatique, l'ingénieur en apprentissage profond, l'ingénieur en IA et les développeurs cherchant à travailler avec des LLM.

L'accès aux cours et aux devoirs dépend de votre type d'inscription. Si vous suivez un cours en mode audit, vous pourrez consulter gratuitement la plupart des supports de cours. Pour accéder aux devoirs notés et obtenir un certificat, vous devrez acheter l'expérience de certificat, pendant ou après votre audit. Si vous ne voyez pas l'option d'audit :

Il se peut que le cours ne propose pas d'option d'audit. Vous pouvez essayer un essai gratuit ou demander une aide financière.
Le cours peut proposer l'option "Cours complet, pas de certificat" à la place. Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page de réalisations. De là, vous pourrez l'imprimer ou l'ajouter à votre profil LinkedIn. Si vous souhaitez uniquement lire et visualiser le contenu du cours, vous pouvez auditer le cours gratuitement.