Le réglage fin d'un Grand modèle de langage (LLM) est essentiel pour l'aligner sur les besoins spécifiques de l'entreprise, améliorer la précision et optimiser ses performances. Cela permet aux entreprises d'obtenir des informations précises et exploitables qui favorisent l'efficacité et l'innovation. Ce cours donne aux aspirants ingénieurs IA de précieuses compétences de réglage fin que les employeurs recherchent activement. Au cours de ce cours, vous explorerez différentes approches de réglage fin et de LLM causal avec un retour d'information humain et une préférence directe. Vous examinerez les LLM en tant que serveurs d'authentification pour les distributions de probabilité afin de générer des réponses et les concepts de réglage des instructions avec Hugging Face. Vous apprendrez à calculer les récompenses en utilisant le feedback humain et la modélisation des récompenses avec Hugging Face. De plus, vous explorerez l'apprentissage par renforcement à partir du feedback humain (RLHF), l'optimisation proximale des politiques (PPO) et le PPO Trainer, ainsi que les solutions optimales pour les problèmes d'optimisation directe des préférences (DPO).
L'IA générative fait progresser la mise au point des LLM
Ce cours fait partie de plusieurs programmes.
Instructeurs : Joseph Santarcangelo
1 625 déjà inscrits
Inclus avec
(13 avis)
Expérience recommandée
Ce que vous apprendrez
Compétences en ingénierie de l'IA en demande dans les LLM de précision que les employeurs recherchent activement en seulement 2 semaines
Modélisation de l'instruction et de la récompense avec le Hugging Face, plus les LLM en tant que politiques et RLHF
Optimisation des préférences directes (DPO) avec fonction de partition et Hugging Face et comment créer une solution optimale à un problème DPO
Comment utiliser l'optimisation proximale des politiques (PPO) avec Hugging Face pour créer une fonction de notation et effectuer la tokenisation de l'ensemble des données
Compétences que vous acquerrez
- Catégorie : Apprentissage par renforcement
- Catégorie : Optimisation de la politique proximale (PPO)
- Catégorie : Apprentissage par renforcement
- Catégorie : Optimisation des préférences directes (DPO)
- Catégorie : Visage étreint
- Catégorie : Instruction-tuning
Détails à connaître
Ajouter à votre profil LinkedIn
octobre 2024
5 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées
Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable
Obtenez un certificat professionnel
Ajoutez cette qualification à votre profil LinkedIn ou à votre CV
Partagez-le sur les réseaux sociaux et dans votre évaluation de performance
Il y a 2 modules dans ce cours
Dans ce module, vous commencerez par définir le réglage des instructions et son processus. Vous apprendrez également à charger un ensemble de données, à générer des pipelines de texte et des arguments d'entraînement. En outre, vous vous plongerez dans la modélisation de la récompense, où vous prétraiterez l'ensemble de données et appliquerez la configuration de l'adaptation à faible rang (LoRA). Vous apprendrez également à quantifier les réponses de qualité, à guider l'optimisation du modèle et à intégrer les préférences en matière de récompenses. Vous décrirez également le formateur de récompense, une technique de formation avancée pour former un modèle, et la perte de modèle de récompense à l'aide de Hugging Face. Les travaux pratiques, dans ce module, permettront de s'exercer sur les modèles d'instruction-tuning et de récompense.
Inclus
6 vidéos4 lectures2 devoirs2 éléments d'application1 plugin
Dans ce module, vous décrirez les applications des grands modèles de langage (LLM) pour générer des règles d'application et des probabilités pour générer des réponses sur la base du texte d'entrée. Vous aurez également un aperçu de la relation entre la politique et le modèle génératif de langage en tant que fonction d'oméga pour générer des réponses possibles. En outre, ce module montrera comment calculer les récompenses en utilisant le feedback humain incorporant la fonction de récompense, former des échantillons de réponses et évaluer la performance de l'agent. Vous définirez également la fonction de notation pour l'Analyse des sentiments en utilisant PPO avec Hugging Face. Vous expliquerez également la classe de configuration PPO pour des modèles spécifiques et le taux d'apprentissage pour la formation PPO et comment le formateur PPO traite les échantillons de requêtes pour optimiser les politiques du chatbot afin d'obtenir des réponses de haute qualité. Ce module approfondit les concepts d'optimisation directe des préférences (DPO) afin de fournir des solutions optimales pour les requêtes générées basées sur les préférences humaines de manière plus directe et plus efficace en utilisant Hugging Face. Les travaux pratiques de ce module permettent de s'exercer sur le retour d'information humain et la DPO. Les méthodes telles que l'apprentissage par renforcement et le PPO sont assez complexes et pourraient être considérées comme des sujets d'étude à part entière. Bien que nous ayons fourni quelques références pour ceux qui sont intéressés, on ne s'attend pas à ce que vous les compreniez en profondeur dans le cadre de ce cours
Inclus
10 vidéos5 lectures3 devoirs2 éléments d'application3 plugins
Offert par
Recommandé si vous êtes intéressé(e) par Apprentissage automatique
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
Il faut environ 3 à 5 heures pour suivre ce cours, ce qui vous permet d'acquérir les compétences professionnelles nécessaires pour impressionner un employeur en seulement deux semaines !
Ce cours est de niveau intermédiaire, donc pour tirer le meilleur parti de votre apprentissage, vous devez avoir des connaissances de base de Python, des grands modèles de langage (LLM), de l'apprentissage par renforcement et de l'ajustement des instructions. Vous devriez également être familier avec l'apprentissage automatique et les concepts de réseaux neurones.
Ce cours fait partie de la spécialisation en ingénierie de l'IA générative avec les LLM. Lorsque vous terminez la spécialisation, vous aurez les compétences et la confiance nécessaires pour assumer des rôles professionnels tels que l'ingénieur IA, le scientifique des données, l'ingénieur en apprentissage automatique, l'ingénieur en apprentissage profond, l'ingénieur en IA et les développeurs cherchant à travailler avec des LLM.