IBM
L'IA générative fait progresser la mise au point des LLM
IBM

L'IA générative fait progresser la mise au point des LLM

Ce cours fait partie de plusieurs programmes.

Joseph Santarcangelo
Ashutosh Sagar
Wojciech 'Victor' Fulmyk

Instructeurs : Joseph Santarcangelo

1 625 déjà inscrits

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.4

(13 avis)

niveau Intermédiaire

Expérience recommandée

8 heures pour terminer
3 semaines à 2 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.4

(13 avis)

niveau Intermédiaire

Expérience recommandée

8 heures pour terminer
3 semaines à 2 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Compétences en ingénierie de l'IA en demande dans les LLM de précision que les employeurs recherchent activement en seulement 2 semaines

  • Modélisation de l'instruction et de la récompense avec le Hugging Face, plus les LLM en tant que politiques et RLHF

  • Optimisation des préférences directes (DPO) avec fonction de partition et Hugging Face et comment créer une solution optimale à un problème DPO

  • Comment utiliser l'optimisation proximale des politiques (PPO) avec Hugging Face pour créer une fonction de notation et effectuer la tokenisation de l'ensemble des données

Compétences que vous acquerrez

  • Catégorie : Apprentissage par renforcement
  • Catégorie : Optimisation de la politique proximale (PPO)
  • Catégorie : Apprentissage par renforcement
  • Catégorie : Optimisation des préférences directes (DPO)
  • Catégorie : Visage étreint
  • Catégorie : Instruction-tuning

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

octobre 2024

Évaluations

5 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Emplacement réservé

Élaborez votre expertise du sujet

Ce cours est disponible dans le cadre de
Lorsque vous vous inscrivez à ce cours, vous devez également sélectionner un programme spécifique.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable
Emplacement réservé
Emplacement réservé

Obtenez un certificat professionnel

Ajoutez cette qualification à votre profil LinkedIn ou à votre CV

Partagez-le sur les réseaux sociaux et dans votre évaluation de performance

Emplacement réservé

Il y a 2 modules dans ce cours

Dans ce module, vous commencerez par définir le réglage des instructions et son processus. Vous apprendrez également à charger un ensemble de données, à générer des pipelines de texte et des arguments d'entraînement. En outre, vous vous plongerez dans la modélisation de la récompense, où vous prétraiterez l'ensemble de données et appliquerez la configuration de l'adaptation à faible rang (LoRA). Vous apprendrez également à quantifier les réponses de qualité, à guider l'optimisation du modèle et à intégrer les préférences en matière de récompenses. Vous décrirez également le formateur de récompense, une technique de formation avancée pour former un modèle, et la perte de modèle de récompense à l'aide de Hugging Face. Les travaux pratiques, dans ce module, permettront de s'exercer sur les modèles d'instruction-tuning et de récompense.

Inclus

6 vidéos4 lectures2 devoirs2 éléments d'application1 plugin

Dans ce module, vous décrirez les applications des grands modèles de langage (LLM) pour générer des règles d'application et des probabilités pour générer des réponses sur la base du texte d'entrée. Vous aurez également un aperçu de la relation entre la politique et le modèle génératif de langage en tant que fonction d'oméga pour générer des réponses possibles. En outre, ce module montrera comment calculer les récompenses en utilisant le feedback humain incorporant la fonction de récompense, former des échantillons de réponses et évaluer la performance de l'agent. Vous définirez également la fonction de notation pour l'Analyse des sentiments en utilisant PPO avec Hugging Face. Vous expliquerez également la classe de configuration PPO pour des modèles spécifiques et le taux d'apprentissage pour la formation PPO et comment le formateur PPO traite les échantillons de requêtes pour optimiser les politiques du chatbot afin d'obtenir des réponses de haute qualité. Ce module approfondit les concepts d'optimisation directe des préférences (DPO) afin de fournir des solutions optimales pour les requêtes générées basées sur les préférences humaines de manière plus directe et plus efficace en utilisant Hugging Face. Les travaux pratiques de ce module permettent de s'exercer sur le retour d'information humain et la DPO. Les méthodes telles que l'apprentissage par renforcement et le PPO sont assez complexes et pourraient être considérées comme des sujets d'étude à part entière. Bien que nous ayons fourni quelques références pour ceux qui sont intéressés, on ne s'attend pas à ce que vous les compreniez en profondeur dans le cadre de ce cours

Inclus

10 vidéos5 lectures3 devoirs2 éléments d'application3 plugins

Instructeurs

Joseph Santarcangelo
IBM
33 Cours1 704 068 apprenants

Offert par

IBM

Recommandé si vous êtes intéressé(e) par Apprentissage automatique

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Emplacement réservé

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions