Gefragt sind generative KI-Engineering-Fähigkeiten zur Feinabstimmung von LLMs, die von Arbeitgebern aktiv gesucht werden
Anweisungsabstimmung und Belohnungsmodellierung unter Verwendung von Hugging Face, sowie Verständnis von LLMs als Richtlinien und Anwendung von RLHF-Techniken
Direkte Präferenzoptimierung (DPO) mit Partitionsfunktion und Hugging Face, einschließlich der Definition optimaler Lösungen für DPO-Probleme
Proximale Politikoptimierung (PPO) mit Hugging Face zur Erstellung von Bewertungsfunktionen und Tokenisierung von Datensätzen für die Feinabstimmung
Kompetenzen, die Sie erwerben
Kategorie: Bewertung des Modells
Bewertung des Modells
Kategorie: Modellierung großer Sprachen
Modellierung großer Sprachen
Kategorie: Reinforcement Learning
Reinforcement Learning
Kategorie: Modell-Optimierung
Modell-Optimierung
Kategorie: Modell Ausbildung
Modell Ausbildung
Kategorie: Generative Modellarchitekturen
Generative Modellarchitekturen
Kategorie: Feinabstimmung
Feinabstimmung
Kategorie: Methoden des maschinellen Lernens
Methoden des maschinellen Lernens
Werkzeuge, die Sie lernen werden
Kategorie: Generative KI
Generative KI
Wichtige Details
Zertifikat zur Vorlage
Zu Ihrem LinkedIn-Profil hinzufügen
Bewertungen
5 Aufgaben
Unterrichtet in Englisch
91%
of learners achieved a positive career outcome
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.
Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.
Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage
In diesem Kurs gibt es 2 Module
"Die Feinabstimmung großer Sprachmodelle (Large Language Models, LLMs) ist unerlässlich, um sie auf spezifische Geschäftsanforderungen abzustimmen, die Genauigkeit zu verbessern und die Leistung zu optimieren. In der heutigen KI-gesteuerten Welt sind Unternehmen auf fein abgestimmte Modelle angewiesen, um präzise, umsetzbare Erkenntnisse zu generieren, die Innovation und Effizienz fördern. Dieser Kurs stattet angehende KI-Ingenieure mit den gefragten Fähigkeiten aus, die Arbeitgeber aktiv suchen. Sie werden fortgeschrittene Feinabstimmungstechniken für kausale LLMs erforschen, einschließlich Instruktionsabstimmung, Belohnungsmodellierung und direkte Präferenzoptimierung. Sie erfahren, wie LLMs als probabilistische Richtlinien für die Generierung von Antworten fungieren und wie sie mit Hilfe von Tools wie Hugging Face an menschliche Präferenzen angepasst werden können. Sie werden in die Belohnungsberechnung, das Verstärkungslernen aus menschlichem Feedback (RLHF), die proximale Policy-Optimierung (PPO), den PPO-Trainer und optimale Strategien für die direkte Präferenzoptimierung (DPO) eintauchen. Die praktischen Übungen in diesem Kurs vermitteln Ihnen praktische Erfahrungen mit der Abstimmung von Instruktionen, der Belohnungsmodellierung, der PPO und der DPO und geben Ihnen die Werkzeuge an die Hand, mit denen Sie LLMs für hochwirksame Anwendungen selbstbewusst feinabstimmen können. Erwerben Sie in nur zwei Wochen berufsreife generative KI-Fähigkeiten! Melden Sie sich noch heute an und bringen Sie Ihre Karriere in der KI voran!"
In diesem Modul werden Sie fortgeschrittene Techniken zur Feinabstimmung großer Sprachmodelle (LLMs) durch Instruktionsabstimmung und Belohnungsmodellierung erkunden. Sie beginnen mit der Definition der Befehlsabstimmung und lernen den Prozess kennen, einschließlich des Ladens von Datensätzen, Texterzeugungspipelines und Trainingsargumenten mit Hugging Face. Anschließend tauchen Sie in die Belohnungsmodellierung ein, wo Sie Datensätze vorverarbeiten, Low-Rank-Adaptation (LoRA)-Konfigurationen anwenden und Qualitätsreaktionen quantifizieren, um die Modelloptimierung zu steuern und mit menschlichen Präferenzen in Einklang zu bringen. Sie werden auch Reward-Trainer und Reward-Modell-Verlustfunktionen beschreiben und anwenden. Darüber hinaus werden Sie in den praktischen Übungen Ihre Kenntnisse durch praktische Erfahrungen mit der Abstimmung von Anweisungen und der Belohnungsmodellierung vertiefen und so in die Lage versetzt, LLMs für bestimmte Aufgaben effektiv anzupassen.
Instruktions-Tuning mit umarmendem Gesicht•7 Minuten
Belohnungsmodellierung: Auswertung der Antworten•5 Minuten
Belohnungsmodell Training•7 Minuten
Belohnungsmodellierung mit umarmendem Gesicht•8 Minuten
4 Lektüren•Insgesamt 18 Minuten
Überblick über den Kurs•3 Minuten
Übersicht über die Spezialisierung•10 Minuten
Bewährte Praktiken für das Instruction-Tuning großer Sprachmodelle•3 Minuten
Zusammenfassung und Highlights•2 Minuten
2 Aufgaben•Insgesamt 30 Minuten
Verschiedene Ansätze zur Unterrichtsabstimmung•21 Minuten
Praxis-Quiz: Instruktionsabstimmung und Belohnungsmodellierung•9 Minuten
2 App-Elemente•Insgesamt 150 Minuten
Anweisung Feinabstimmung LLMs•90 Minuten
Labor: Modellierung von Belohnungen•60 Minuten
3 Plug-ins•Insgesamt 35 Minuten
Hilfreiche Tipps für den Kursabschluss•5 Minuten
Anweisung Tuning•15 Minuten
Belohnungsmodellierung und Reaktionsbewertung•15 Minuten
Feinabstimmung kausaler LLMs mit menschlichem Feedback und direkter Präferenz
Modul 2•5 Stunden abzuschließen
Moduldetails
In diesem Modul erforschen Sie fortgeschrittene Techniken zur Feinabstimmung großer Sprachmodelle (LLMs) unter Verwendung von Reinforcement Learning from Human Feedback (RLHF), Proximal Policy Optimization (PPO) und Direct Preference Optimization (DPO). Sie werden zunächst beschreiben, wie LLMs als probabilistische Verteilungen funktionieren und wie diese in Richtlinien umgewandelt werden können, um Antworten auf der Grundlage von Eingabetext zu generieren. Sie werden die Beziehung zwischen Richtlinien und Sprachmodellen als Funktion von Parametern, wie z.B. Omega, untersuchen und wie Belohnungen unter Verwendung menschlichen Feedbacks berechnet werden können. Dazu gehören das Trainieren von Antwortmustern, die Bewertung der Leistung von Agenten und die Definition von Bewertungsfunktionen für Aufgaben wie die Analyse von Gefühlen mit PPO. Sie werden auch in der Lage sein, die PPO-Konfiguration, Lernraten und die Rolle des PPO-Trainers bei der Optimierung von Chatbot-Antworten mit Hugging Face-Tools zu erklären. Das Modul stellt außerdem DPO vor, eine direktere und effizientere Methode zur Anpassung von Modellen an menschliche Präferenzen. Obwohl komplexe Themen wie PPO und Reinforcement Learning vorgestellt werden, wird von Ihnen nicht erwartet, dass Sie sie in diesem Kurs in der Tiefe verstehen. In den praktischen Übungen in diesem Modul können Sie die Anwendung von RLHF und DPO üben. Zur Unterstützung Ihres Lernens sind ein Spickzettel und ein Glossar zum schnellen Nachschlagen enthalten.
Wir bei IBM wissen, wie schnell sich die Technologie entwickelt, und sind uns bewusst, wie wichtig es für Unternehmen und Fachkräfte ist, schnell einsatzbereite, praxisnahe Fähigkeiten zu erwerben. Als marktführender Tech-Innovator setzen wir uns dafür ein, dass Sie in diesem dynamischen Umfeld erfolgreich sind. Über das IBM Skills Network bieten unsere von Experten entwickelten Schulungsprogramme in den Bereichen künstliche Intelligenz, Softwareentwicklung, Cybersicherheit, Datenwissenschaft, Unternehmensführung und mehr die grundlegenden Fähigkeiten, die Sie benötigen, um sich Ihren ersten Job zu sichern, Ihre Karriere voranzutreiben oder Ihren geschäftlichen Erfolg zu steigern. Ganz gleich, ob Sie sich selbst oder Ihr Team weiterbilden möchten, unsere Kurse, Spezialisierungen und professionellen Zertifikate vermitteln Ihnen das technische Fachwissen, das Sie und Ihr Unternehmen in einer wettbewerbsorientierten Welt auszeichnet.
Warum entscheiden sich Menschen für Coursera für ihre Karriere?
Felipe M.
Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“
Jennifer J.
Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“
Larry W.
Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“
Chaitanya A.
„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“
Bewertungen von Lernenden
4.4
131 Bewertungen
5 stars
75 %
4 stars
8,33 %
3 stars
3,78 %
2 stars
4,54 %
1 star
8,33 %
Zeigt 3 von 131 an
S
SG
5·
Geprüft am 20. Aug. 2025
An excellent course with a wealth of high-quality material, featuring highly informative lessons such as DPO and PPO.
R
RN
5·
Geprüft am 10. März 2025
This course is a great resource for learners, providing deep insights and practical skills in fine-tuning large language models for advanced AI applications.
M
MS
5·
Geprüft am 10. März 2025
The course gave me a good understanding of fine-tuning LLMs. It made complex topics easy to learn.
Wie lange dauert es, die Specialization abzuschließen?
Der Kurs dauert etwa 3-5 Stunden, so dass Sie innerhalb von nur zwei Wochen über die Fähigkeiten verfügen, die Sie brauchen, um einen Arbeitgeber zu beeindrucken!
Brauche ich irgendwelche Vorkenntnisse, um diesen Kurs erfolgreich abzuschließen?
Dieser Kurs ist auf mittlerem Niveau angesiedelt. Um den größtmöglichen Lernerfolg zu erzielen, müssen Sie über Grundkenntnisse in Python, großen Sprachmodellen (LLMs), Verstärkungslernen und Befehlsabstimmung verfügen. Sie sollten auch mit Konzepten des maschinellen Lernens und neuronaler Netze vertraut sein.
Welche Funktionen werden von den Fähigkeiten, die ich in diesem Kurs erwerbe, profitieren?
Dieser Kurs ist Teil der Spezialisierung Generative AI Engineering mit LLMs. Wenn Sie die Spezialisierung abschließen, haben Sie die Fähigkeiten und das Selbstvertrauen, um Berufsrollen wie KI-Ingenieur, Datenwissenschaftler, Ingenieur für maschinelles Lernen, Deep-Learning-Ingenieur, KI-Ingenieur und Entwickler, die mit LLMs arbeiten wollen, zu übernehmen.
Benötige ich spezielle Software oder Tools, um den Kurs erfolgreich abzuschließen?
Für die Teilnahme an diesem Kurs und allen praktischen Übungen ist lediglich ein moderner Webbrowser erforderlich. Sie erhalten kostenlosen Zugang zu Cloud-basierten Umgebungen, um die Übungen durchzuführen.
Wann werde ich Zugang zu den Vorlesungen und Aufgaben haben?
Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.
Was bekomme ich, wenn ich dieses Zertifikat abonniere?
Wenn Sie sich für den Kurs anmelden, erhalten Sie Zugang zu allen Kursen des Zertifikats, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird zu Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen.