Die Verbesserung der Leistung eines RAG-Systems hängt von der effizienten Verarbeitung verschiedener unstrukturierter Datenquellen ab.
In diesem Kurs lernen Sie Techniken zur Darstellung aller Arten von unstrukturierten Daten, wie Text, Bilder und Tabellen, aus vielen verschiedenen Quellen kennen und implementieren diese, um Ihre LLM-RAG-Pipeline um Excel-, Word-, PowerPoint-, PDF- und EPUB-Dateien zu erweitern. 1. Wie Sie Daten für die Entwicklung Ihrer LLM-Anwendung vorverarbeiten, mit Schwerpunkt auf der Arbeit mit verschiedenen Dokumententypen. 2. Wie man verschiedene Dokumente in ein gemeinsames JSON-Format extrahiert und normalisiert und sie mit Metadaten anreichert, um die Suchergebnisse zu verbessern. 3. Techniken zur Analyse von Dokumentenbildern, einschließlich Layout-Erkennung und Vision-Transformatoren, um PDFs, Bilder und Tabellen zu extrahieren und zu verstehen. 4. Wie man einen RAG-Bot erstellt, der verschiedene Dokumente wie PDFs, PowerPoints und Markdown-Dateien einlesen kann. Wenden Sie die in diesem Kurs erlernten Fähigkeiten auf reale Szenarien an, um Ihre RAG-Anwendung zu verbessern und ihre Vielseitigkeit zu erweitern.