L'amélioration des performances d'un système RAG dépend du traitement efficace de diverses sources de données non structurées.
Dans ce cours, vous apprendrez des techniques pour représenter toutes sortes de données non structurées, comme du texte, des images et des tableaux, à partir de nombreuses sources différentes et les mettrez en œuvre pour étendre votre pipeline LLM RAG afin d'inclure des fichiers Excel, Word, PowerPoint, PDF et EPUB. 1. Comment prétraiter les données pour le développement de votre application LLM, en se concentrant sur la façon de travailler avec différents types de documents. 2. Comment extraire et normaliser divers documents dans un format JSON commun et l'enrichir de métadonnées pour améliorer les résultats de recherche. 3. Techniques d'analyse d'images de documents, y compris la détection de la mise en page et les transformateurs de vision, pour extraire et comprendre les PDF, les images et les tableaux. 4. Comment construire un robot RAG capable d'ingérer différents documents tels que des PDF, des PowerPoint et des fichiers Markdown. Appliquez les compétences que vous apprendrez dans ce cours à des scénarios du monde réel, en améliorant votre application RAG et en élargissant sa polyvalence.