Mis à jour en mai 2025.Ce cours intègre maintenant Coursera Coach ! Une façon plus intelligente d'apprendre avec des conversations interactives en temps réel qui vous aident à tester vos connaissances, à remettre en question les hypothèses et à approfondir votre compréhension au fur et à mesure que vous progressez dans le cours.Libérez le plein potentiel des données non structurées en maîtrisant les techniques de prétraitement pour les LLM et les systèmes de Génération Augmentée de Récupération (RAG). Ce cours complet vous dote des compétences nécessaires pour préparer les données non structurées pour les applications IA avancées, en garantissant des entrées de haute qualité pour des résultats améliorés. De la compréhension des complexités du prétraitement des données aux projets pratiques, vous obtiendrez des informations précieuses sur les cadres et les outils de pointe. Votre voyage commence par la mise en place d'un environnement de développement robuste, y compris les comptes API et les intégrations clés. Vous vous plongerez ensuite dans les nuances du prétraitement des données non structurées, en relevant des défis tels que la normalisation des données, le découpage et l'extraction des métadonnées. Avec le Framework non structuré comme guide, vous prétraitez efficacement les documents HTML, PDF et PPTX, en assurant une structuration optimale des données. Le cours met l'accent sur les applications du monde réel, offrant une expérience pratique de la similarité sémantique, des bases de données vectorielles et des stratégies de recherche hybrides. Vous explorerez des techniques avancées de détection de la mise en page des documents, en exploitant des outils tels que Visual Transformers et LangChain pour prétraiter des documents complexes et en extraire des informations significatives. Enfin, vous appliquerez toutes ces compétences dans la construction d'un système RAG entièrement fonctionnel, en intégrant les techniques apprises pour l'interaction dynamique des données. Ce cours est idéal pour les ingénieurs de données, les praticiens de l'IA et les développeurs qui cherchent à affiner leurs compétences en matière de prétraitement. Bien qu'une familiarité avec Python et l'utilisation de base de l'API soit utile, le cours est structuré pour les intermédiaires et ceux qui recherchent une expertise avancée.

Profitez d'une croissance illimitée avec un an de Coursera Plus pour 199 $ (régulièrement 399 $). Économisez maintenant.

Prétraitement de données non structurées pour les LLM et les systèmes RAG

Instructeur : Packt - Course Instructors
Inclus avec
Expérience recommandée
Ce que vous apprendrez
Maîtriser les techniques de prétraitement des données non structurées pour les LLM et les systèmes RAG.
Extraction et normalisation de données à partir de types de documents complexes tels que les PDF et le HTML.
Mise en œuvre de la similarité sémantique et de l'extraction de métadonnées à l'aide de bases de données vectorielles.
Construisez un système RAG pour interagir dynamiquement avec vos données prétraitées.
Compétences que vous acquerrez
- Catégorie : Données en temps réel
- Catégorie : Transformateur de vision (ViT)
- Catégorie : Emboîtements
- Catégorie : LangChain
- Catégorie : Génération augmentée de récupération
- Catégorie : Bases de données vectorielles
- Catégorie : Qualité des données
Détails à connaître

Ajouter à votre profil LinkedIn
8 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Il y a 8 modules dans ce cours
Dans ce module, nous vous présenterons le cours, en soulignant ses objectifs, les compétences et les connaissances dont vous aurez besoin pour réussir, et la façon dont le contenu est organisé pour vous guider dans le processus de préparation des données non structurées pour les grands modèles de langage (LLM) et les systèmes de Génération augmentée de récupération (RAG).
Inclus
2 vidéos1 lecture
Dans ce module, nous vous guiderons dans la mise en place de l'environnement de développement nécessaire, y compris la création et la configuration des comptes API, l'intégration du framework Prétraitement de données et l'exécution d'un test pour s'assurer que tout est opérationnel avant de procéder aux tâches de prétraitement des données.
Inclus
4 vidéos1 devoir
Dans ce module, nous explorerons les subtilités du prétraitement des données pour les LLM, en nous penchant sur les défis posés par les données non structurées et les techniques requises pour les surmonter. Vous découvrirez l'ensemble du flux de travail, du nettoyage et de la normalisation des données à leur structuration et à leur regroupement, pour aboutir à une présentation complète du cadre de travail Données non structurées.
Inclus
6 vidéos1 devoir
Dans ce module, nous allons nous plonger dans des exercices pratiques utilisant le framework Unstructured pour prétraiter différents types de documents. Vous explorerez les étapes impliquées dans l'extraction et la normalisation des données à partir des PDF, des fichiers PPTX et HTML, et découvrirez comment ces processus améliorent la qualité des données pour les cas d'utilisation en aval dans les LLM et les systèmes RAG.
Inclus
4 vidéos1 devoir
Dans ce module, nous nous concentrerons sur le découpage et l'extraction de métadonnées, en explorant comment segmenter le contenu d'un document en unités logiques et l'enrichir de métadonnées pour des applications avancées telles que la similarité sémantique et la recherche hybride. Grâce à des activités pratiques, vous apprendrez à optimiser les flux de traitement des documents, à structurer efficacement les éléments des documents et à intégrer les résultats dans une base de données vectorielle.
Inclus
8 vidéos1 devoir
Dans ce module, nous allons relever les défis du prétraitement de documents complexes, y compris les PDF et les images, en tirant parti d'outils avancés tels que le DLD et le ViT. Vous explorerez des méthodes pratiques pour extraire et résumer le contenu des tableaux, vous aurez un aperçu du prétraitement efficace des fichiers HTML et PDF, et vous évaluerez les compromis entre les différentes techniques de prétraitement.
Inclus
7 vidéos1 devoir
Dans ce module, nous synthétiserons les compétences et les techniques apprises tout au long du cours pour construire un système RAG complet. Du prétraitement et de la structuration de documents complexes à la création d'une base de données consultable et à l'activation d'interactions conversationnelles avec vos documents, vous acquerrez une expérience pratique dans le déploiement d'une solution de bout en bout adaptée à des applications du monde réel.
Inclus
6 vidéos1 devoir
Dans ce module, nous conclurons le cours en revisitant les principales étapes et les compétences acquises. Vous recevrez des conseils sur l'application de vos connaissances à des scénarios du monde réel et découvrirez des ressources pour poursuivre votre voyage dans le domaine du prétraitement avancé des données et du développement de systèmes RAG.
Inclus
1 vidéo2 devoirs
Instructeur

Offert par
En savoir plus sur Gestion des données
Statut : GratuitDeepLearning.AI
Statut : Prévisualisation
Statut : Essai gratuit
Statut : Essai gratuit
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?




Foire Aux Questions
Oui, vous pouvez visionner la première vidéo et le syllabus avant de vous inscrire. Vous devez acheter le cours pour accéder au contenu qui n'est pas inclus dans l'aperçu.
Si vous décidez de vous inscrire au cours avant la date de début de la session, vous aurez accès à toutes les vidéos et à toutes les lectures du cours. Vous pourrez soumettre vos travaux dès le début de la session.
Une fois que vous vous serez inscrit et que votre session aura commencé, vous aurez accès à toutes les vidéos et autres ressources, y compris les lectures et le forum de discussion du cours. Vous pourrez consulter et soumettre des évaluations pratiques, et effectuer les devoirs notés requis pour obtenir une note et un certificat de cours.
Plus de questions
Aide financière disponible,




