Génération Augmentée par Récupération (RAG)

La Génération Augmentée par Récupération (RAG) est un cadre d'IA qui améliore la précision et la fiabilité des Grands Modèles de Langage (LLMs) en intégrant des sources de connaissances externes pendant le processus de génération.

Les systèmes RAG combinent les forces de la recherche d'informations et de la génération de texte. Ils récupèrent d'abord des documents ou des données pertinents à partir d'une base de connaissances externe en fonction de la requête d'un utilisateur. Ensuite, ils augmentent l'entrée du LLM avec ces informations récupérées, permettant au modèle de générer des réponses plus informées et contextuellement précises. Cette approche réduit la dépendance à la connaissance interne du LLM, qui peut être obsolète ou incomplète, et améliore la qualité globale et la fiabilité de la sortie générée. RAG est particulièrement utile pour les tâches nécessitant des informations à jour ou des connaissances spécialisées.

        graph LR
  Center["Génération Augmentée par Récupération (RAG)"]:::main
  Pre_large_language_model["large-language-model"]:::pre --> Center
  click Pre_large_language_model "/terms/large-language-model"
  Pre_vector_database["vector-database"]:::pre --> Center
  click Pre_vector_database "/terms/vector-database"
  Pre_semantic_search["semantic-search"]:::pre --> Center
  click Pre_semantic_search "/terms/semantic-search"
  Center --> Child_rag_pipeline["rag-pipeline"]:::child
  click Child_rag_pipeline "/terms/rag-pipeline"
  Center --> Child_context_window["context-window"]:::child
  click Child_context_window "/terms/context-window"
  Rel_prompt_engineering["prompt-engineering"]:::related -.-> Center
  click Rel_prompt_engineering "/terms/prompt-engineering"
  Rel_generative_ai_agents["generative-ai-agents"]:::related -.-> Center
  click Rel_generative_ai_agents "/terms/generative-ai-agents"
  Rel_rlhf["rlhf"]:::related -.-> Center
  click Rel_rlhf "/terms/rlhf"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Test de connaissances

1 / 3

🧒 Explique-moi comme si j'avais 5 ans

🌍 Imagine you're taking a test. A regular AI tries to answer from memory alone. An AI using [RAG](/fr/terms/rag) is allowed to look at an open book (the [database](/fr/terms/database)) specifically related to the question before it writes down the answer. This makes it much less likely to make things up.

🤓 Expert Deep Dive

RAG architectures fundamentally shift LLM interaction from pure parametric recall to a hybrid parametric-retrieval paradigm. The core challenge lies in optimizing the retrieval-augmentation loop for relevance and efficiency. Techniques like dense passage retrieval (DPR) using bi-encoders, or hybrid search combining keyword and semantic matching, are crucial. Advanced RAG implementations explore iterative retrieval, query decomposition for complex questions, and re-ranking mechanisms to refine retrieved context. The choice of vector [database](/fr/terms/vector-database), embedding model, chunking strategy, and retrieval parameters (e.g., top-k) significantly impacts performance. Potential vulnerabilities include retrieval poisoning, where malicious data injected into the knowledge base can lead to biased or incorrect LLM outputs. Furthermore, the computational overhead of retrieval can introduce latency, a critical trade-off for real-time applications. Evaluating RAG systems requires metrics beyond standard LLM benchmarks, focusing on retrieval precision/recall and the factual consistency of the generated output with the retrieved context.

🔗 Termes associés

En savoir plus:

📚 Sources