Retrieval Augmented Generation (RAG)
Retrieval-Augmented Generation (RAG) ist ein KI-Framework, das die Genauigkeit und Zuverlässigkeit von Large Language Models (LLMs) verbessert, indem es externe Wissensquellen während des Generierungsprozesses integriert.
RAG-Systeme kombinieren die Stärken der Informationsbeschaffung und Texterzeugung. Sie rufen zunächst relevante Dokumente oder Daten aus einer externen Wissensbasis basierend auf der Anfrage eines Benutzers ab. Dann erweitern sie die Eingabe des LLM mit diesen abgerufenen Informationen, wodurch das Modell in die Lage versetzt wird, fundiertere und kontextuell genauere Antworten zu generieren. Dieser Ansatz reduziert die Abhängigkeit vom internen Wissen des LLM, das möglicherweise veraltet oder unvollständig ist, und verbessert die Gesamtqualität und Vertrauenswürdigkeit der generierten Ausgabe. RAG ist besonders nützlich für Aufgaben, die aktuelle Informationen oder spezialisiertes Wissen erfordern.
graph LR
Center["Retrieval Augmented Generation (RAG)"]:::main
Pre_large_language_model["large-language-model"]:::pre --> Center
click Pre_large_language_model "/terms/large-language-model"
Pre_vector_database["vector-database"]:::pre --> Center
click Pre_vector_database "/terms/vector-database"
Pre_semantic_search["semantic-search"]:::pre --> Center
click Pre_semantic_search "/terms/semantic-search"
Center --> Child_rag_pipeline["rag-pipeline"]:::child
click Child_rag_pipeline "/terms/rag-pipeline"
Center --> Child_context_window["context-window"]:::child
click Child_context_window "/terms/context-window"
Rel_prompt_engineering["prompt-engineering"]:::related -.-> Center
click Rel_prompt_engineering "/terms/prompt-engineering"
Rel_generative_ai_agents["generative-ai-agents"]:::related -.-> Center
click Rel_generative_ai_agents "/terms/generative-ai-agents"
Rel_rlhf["rlhf"]:::related -.-> Center
click Rel_rlhf "/terms/rlhf"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Wissenstest
🧒 Erkläre es wie einem 5-Jährigen
🌍 Imagine you're taking a test. A regular AI tries to answer from memory alone. An AI using [RAG](/de/terms/rag) is allowed to look at an open book (the [database](/de/terms/database)) specifically related to the question before it writes down the answer. This makes it much less likely to make things up.
🤓 Expert Deep Dive
RAG architectures fundamentally shift LLM interaction from pure parametric recall to a hybrid parametric-retrieval paradigm. The core challenge lies in optimizing the retrieval-augmentation loop for relevance and efficiency. Techniques like dense passage retrieval (DPR) using bi-encoders, or hybrid search combining keyword and semantic matching, are crucial. Advanced RAG implementations explore iterative retrieval, query decomposition for complex questions, and re-ranking mechanisms to refine retrieved context. The choice of vector [database](/de/terms/vector-database), embedding model, chunking strategy, and retrieval parameters (e.g., top-k) significantly impacts performance. Potential vulnerabilities include retrieval poisoning, where malicious data injected into the knowledge base can lead to biased or incorrect LLM outputs. Furthermore, the computational overhead of retrieval can introduce latency, a critical trade-off for real-time applications. Evaluating RAG systems requires metrics beyond standard LLM benchmarks, focusing on retrieval precision/recall and the factual consistency of the generated output with the retrieved context.