Kontextfenster

Das Kontextfenster in einem Large Language Model (LLM) bezieht sich auf die Textmenge, die das Modell bei der Generierung einer Antwort berücksichtigen kann, und beeinflusst seine Fähigkeit, kohärenten Text zu verstehen und zu generieren.

🌐 Begriffe in anderen Sprachen:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

Das Kontextfenster eines Large Language Models (LLM) definiert die maximale Anzahl von Tokens (Wörter, Teilwörter oder Zeichen), die das Modell gleichzeitig verarbeiten und berücksichtigen kann, wenn es eine Ausgabe generiert. Dieses Fenster fungiert als Kurzzeitgedächtnis des Modells und umfasst den Eingabe-Prompt und jeden vorherigen generierten Text. Ein größeres Kontextfenster ermöglicht es dem LLM, mehr Informationen aus dem Gespräch oder Dokument zu speichern, was zu verbesserter Kohärenz, Relevanz und Verständnis komplexer Anweisungen oder langer Erzählungen führt. Beispielsweise kann ein Modell mit einem Kontextfenster von 4.096 Tokens bis zu etwa 3.000 Wörter Text "merken". Die Architektur des LLM, insbesondere der Aufmerksamkeitsmechanismus (z. B. Self-Attention in Transformers), bestimmt, wie effizient es dieses Fenster nutzen kann. Es gibt Kompromisse: Größere Kontextfenster erfordern erheblich mehr Rechenressourcen (Speicher und Rechenleistung) und können zu erhöhter Latenz während der Inferenz führen. Darüber hinaus können Modelle mit Phänomenen wie "Lost in the Middle" (Verloren in der Mitte) zu kämpfen haben, bei denen Informationen in der Mitte eines sehr langen Kontexts weniger effektiv genutzt werden als Informationen am Anfang oder Ende. Techniken wie Sliding Window Attention, Sparse Attention oder Retrieval-Augmented Generation (RAG) werden eingesetzt, um diese Einschränkungen zu mildern und eine effektive Kontextverarbeitung zu erweitern.

        graph LR
  Center["Kontextfenster"]:::main
  Pre_computer_science["computer-science"]:::pre --> Center
  click Pre_computer_science "/terms/computer-science"
  Rel_large_language_model["large-language-model"]:::related -.-> Center
  click Rel_large_language_model "/terms/large-language-model"
  Rel_hallucination_ai["hallucination-ai"]:::related -.-> Center
  click Rel_hallucination_ai "/terms/hallucination-ai"
  Rel_token["token"]:::related -.-> Center
  click Rel_token "/terms/token"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Wissenstest

1 / 3

🧒 Erkläre es wie einem 5-Jährigen

Es ist wie das Notizbuch des [LLM](/de/terms/llm); es kann sich nur merken, was auf die aktuelle Seite passt, wenn es seine Antwort schreibt.

🤓 Expert Deep Dive

Die Größe des Kontextfensters, typischerweise in Tokens gemessen, ist ein kritischer Architekturparameter, der die Fähigkeit eines LLM, Aufgaben mit Langzeitabhängigkeiten auszuführen, direkt beeinflusst. Transformer-basierte Architekturen, die in modernen LLMs dominieren, verwenden Self-Attention-Mechanismen. Die Rechenkomplexität der Standard-Self-Attention skaliert quadratisch ($O(N^2)$) mit der Sequenzlänge $N$ (Größe des Kontextfensters), was sehr große Fenster in Bezug auf Speicher und Berechnung unerschwinglich macht. Dies hat die Forschung an effizienten Aufmerksamkeitsvarianten wie Sparse Attention (z. B. Longformer, BigBird), Linear Attention und Retrieval-Augmented Generation (RAG) vorangetrieben. RAG erweitert beispielsweise das LLM um ein externes Wissensabrufsystem und erweitert effektiv seinen zugänglichen "Kontext" über das feste Fenster hinaus, indem es dynamisch relevante Informationen abruft. Architektonische Entscheidungen wie Positionskodierungen (z. B. absolut, relativ, rotativ) beeinflussen auch, wie gut das Modell Token-Positionen innerhalb des Fensters interpretieren kann. Grenzfälle sind das katastrophale Vergessen beim Fine-Tuning auf neuen Daten und das bereits erwähnte "Lost in the Middle"-Problem, bei dem die Aufmerksamkeitswerte für Tokens, die weit vom Anfang oder Ende des Prompts entfernt sind, abnehmen können.

🔗 Verwandte Begriffe

Voraussetzungen:

computer-science

📚 Quellen

1. Scaling Language Models with Gemini

2. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

3. Attention is All You Need

4. Scaling Language Models with Sparse Mixture-of-Experts

5. Long Context Language Modeling with Transformers

6. Longformer: The Long-Document Transformer

7. Big Bird: Transformers for Longer Sequences

8. GPT-4 Technical Report

9. Larger Language Models and Long Context