Fenêtre de Contexte
La fenêtre de contexte dans un grand modèle de langage (LLM) fait référence à la quantité de texte que le modèle peut considérer lors de la génération d'une réponse, influençant sa capacité à comprendre et à générer du texte cohérent.
La fenêtre de contexte d'un Grand Modèle de Langage (LLM) définit le nombre maximum de tokens (mots, sous-mots ou caractères) que le modèle peut traiter et considérer simultanément lors de la génération de la sortie. Cette fenêtre agit comme la mémoire à court terme du modèle, englobant l'invite d'entrée et tout texte généré précédemment. Une fenêtre de contexte plus grande permet au LLM de conserver plus d'informations de la conversation ou du document, conduisant à une cohérence, une pertinence et une compréhension améliorées des instructions complexes ou des récits longs. Par exemple, un modèle avec une fenêtre de contexte de 4 096 tokens peut "se souvenir" jusqu'à environ 3 000 mots de texte. L'architecture du LLM, en particulier le mécanisme d'attention (par exemple, l'auto-attention dans les Transformers), dicte l'efficacité avec laquelle il peut utiliser cette fenêtre. Des compromis existent : les fenêtres de contexte plus grandes nécessitent des ressources de calcul considérablement plus importantes (mémoire et puissance de traitement) et peuvent entraîner une latence accrue lors de l'inférence. De plus, les modèles peuvent être confrontés au phénomène de "perdu au milieu", où les informations au milieu d'un contexte très long sont moins efficacement utilisées que celles au début ou à la fin. Des techniques telles que l'attention à fenêtre glissante, l'attention éparse ou la génération augmentée par récupération (RAG) sont employées pour atténuer ces limitations et étendre la gestion efficace du contexte.
graph LR
Center["Fenêtre de Contexte"]:::main
Pre_computer_science["computer-science"]:::pre --> Center
click Pre_computer_science "/terms/computer-science"
Rel_large_language_model["large-language-model"]:::related -.-> Center
click Rel_large_language_model "/terms/large-language-model"
Rel_hallucination_ai["hallucination-ai"]:::related -.-> Center
click Rel_hallucination_ai "/terms/hallucination-ai"
Rel_token["token"]:::related -.-> Center
click Rel_token "/terms/token"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Test de connaissances
🧒 Explique-moi comme si j'avais 5 ans
C'est comme le bloc-notes du [LLM](/fr/terms/llm) ; il ne peut se souvenir que de ce qui rentre sur la page actuelle lorsqu'il écrit sa réponse.
🤓 Expert Deep Dive
La taille de la fenêtre de contexte, généralement mesurée en tokens, est un paramètre architectural critique qui a un impact direct sur la capacité d'un LLM à effectuer des tâches nécessitant des dépendances à longue portée. Les architectures basées sur les Transformers, dominantes dans les LLM modernes, utilisent des mécanismes d'auto-attention. La complexité computationnelle de l'auto-attention standard est quadratique ($O(N^2)$) par rapport à la longueur de la séquence $N$ (taille de la fenêtre de contexte), rendant les très grandes fenêtres prohibitivement coûteuses en termes de mémoire et de calcul. Cela a stimulé la recherche sur des variantes d'attention efficaces, telles que l'attention éparse (par exemple, Longformer, BigBird), l'attention linéaire et la génération augmentée par récupération (RAG). Le RAG, par exemple, augmente le LLM avec un système externe de récupération de connaissances, étendant efficacement son "contexte" accessible au-delà de la fenêtre fixe en récupérant dynamiquement les informations pertinentes. Les choix architecturaux tels que les encodages positionnels (par exemple, absolus, relatifs, rotatifs) influencent également la manière dont le modèle peut interpréter les positions des tokens dans la fenêtre. Les cas limites incluent l'oubli catastrophique lors du fine-tuning sur de nouvelles données et le problème susmentionné de "perdu au milieu", où les scores d'attention peuvent se dégrader pour les tokens situés loin du début ou de la fin de l'invite.