Ventana de Contexto

La ventana de contexto en un modelo de lenguaje grande (LLM) se refiere a la cantidad de texto que el modelo puede considerar al generar una respuesta, lo que influye en su capacidad para comprender y generar texto coherente.

🌐 Términos en otros idiomas:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

La ventana de contexto de un Modelo de Lenguaje Grande (LLM) define el número máximo de tokens (palabras, sub-palabras o caracteres) que el modelo puede procesar y considerar simultáneamente al generar la salida. Esta ventana actúa como la memoria a corto plazo del modelo, abarcando el prompt de entrada y cualquier texto generado previamente. Una ventana de contexto más grande permite al LLM retener más información de la conversación o el documento, lo que conduce a una mayor coherencia, relevancia y comprensión de instrucciones complejas o narrativas extensas. Por ejemplo, un modelo con una ventana de contexto de 4.096 tokens puede "recordar" hasta aproximadamente 3.000 palabras de texto. La arquitectura del LLM, en particular el mecanismo de atención (por ejemplo, auto-atención en Transformers), dicta la eficiencia con la que puede utilizar esta ventana. Existen compensaciones: las ventanas de contexto más grandes requieren significativamente más recursos computacionales (memoria y potencia de procesamiento) y pueden generar una mayor latencia durante la inferencia. Además, los modelos pueden tener dificultades con el fenómeno de "perdido en el medio", donde la información en el medio de un contexto muy largo se utiliza de manera menos efectiva que la información al principio o al final. Se emplean técnicas como la atención de ventana deslizante, la atención dispersa o la generación aumentada por recuperación (RAG) para mitigar estas limitaciones y extender el manejo efectivo del contexto.

        graph LR
  Center["Ventana de Contexto"]:::main
  Pre_computer_science["computer-science"]:::pre --> Center
  click Pre_computer_science "/terms/computer-science"
  Rel_large_language_model["large-language-model"]:::related -.-> Center
  click Rel_large_language_model "/terms/large-language-model"
  Rel_hallucination_ai["hallucination-ai"]:::related -.-> Center
  click Rel_hallucination_ai "/terms/hallucination-ai"
  Rel_token["token"]:::related -.-> Center
  click Rel_token "/terms/token"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Prueba de conocimiento

1 / 3

🧒 Explícalo como si tuviera 5 años

Es como el bloc de notas del [LLM](/es/terms/llm); solo puede recordar lo que cabe en la página actual al escribir su respuesta.

🤓 Expert Deep Dive

El tamaño de la ventana de contexto, típicamente medido en tokens, es un parámetro arquitectónico crítico que impacta directamente la capacidad de un LLM para realizar tareas que requieren dependencias de largo alcance. Las arquitecturas basadas en Transformers, dominantes en los LLM modernos, emplean mecanismos de auto-atención. La complejidad computacional de la auto-atención estándar escala cuadráticamente ($O(N^2)$) con la longitud de la secuencia $N$ (tamaño de la ventana de contexto), lo que hace que las ventanas muy grandes sean prohibitivamente costosas en términos de memoria y computación. Esto ha impulsado la investigación en variantes de atención eficientes, como la atención dispersa (por ejemplo, Longformer, BigBird), la atención lineal y la generación aumentada por recuperación (RAG). RAG, por ejemplo, aumenta el LLM con un sistema externo de recuperación de conocimiento, extendiendo efectivamente su "contexto" accesible más allá de la ventana fija al buscar dinámicamente información relevante. Las elecciones arquitectónicas como las codificaciones posicionales (por ejemplo, absolutas, relativas, rotatorias) también influyen en la eficacia con la que el modelo puede interpretar las posiciones de los tokens dentro de la ventana. Los casos extremos incluyen el olvido catastrófico al ajustar modelos con nuevos datos y el problema antes mencionado de "perdido en el medio", donde las puntuaciones de atención pueden degradarse para los tokens ubicados lejos del principio o el final del prompt.

🔗 Términos relacionados

Requisitos previos:

computer-science

📚 Fuentes

1. Scaling Language Models with Gemini

2. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

3. Attention is All You Need

4. Scaling Language Models with Sparse Mixture-of-Experts

5. Long Context Language Modeling with Transformers

6. Longformer: The Long-Document Transformer

7. Big Bird: Transformers for Longer Sequences

8. GPT-4 Technical Report

9. Larger Language Models and Long Context