Ventana de Contexto
La ventana de contexto en un modelo de lenguaje grande (LLM) se refiere a la cantidad de texto que el modelo puede considerar al generar una respuesta, lo que influye en su capacidad para comprender y generar texto coherente.
La ventana de contexto de un Modelo de Lenguaje Grande (LLM) define el número máximo de tokens (palabras, sub-palabras o caracteres) que el modelo puede procesar y considerar simultáneamente al generar la salida. Esta ventana actúa como la memoria a corto plazo del modelo, abarcando el prompt de entrada y cualquier texto generado previamente. Una ventana de contexto más grande permite al LLM retener más información de la conversación o el documento, lo que conduce a una mayor coherencia, relevancia y comprensión de instrucciones complejas o narrativas extensas. Por ejemplo, un modelo con una ventana de contexto de 4.096 tokens puede "recordar" hasta aproximadamente 3.000 palabras de texto. La arquitectura del LLM, en particular el mecanismo de atención (por ejemplo, auto-atención en Transformers), dicta la eficiencia con la que puede utilizar esta ventana. Existen compensaciones: las ventanas de contexto más grandes requieren significativamente más recursos computacionales (memoria y potencia de procesamiento) y pueden generar una mayor latencia durante la inferencia. Además, los modelos pueden tener dificultades con el fenómeno de "perdido en el medio", donde la información en el medio de un contexto muy largo se utiliza de manera menos efectiva que la información al principio o al final. Se emplean técnicas como la atención de ventana deslizante, la atención dispersa o la generación aumentada por recuperación (RAG) para mitigar estas limitaciones y extender el manejo efectivo del contexto.
graph LR
Center["Ventana de Contexto"]:::main
Pre_computer_science["computer-science"]:::pre --> Center
click Pre_computer_science "/terms/computer-science"
Rel_large_language_model["large-language-model"]:::related -.-> Center
click Rel_large_language_model "/terms/large-language-model"
Rel_hallucination_ai["hallucination-ai"]:::related -.-> Center
click Rel_hallucination_ai "/terms/hallucination-ai"
Rel_token["token"]:::related -.-> Center
click Rel_token "/terms/token"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Prueba de conocimiento
🧒 Explícalo como si tuviera 5 años
Es como el bloc de notas del [LLM](/es/terms/llm); solo puede recordar lo que cabe en la página actual al escribir su respuesta.
🤓 Expert Deep Dive
El tamaño de la ventana de contexto, típicamente medido en tokens, es un parámetro arquitectónico crítico que impacta directamente la capacidad de un LLM para realizar tareas que requieren dependencias de largo alcance. Las arquitecturas basadas en Transformers, dominantes en los LLM modernos, emplean mecanismos de auto-atención. La complejidad computacional de la auto-atención estándar escala cuadráticamente ($O(N^2)$) con la longitud de la secuencia $N$ (tamaño de la ventana de contexto), lo que hace que las ventanas muy grandes sean prohibitivamente costosas en términos de memoria y computación. Esto ha impulsado la investigación en variantes de atención eficientes, como la atención dispersa (por ejemplo, Longformer, BigBird), la atención lineal y la generación aumentada por recuperación (RAG). RAG, por ejemplo, aumenta el LLM con un sistema externo de recuperación de conocimiento, extendiendo efectivamente su "contexto" accesible más allá de la ventana fija al buscar dinámicamente información relevante. Las elecciones arquitectónicas como las codificaciones posicionales (por ejemplo, absolutas, relativas, rotatorias) también influyen en la eficacia con la que el modelo puede interpretar las posiciones de los tokens dentro de la ventana. Los casos extremos incluyen el olvido catastrófico al ajustar modelos con nuevos datos y el problema antes mencionado de "perdido en el medio", donde las puntuaciones de atención pueden degradarse para los tokens ubicados lejos del principio o el final del prompt.