¿Qué es el Mecanismo de Atención

Un mecanismo de atención es una técnica en redes neuronales que permite al modelo enfocarse en las partes más relevantes de la entrada al producir una salida.

🌐 Términos en otros idiomas:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

El mecanismo de atención es una técnica utilizada principalmente en modelos de aprendizaje profundo, especialmente para tareas de secuencia a secuencia como traducción automática, resumen de texto y subtitulado de imágenes. Aborda la limitación de los modelos tradicionales (como las RNN básicas) que luchan por manejar secuencias de entrada largas al comprimir toda la información en un vector de contexto de tamaño fijo. La atención permite que el modelo se centre dinámicamente en partes específicas de la secuencia de entrada al generar cada parte de la secuencia de salida. Arquitectónicamente, implica calcular 'puntuaciones de atención' entre el estado actual del decodificador y cada elemento de la secuencia de entrada codificada. Estas puntuaciones se normalizan (a menudo utilizando una función softmax) para producir 'pesos de atención'. Una suma ponderada de los elementos de entrada, utilizando estos pesos, forma un vector de contexto que es específico para el paso de decodificación actual. Esto permite que el modelo 'preste atención' a la información de entrada más relevante, mejorando el rendimiento en tareas que requieren la comprensión de dependencias a largo plazo. Las contrapartidas incluyen una mayor complejidad computacional y uso de memoria en comparación con los modelos no atencionales, pero las ganancias en precisión y la capacidad de manejar secuencias más largas suelen ser significativas.

        graph LR
  Center["¿Qué es el Mecanismo de Atención"]:::main
  Pre_deep_learning["deep-learning"]:::pre --> Center
  click Pre_deep_learning "/terms/deep-learning"
  Pre_linear_algebra["linear-algebra"]:::pre --> Center
  click Pre_linear_algebra "/terms/linear-algebra"
  Rel_transformer_architecture["transformer-architecture"]:::related -.-> Center
  click Rel_transformer_architecture "/terms/transformer-architecture"
  Rel_context_window["context-window"]:::related -.-> Center
  click Rel_context_window "/terms/context-window"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Prueba de conocimiento

1 / 3

🧒 Explícalo como si tuviera 5 años

Es como cuando estás leyendo una historia larga y vuelves a mirar una frase específica que leíste antes para ayudarte a entender lo que está pasando ahora.

🤓 Expert Deep Dive

Los mecanismos de atención mejoran fundamentalmente el modelado de secuencias al permitir la recuperación de información de longitud variable y dependiente del contexto. Arquitectónicamente, introducen un paradigma de consulta-clave-valor (QKV). El estado actual del decodificador suele servir como consulta, mientras que los estados ocultos del codificador actúan como claves y valores. La puntuación de alineación entre la consulta y cada clave determina el peso de atención a través de una función de puntuación (por ejemplo, producto punto, aditivo). Esta distribución de pesos permite al modelo calcular un vector de contexto como una suma ponderada de valores, recuperando efectivamente la información relevante. La autoatención, tal como se utiliza en los Transformers, aplica este mecanismo no solo entre el codificador y el decodificador, sino también dentro de la propia secuencia de entrada, lo que permite al modelo ponderar la importancia de diferentes palabras en relación con las demás. Esta computación paralelizable y la capacidad de capturar dependencias a largo plazo sin recurrencia son ventajas arquitectónicas clave. Las vulnerabilidades pueden surgir de ataques adversarios que manipulan los patrones de atención o de sesgos aprendidos de distribuciones de datos sesgadas.

🔗 Términos relacionados

Requisitos previos:

📚 Fuentes

1. Neural Machine Translation by Jointly Learning to Align and Translate

2. Transformer model for language understanding

3. Attention is All You Need

4. The Transformer: Novel Neural Network Architecture for Language Understanding

5. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention