¿Qué es Transformer
Un Transformer es un modelo de aprendizaje profundo que emplea mecanismos de autoatención para ponderar la importancia de las diferentes partes de los datos de entrada al procesarlos, destacando en tareas como el procesamiento del lenguaje natural.
Los Transformers, introducidos en el artículo "Attention is All You Need", han revolucionado el campo de la IA, particularmente en el procesamiento del lenguaje natural (PLN). A diferencia de las redes neuronales recurrentes (RNN) que procesan los datos secuencialmente, los Transformers utilizan la autoatención para analizar todos los datos de entrada simultáneamente, lo que permite la paralelización y una formación más rápida. Esta arquitectura permite que el modelo comprenda las relaciones entre las diferentes partes de la entrada, lo que conduce a un mejor rendimiento en tareas como la traducción automática, el resumen de texto y la respuesta a preguntas. El mecanismo de autoatención permite que el modelo se centre en las partes más relevantes de la secuencia de entrada, independientemente de su posición, capturando eficazmente las dependencias de largo alcance.
graph LR
Center["¿Qué es Transformer"]:::main
Pre_neural_network["neural-network"]:::pre --> Center
click Pre_neural_network "/terms/neural-network"
Pre_linear_algebra["linear-algebra"]:::pre --> Center
click Pre_linear_algebra "/terms/linear-algebra"
Pre_deep_learning["deep-learning"]:::pre --> Center
click Pre_deep_learning "/terms/deep-learning"
Rel_transformer_architecture["transformer-architecture"]:::related -.-> Center
click Rel_transformer_architecture "/terms/transformer-architecture"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Prueba de conocimiento
🧒 Explícalo como si tuviera 5 años
It's like a super-smart reader that can look at all the words in a sentence at once and figure out which words are most important to understand the meaning of each individual word.
🤓 Expert Deep Dive
The Transformer model's success stems from its ability to model dependencies without regard to their distance in the input or output sequences. The self-attention mechanism computes a weighted sum of value vectors, where the weight assigned to each value is determined by the compatibility (dot product) of its corresponding key vector with a query vector. This allows for direct modeling of relationships between any two positions in the sequence. Multi-head attention further enhances this by allowing the model to jointly attend to information from different representation subspaces at different positions. The encoder uses stacked self-attention and point-wise feed-forward layers, while the decoder adds masked self-attention (to prevent attending to future tokens) and encoder-decoder attention. The absence of recurrence makes it highly parallelizable, leading to faster training times on modern hardware compared to RNNs. However, the quadratic complexity of self-attention with respect to sequence length ($O(n^2)$) remains a bottleneck for very long sequences, prompting research into more efficient variants.