Qu'est-ce qu'un Transformer

Un Transformer est un modèle d'apprentissage profond qui utilise des mécanismes d'auto-attention pour pondérer l'importance des différentes parties des données d'entrée lors de leur traitement, excellant dans des tâches telles que le traitement du langage naturel.

🌐 Termes dans d'autres langues:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

Les Transformers, introduits dans l'article "Attention is All You Need", ont révolutionné le domaine de l'IA, en particulier dans le traitement du langage naturel (NLP). Contrairement aux réseaux de neurones récurrents (RNN) qui traitent les données de manière séquentielle, les Transformers utilisent l'auto-attention pour analyser toutes les données d'entrée simultanément, ce qui permet la parallélisation et un entraînement plus rapide. Cette architecture permet au modèle de comprendre les relations entre les différentes parties de l'entrée, ce qui conduit à une amélioration des performances dans des tâches telles que la traduction automatique, la synthèse de texte et la réponse aux questions. Le mécanisme d'auto-attention permet au modèle de se concentrer sur les parties les plus pertinentes de la séquence d'entrée, quelle que soit leur position, en capturant efficacement les dépendances à longue portée.

        graph LR
  Center["Qu'est-ce qu'un Transformer "]:::main
  Pre_neural_network["neural-network"]:::pre --> Center
  click Pre_neural_network "/terms/neural-network"
  Pre_linear_algebra["linear-algebra"]:::pre --> Center
  click Pre_linear_algebra "/terms/linear-algebra"
  Pre_deep_learning["deep-learning"]:::pre --> Center
  click Pre_deep_learning "/terms/deep-learning"
  Rel_transformer_architecture["transformer-architecture"]:::related -.-> Center
  click Rel_transformer_architecture "/terms/transformer-architecture"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Test de connaissances

1 / 3

🧒 Explique-moi comme si j'avais 5 ans

It's like a super-smart reader that can look at all the words in a sentence at once and figure out which words are most important to understand the meaning of each individual word.

🤓 Expert Deep Dive

The Transformer model's success stems from its ability to model dependencies without regard to their distance in the input or output sequences. The self-attention mechanism computes a weighted sum of value vectors, where the weight assigned to each value is determined by the compatibility (dot product) of its corresponding key vector with a query vector. This allows for direct modeling of relationships between any two positions in the sequence. Multi-head attention further enhances this by allowing the model to jointly attend to information from different representation subspaces at different positions. The encoder uses stacked self-attention and point-wise feed-forward layers, while the decoder adds masked self-attention (to prevent attending to future tokens) and encoder-decoder attention. The absence of recurrence makes it highly parallelizable, leading to faster training times on modern hardware compared to RNNs. However, the quadratic complexity of self-attention with respect to sequence length ($O(n^2)$) remains a bottleneck for very long sequences, prompting research into more efficient variants.

🔗 Termes associés

Prérequis:

📚 Sources

1. Attention is All You Need

2. The Transformer: Novel Neural Network Architecture for Language Understanding

3. Language Modeling with Transformers