Was ist ein Transformer

Ein Transformer ist ein Deep-Learning-Modell, das Self-Attention-Mechanismen verwendet, um die Wichtigkeit verschiedener Teile der Eingabedaten bei der Verarbeitung zu gewichten. Es zeichnet sich in Aufgaben wie der Verarbeitung natürlicher Sprache aus.

Transformer, eingeführt in dem Papier "Attention is All You Need", haben das Gebiet der KI revolutioniert, insbesondere in der Verarbeitung natürlicher Sprache (NLP). Im Gegensatz zu rekurrenten neuronalen Netzen (RNNs), die Daten sequenziell verarbeiten, verwenden Transformer Self-Attention, um alle Eingabedaten gleichzeitig zu analysieren, was Parallelisierung und schnelleres Training ermöglicht. Diese Architektur ermöglicht es dem Modell, die Beziehungen zwischen verschiedenen Teilen der Eingabe zu verstehen, was zu einer verbesserten Leistung bei Aufgaben wie maschineller Übersetzung, Textzusammenfassung und Fragenbeantwortung führt. Der Self-Attention-Mechanismus ermöglicht es dem Modell, sich auf die relevantesten Teile der Eingabesequenz zu konzentrieren, unabhängig von ihrer Position, und so effektiv Langstreckenabhängigkeiten zu erfassen.

        graph LR
  Center["Was ist ein Transformer"]:::main
  Pre_neural_network["neural-network"]:::pre --> Center
  click Pre_neural_network "/terms/neural-network"
  Pre_linear_algebra["linear-algebra"]:::pre --> Center
  click Pre_linear_algebra "/terms/linear-algebra"
  Pre_deep_learning["deep-learning"]:::pre --> Center
  click Pre_deep_learning "/terms/deep-learning"
  Rel_transformer_architecture["transformer-architecture"]:::related -.-> Center
  click Rel_transformer_architecture "/terms/transformer-architecture"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Wissenstest

1 / 3

🧒 Erkläre es wie einem 5-Jährigen

It's like a super-smart reader that can look at all the words in a sentence at once and figure out which words are most important to understand the meaning of each individual word.

🤓 Expert Deep Dive

The Transformer model's success stems from its ability to model dependencies without regard to their distance in the input or output sequences. The self-attention mechanism computes a weighted sum of value vectors, where the weight assigned to each value is determined by the compatibility (dot product) of its corresponding key vector with a query vector. This allows for direct modeling of relationships between any two positions in the sequence. Multi-head attention further enhances this by allowing the model to jointly attend to information from different representation subspaces at different positions. The encoder uses stacked self-attention and point-wise feed-forward layers, while the decoder adds masked self-attention (to prevent attending to future tokens) and encoder-decoder attention. The absence of recurrence makes it highly parallelizable, leading to faster training times on modern hardware compared to RNNs. However, the quadratic complexity of self-attention with respect to sequence length ($O(n^2)$) remains a bottleneck for very long sequences, prompting research into more efficient variants.

🔗 Verwandte Begriffe

📚 Quellen