Трансформер (Архітектура)

Transformer – це модель глибокого навчання, яка використовує механізми самостійної уваги для оцінки важливості різних частин вхідних даних під час їх обробки, досягаючи успіху в таких завданнях, як обробка природної мови.

🌐 Терміни іншими мовами:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

Трансформери, представлені в статті «Увага – це все, що вам потрібно», здійснили революцію в галузі штучного інтелекту, зокрема в обробці природної мови (NLP). На відміну від рекурентних нейронних мереж (RNN), які обробляють дані послідовно, Transformers використовують самостійну увагу для одночасного аналізу всіх вхідних даних, що дозволяє здійснювати паралелізацію та прискорювати навчання. Ця архітектура дозволяє моделі розуміти взаємозв'язки між різними частинами вхідних даних, що призводить до покращення продуктивності в таких завданнях, як машинний переклад, підсумовування тексту та відповіді на запитання. Механізм самостійної уваги дозволяє моделі зосереджуватися на найбільш релевантних частинах вхідної послідовності, незалежно від їх положення, ефективно захоплюючи довгострокові залежності.

        graph LR
  Center["Трансформер (Архітектура)"]:::main
  Pre_neural_network["neural-network"]:::pre --> Center
  click Pre_neural_network "/terms/neural-network"
  Pre_linear_algebra["linear-algebra"]:::pre --> Center
  click Pre_linear_algebra "/terms/linear-algebra"
  Pre_deep_learning["deep-learning"]:::pre --> Center
  click Pre_deep_learning "/terms/deep-learning"
  Rel_transformer_architecture["transformer-architecture"]:::related -.-> Center
  click Rel_transformer_architecture "/terms/transformer-architecture"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Перевірка знань

1 / 3

🧒 Простими словами

📖 Уявіть, що ви читаєте довге речення. Замість того, щоб читати по одному слову зліва направо, Трансформер бачить усе речення цілком і відразу. Він використовує 'маркер' (увагу), щоб виділити найважливіші слова, які допомагають зрозуміти сенс кожного окремого слова.

🤓 Expert Deep Dive

Ключовим елементом є механізм Self-Attention, який обчислює взаємозв'язок кожного токена з усіма іншими токенами в послідовності. Для збереження інформації про порядок слів використовуються позиційні кодування (Positional Encodings). Архітектура Трансформера стала стандартом не лише в NLP, а й у комп'ютерному зорі (Vision Transformers) та біології (AlphaFold).

🔗 Пов'язані терміни

Попередні знання:

📚 Джерела

1. Attention is All You Need

2. The Transformer: Novel Neural Network Architecture for Language Understanding

3. Language Modeling with Transformers