Архітектура Трансформер
Архітектура нейромереж, заснована на механізмі уваги.
Архітектура Трансформер, представлена в статті «Attention Is All You Need» (2017), відмовилася від послідовної обробки рекурентних нейромереж (RNN) на користь механізму «Self-Attention» (самоуваги). Це дозволяє моделі оцінювати важливість різних слів у реченні одночасно, незалежно від відстані між ними. Цей паралелізм робить Трансформери значно швидшими в навчанні та кращими у розумінні довгих контекстних зв'язків, ставши основою для сучасних Великих Мовних Моделей (LLM), таких як GPT та BERT.
### Компоненти
- Encoder: Обробляє вхідні дані.
- Decoder: Генерує вихідні дані.
- Attention: Ключовий механізм для зв'язку слів.
graph LR
Center["Архітектура Трансформер"]:::main
Rel_attention_mechanism["attention-mechanism"]:::related -.-> Center
click Rel_attention_mechanism "/terms/attention-mechanism"
Rel_transformer["transformer"]:::related -.-> Center
click Rel_transformer "/terms/transformer"
Rel_natural_language_processing["natural-language-processing"]:::related -.-> Center
click Rel_natural_language_processing "/terms/natural-language-processing"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Перевірка знань
🧒 Простими словами
Уявіть, що ви читаєте речення. Замість того, щоб читати по одному слову по черзі, Трансформер дивиться на все речення відразу і проводить лінії між пов'язаними словами (наприклад, «банк» і «гроші»), щоб миттєво зрозуміти контекст.
🤓 Expert Deep Dive
Архітектура складається з Енкодера та Декодера. Ключові елементи: 1) Multi-Head Self-Attention (вивчення зв'язків), 2) Positional Encoding (інформація про порядок слів), 3) Feed-Forward Networks. GPT використовує тільки стек Декодера (авторегресійний), а BERT — тільки стек Енкодера.