Архитектура Трансформер

Архитектура нейросетей, основанная на механизме внимания.

Архитектура Трансформер, представленная в статье «Attention Is All You Need» (2017), отказалась от последовательной обработки рекуррентных нейросетей (RNN) в пользу механизма «Self-Attention» (самовнимания). Это позволяет модели оценивать важность различных слов в предложении одновременно, независимо от расстояния между ними. Этот параллелизм делает Трансформеры значительно быстрее в обучении и лучше в понимании длинных контекстных связей, став основой для современных Больших Языковых Моделей (LLM), таких как GPT и BERT.

### Компоненти
- Encoder: Обрабатывает входные данные.
- Decoder: Генерирует выходные данные.
- Attention: Ключевой механизм для связи слов.

        graph LR
  Center["Архитектура Трансформер"]:::main
  Rel_attention_mechanism["attention-mechanism"]:::related -.-> Center
  click Rel_attention_mechanism "/terms/attention-mechanism"
  Rel_transformer["transformer"]:::related -.-> Center
  click Rel_transformer "/terms/transformer"
  Rel_natural_language_processing["natural-language-processing"]:::related -.-> Center
  click Rel_natural_language_processing "/terms/natural-language-processing"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Проверка знаний

1 / 1

🧒 Простыми словами

Представьте, что вы читаете предложение. Вместо того, чтобы читать по одному слову по очереди, Трансформер смотрит на все предложение сразу и проводит линии между связанными словами (например, «банк» и «деньги»), чтобы мгновенно понять контекст.

🤓 Expert Deep Dive

Архитектура состоит из Энкодера и Декодера. Ключевые элементы: 1) Multi-Head Self-Attention (изучение связей), 2) Positional Encoding (информация о порядке слов), 3) Feed-Forward Networks. GPT использует только стек Декодера (авторегрессионный), а BERT — только стек Энкодера.

📚 Источники