O que é Mecanismo de Atenção

Um mecanismo de atenção é uma técnica em redes neurais que permite ao modelo focar nas partes mais relevantes da entrada ao produzir uma saída.

🌐 Termos em outros idiomas:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

O mecanismo de atenção é uma técnica usada principalmente em modelos de deep learning, especialmente para tarefas de sequência a sequência, como tradução automática, sumarização de texto e legendagem de imagens. Ele aborda a limitação de modelos tradicionais (como RNNs básicas) que lutam para lidar com sequências de entrada longas, comprimindo todas as informações em um vetor de contexto de tamanho fixo. A atenção permite que o modelo se concentre dinamicamente em partes específicas da sequência de entrada ao gerar cada parte da sequência de saída. Arquiteturalmente, envolve o cálculo de 'pontuações de atenção' entre o estado atual do decodificador e cada elemento da sequência de entrada codificada. Essas pontuações são então normalizadas (frequentemente usando uma função softmax) para produzir 'pesos de atenção'. Uma soma ponderada dos elementos de entrada, usando esses pesos, forma um vetor de contexto que é específico para a etapa de decodificação atual. Isso permite que o modelo 'preste atenção' às informações de entrada mais relevantes, melhorando o desempenho em tarefas que exigem a compreensão de dependências de longo alcance. As desvantagens incluem aumento da complexidade computacional e uso de memória em comparação com modelos não atencionais, mas os ganhos em precisão e a capacidade de lidar com sequências mais longas são frequentemente significativos.

        graph LR
  Center["O que é Mecanismo de Atenção"]:::main
  Pre_deep_learning["deep-learning"]:::pre --> Center
  click Pre_deep_learning "/terms/deep-learning"
  Pre_linear_algebra["linear-algebra"]:::pre --> Center
  click Pre_linear_algebra "/terms/linear-algebra"
  Rel_transformer_architecture["transformer-architecture"]:::related -.-> Center
  click Rel_transformer_architecture "/terms/transformer-architecture"
  Rel_context_window["context-window"]:::related -.-> Center
  click Rel_context_window "/terms/context-window"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧠 Teste de conhecimento

1 / 3

🧒 Explique como se eu tivesse 5 anos

É como quando você está lendo uma história longa e volta para uma frase específica que leu antes para ajudar a entender o que está acontecendo agora.

🤓 Expert Deep Dive

Mecanismos de atenção aprimoram fundamentalmente a modelagem de sequências, permitindo a recuperação de informações de comprimento variável e dependentes de contexto. Arquiteturalmente, introduzem um paradigma de consulta-chave-valor (QKV). O estado atual do decodificador geralmente serve como a consulta, enquanto os estados ocultos do codificador atuam como chaves e valores. A pontuação de alinhamento entre a consulta e cada chave determina o peso da atenção por meio de uma função de pontuação (por exemplo, produto escalar, aditivo). Essa distribuição de pesos permite que o modelo calcule um vetor de contexto como uma soma ponderada de valores, recuperando efetivamente informações relevantes. A autoatenção, como usada em Transformers, aplica esse mecanismo não apenas entre codificador e decodificador, mas também dentro da própria sequência de entrada, permitindo que o modelo pondere a importância de diferentes palavras em relação umas às outras. Essa computação paralelizável e a capacidade de capturar dependências de longo alcance sem recorrência são vantagens arquitetônicas chave. Vulnerabilidades podem surgir de ataques adversários que manipulam padrões de atenção ou vieses aprendidos de distribuições de dados distorcidas.

🔗 Termos relacionados

Pré-requisitos:

📚 Fontes

1. Neural Machine Translation by Jointly Learning to Align and Translate

2. Transformer model for language understanding

3. Attention is All You Need

4. The Transformer: Novel Neural Network Architecture for Language Understanding

5. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention