Tóquio

No contexto da IA e da NLP, um token é uma unidade fundamental de texto, como uma palavra, parte de uma palavra, ou uma marca de pontuação, usada para processamento e análise.

Tokenização é o processo de dividir um texto nesses tokens. Esta é uma etapa crucial na preparação de dados de texto para modelos de aprendizado de máquina, permitindo que os modelos entendam e processem o texto. As regras específicas para tokenização podem variar dependendo da tarefa e do modelo que está sendo usado, com diferentes tokenizadores produzindo resultados diferentes.

Os métodos de tokenização variam de simples divisão por espaço em branco a técnicas mais sofisticadas que consideram unidades de subpalavras ou representações no nível de caracteres. A escolha do tokenizador impacta significativamente o desempenho dos modelos de PNL. Por exemplo, um tokenizador baseado em palavras pode tratar 'gato' e 'gatos' como tokens separados, enquanto um tokenizador de subpalavras pode dividir 'gatos' em 'gato' e 's'.

        graph LR
  Center["Tóquio"]:::main
  Pre_cryptography["cryptography"]:::pre --> Center
  click Pre_cryptography "/terms/cryptography"
  Rel_machine_learning["machine-learning"]:::related -.-> Center
  click Rel_machine_learning "/terms/machine-learning"
  Rel_token["token"]:::related -.-> Center
  click Rel_token "/terms/token"
  Rel_tokenizer["tokenizer"]:::related -.-> Center
  click Rel_tokenizer "/terms/tokenizer"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Teste de conhecimento

1 / 3

🧒 Explique como se eu tivesse 5 anos

A [token](/pt/terms/token) is like a single Lego brick that makes up a sentence. AI breaks sentences into these bricks (words, parts of words, or punctuation) so it can understand and build new sentences.

🤓 Expert Deep Dive

Tokenization is a critical preprocessing step in NLP pipelines. Subword tokenization algorithms like BPE, WordPiece, and SentencePiece have become dominant because they balance vocabulary size with the ability to represent rare words and morphology. BPE iteratively merges frequent pairs of characters or bytes, while WordPiece uses a likelihood-based approach. SentencePiece treats text as a sequence of Unicode characters and learns subword units directly, making it language-agnostic. The choice of tokenizer impacts downstream tasks: a word-level tokenizer struggles with OOV words, while character-level tokenizers result in very long sequences. Subword tokenizers offer a compromise, allowing models to handle morphology (e.g., 'running' -> 'run', '##ing') and unknown words by composing them from known subwords. The mapping from tokens to numerical IDs and then to dense vector embeddings (e.g., Word2Vec, GloVe, or contextual embeddings from Transformers) is where semantic meaning is encoded for the model.

🔗 Termos relacionados

Pré-requisitos:

📚 Fontes