Le token

Dans le contexte de l'IA et de la PNL, un jeton est une unité fondamentale de texte, telle qu'un mot, une partie d'un mot ou une marque de ponctuation, utilisée pour le traitement et l'analyse.

La tokenisation est le processus de décomposition d'un texte en ces tokens. Il s'agit d'une étape cruciale dans la préparation des données textuelles pour les modèles d'apprentissage automatique, permettant aux modèles de comprendre et de traiter le texte. Les règles spécifiques de tokenisation peuvent varier en fonction de la tâche et du modèle utilisé, différents tokenizers produisant des résultats différents.

Les méthodes de tokenisation vont de la simple séparation par espaces blancs à des techniques plus sophistiquées qui considèrent les unités de sous-mots ou les représentations au niveau des caractères. Le choix du tokenizer a un impact significatif sur les performances des modèles NLP. Par exemple, un tokenizer basé sur les mots pourrait traiter 'chat' et 'chats' comme des tokens distincts, tandis qu'un tokenizer de sous-mots pourrait décomposer 'chats' en 'chat' et 's'.

        graph LR
  Center["Le token"]:::main
  Pre_cryptography["cryptography"]:::pre --> Center
  click Pre_cryptography "/terms/cryptography"
  Rel_machine_learning["machine-learning"]:::related -.-> Center
  click Rel_machine_learning "/terms/machine-learning"
  Rel_token["token"]:::related -.-> Center
  click Rel_token "/terms/token"
  Rel_tokenizer["tokenizer"]:::related -.-> Center
  click Rel_tokenizer "/terms/tokenizer"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Test de connaissances

1 / 3

🧒 Explique-moi comme si j'avais 5 ans

A [token](/fr/terms/token) is like a single Lego brick that makes up a sentence. AI breaks sentences into these bricks (words, parts of words, or punctuation) so it can understand and build new sentences.

🤓 Expert Deep Dive

Tokenization is a critical preprocessing step in NLP pipelines. Subword tokenization algorithms like BPE, WordPiece, and SentencePiece have become dominant because they balance vocabulary size with the ability to represent rare words and morphology. BPE iteratively merges frequent pairs of characters or bytes, while WordPiece uses a likelihood-based approach. SentencePiece treats text as a sequence of Unicode characters and learns subword units directly, making it language-agnostic. The choice of tokenizer impacts downstream tasks: a word-level tokenizer struggles with OOV words, while character-level tokenizers result in very long sequences. Subword tokenizers offer a compromise, allowing models to handle morphology (e.g., 'running' -> 'run', '##ing') and unknown words by composing them from known subwords. The mapping from tokens to numerical IDs and then to dense vector embeddings (e.g., Word2Vec, GloVe, or contextual embeddings from Transformers) is where semantic meaning is encoded for the model.

🔗 Termes associés

Prérequis:

📚 Sources