Token
Im Kontext von KI und NLP ist ein Token eine grundlegende Einheit von Text, wie ein Wort, ein Teil eines Wortes oder ein Punktionszeichen, das für die Verarbeitung und Analyse verwendet wird.
Tokenisierung ist der Prozess, bei dem ein Text in diese Token zerlegt wird. Dies ist ein entscheidender Schritt bei der Vorbereitung von Textdaten für maschinelle Lernmodelle, der es den Modellen ermöglicht, den Text zu verstehen und zu verarbeiten. Die spezifischen Regeln für die Tokenisierung können je nach Aufgabe und dem verwendeten Modell variieren, wobei verschiedene Tokenizer unterschiedliche Ergebnisse liefern.
Tokenisierungsmethoden reichen von einfacher Leerzeichenaufteilung bis hin zu anspruchsvolleren Techniken, die Subworteinheiten oder Zeichenebenen-Darstellungen berücksichtigen. Die Wahl des Tokenizers hat einen erheblichen Einfluss auf die Leistung von NLP-Modellen. Beispielsweise könnte ein wortbasierter Tokenizer 'Katze' und 'Katzen' als separate Token behandeln, während ein Subwort-Tokenizer 'Katzen' in 'Katze' und 'n' aufteilen könnte.
graph LR
Center["Token"]:::main
Pre_cryptography["cryptography"]:::pre --> Center
click Pre_cryptography "/terms/cryptography"
Rel_machine_learning["machine-learning"]:::related -.-> Center
click Rel_machine_learning "/terms/machine-learning"
Rel_token["token"]:::related -.-> Center
click Rel_token "/terms/token"
Rel_tokenizer["tokenizer"]:::related -.-> Center
click Rel_tokenizer "/terms/tokenizer"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Wissenstest
🧒 Erkläre es wie einem 5-Jährigen
A [token](/de/terms/token) is like a single Lego brick that makes up a sentence. AI breaks sentences into these bricks (words, parts of words, or punctuation) so it can understand and build new sentences.
🤓 Expert Deep Dive
Tokenization is a critical preprocessing step in NLP pipelines. Subword tokenization algorithms like BPE, WordPiece, and SentencePiece have become dominant because they balance vocabulary size with the ability to represent rare words and morphology. BPE iteratively merges frequent pairs of characters or bytes, while WordPiece uses a likelihood-based approach. SentencePiece treats text as a sequence of Unicode characters and learns subword units directly, making it language-agnostic. The choice of tokenizer impacts downstream tasks: a word-level tokenizer struggles with OOV words, while character-level tokenizers result in very long sequences. Subword tokenizers offer a compromise, allowing models to handle morphology (e.g., 'running' -> 'run', '##ing') and unknown words by composing them from known subwords. The mapping from tokens to numerical IDs and then to dense vector embeddings (e.g., Word2Vec, GloVe, or contextual embeddings from Transformers) is where semantic meaning is encoded for the model.