Großes Sprachmodell (LLM)

Ein Large Language Model (LLM) ist ein Deep-Learning-Algorithmus, der ein neuronales Netz verwendet, um menschenähnlichen Text zu verstehen und zu generieren, basierend auf riesigen Datensätzen.

🌐 Begriffe in anderen Sprachen:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

Ein großes Sprachdatenmodell (LLM) ist eine Art von künstlichem Intelligenzmodell, speziell ein Deep Learning-Algorithmus, entwickelt, um menschliche Sprache zu verstehen, zu generieren und zu manipulieren. LLMs werden auf tiefen neuronalen Netzwerkarchitekturen, am häufigsten der Transformator-Architektur, gebaut, die Selbstaufmerksamkeitsmechanismen verwendet, um die Bedeutung verschiedener Wörter in einer Sequenz zu wiegen. Sie werden auf massiven Datensätzen von Text und Code trainiert, die oft Milliarden oder sogar Billionen von Wörtern umfassen, so dass sie komplizierte Muster, Grammatik, Kontext und Tatsachenwissen lernen können. Der Trainingsprozess beinhaltet typischerweise unbeaufsichtigtes Lernen, bei dem das Modell

        graph LR
  Center["Großes Sprachmodell (LLM)"]:::main
  Pre_artificial_intelligence["artificial-intelligence"]:::pre --> Center
  click Pre_artificial_intelligence "/terms/artificial-intelligence"
  Pre_machine_learning["machine-learning"]:::pre --> Center
  click Pre_machine_learning "/terms/machine-learning"
  Rel_ai_agent["ai-agent"]:::related -.-> Center
  click Rel_ai_agent "/terms/ai-agent"
  Rel_llm["llm"]:::related -.-> Center
  click Rel_llm "/terms/llm"
  Rel_artificial_intelligence["artificial-intelligence"]:::related -.-> Center
  click Rel_artificial_intelligence "/terms/artificial-intelligence"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧒 Erkläre es wie einem 5-Jährigen

Ein Papagei, der alles gelesen hat.

🤓 Expert Deep Dive

The [Transformer architecture](/de/terms/transformer-architecture), with its self-attention mechanism, is foundational to modern LLMs. Self-attention allows the model to dynamically compute representations of tokens based on their relationships within the input sequence, overcoming the limitations of recurrent neural networks (RNNs) in handling long-range dependencies. The scale of LLMs, characterized by parameter counts (e.g., GPT-3 with 175 billion parameters) and dataset size (e.g., Common Crawl), directly correlates with emergent capabilities. Training involves optimizing a loss function (e.g., cross-entropy) over vast corpora, often requiring significant computational resources (TPUs/GPUs). Key challenges include mitigating biases present in training data, controlling model hallucinations (generating factually incorrect information), ensuring safety and ethical alignment, and managing the computational cost of inference. Techniques like quantization and knowledge distillation are employed to create smaller, more efficient models.

🔗 Verwandte Begriffe

Voraussetzungen:

🧒 Erkläre es wie einem 5-Jährigen

🤓 Expert Deep Dive

🔗 Verwandte Begriffe

📚 Quellen