大規模言語モデル(LLM / Large Language Model)

大規模言語モデル(LLM)は、膨大なデータセットに基づいて、ニューラルネットワークを使用して人間のようなテキストを理解し、生成する深層学習アルゴリズムです。

大型言語データモデル(LLM)は、人間の言語を理解し、生成し、操作するために設計された人工知能モデル、特に深い学習アルゴリズムの一種です。LLMは、深いニューラルネットワークアーキテクチャ、最も一般的にトランスフォーマーアーキテクチャに基づいて構築されており、人工知能のメカニズムを使用して、順序で異なる単語の重要性を重視します。彼らはテキストやコードの大規模なデータセットに訓練されています。このプレトレーニング段階は、しばしば数十億、あるいは数十億の単語を含むことで、彼らが複雑なパターン、文法、文脈、および事実知識を学ぶことができます。トレーニングプロセス

        graph LR
  Center["大規模言語モデル(LLM / Large Language Model)"]:::main
  Pre_artificial_intelligence["artificial-intelligence"]:::pre --> Center
  click Pre_artificial_intelligence "/terms/artificial-intelligence"
  Pre_machine_learning["machine-learning"]:::pre --> Center
  click Pre_machine_learning "/terms/machine-learning"
  Rel_ai_agent["ai-agent"]:::related -.-> Center
  click Rel_ai_agent "/terms/ai-agent"
  Rel_llm["llm"]:::related -.-> Center
  click Rel_llm "/terms/llm"
  Rel_artificial_intelligence["artificial-intelligence"]:::related -.-> Center
  click Rel_artificial_intelligence "/terms/artificial-intelligence"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧒 5歳でもわかるように説明

「世界中の本をすべて読んだ、ものすごく頭の良いオウム」のようなものです。人間のように考えているわけではありませんが、次に来る言葉を予想するのが天才的に上手なので、物語を作ったり質問に答えたりできます。

🤓 Expert Deep Dive

The [Transformer architecture](/ja/terms/transformer-architecture), with its self-attention mechanism, is foundational to modern LLMs. Self-attention allows the model to dynamically compute representations of tokens based on their relationships within the input sequence, overcoming the limitations of recurrent neural networks (RNNs) in handling long-range dependencies. The scale of LLMs, characterized by parameter counts (e.g., GPT-3 with 175 billion parameters) and dataset size (e.g., Common Crawl), directly correlates with emergent capabilities. Training involves optimizing a loss function (e.g., cross-entropy) over vast corpora, often requiring significant computational resources (TPUs/GPUs). Key challenges include mitigating biases present in training data, controlling model hallucinations (generating factually incorrect information), ensuring safety and ethical alignment, and managing the computational cost of inference. Techniques like quantization and knowledge distillation are employed to create smaller, more efficient models.

🔗 関連用語

📚 出典