대규모 언어 모델 (LLM)

Large Language Model (LLM)는 광범위한 데이터 세트를 기반으로 인간과 유사한 텍스트를 이해하고 생성하기 위해 신경 네트워크를 사용하는 깊은 학습 알고리즘입니다.

큰 언어 데이터 모델 (LLM)은 인공 지능 모델, 특히 깊은 학습 알고리즘의 한 유형이며, 인간 언어를 이해, 생성 및 조작하도록 설계되었습니다. LLM은 깊은 신경 네트워크 아키텍처, 가장 일반적으로 트랜스퍼러 아키텍처를 사용하여 인공 지능 메커니즘을 사용하여 시퀀스 내에서 다른 단어의 중요성을 무게합니다. 그들은 텍스트와 코드의 거대한 데이터 세트에 훈련되며, 종종 수십억 또는 심지어 수조 개의 단어를 구성하여 복잡한 패턴, 문법, 맥락 및 사실 지식을 배울 수 있습니다. 교육 과정은 일반적으로 감독되지 않은 학습을 포함합니다. 모델은 단어 또는 시퀀스 내에서 다음 단어를 놓치고 예측합니다.

        graph LR
  Center["대규모 언어 모델 (LLM)"]:::main
  Pre_artificial_intelligence["artificial-intelligence"]:::pre --> Center
  click Pre_artificial_intelligence "/terms/artificial-intelligence"
  Pre_machine_learning["machine-learning"]:::pre --> Center
  click Pre_machine_learning "/terms/machine-learning"
  Rel_ai_agent["ai-agent"]:::related -.-> Center
  click Rel_ai_agent "/terms/ai-agent"
  Rel_llm["llm"]:::related -.-> Center
  click Rel_llm "/terms/llm"
  Rel_artificial_intelligence["artificial-intelligence"]:::related -.-> Center
  click Rel_artificial_intelligence "/terms/artificial-intelligence"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧒 5살도 이해할 수 있게 설명

세상의 모든 책을 다 읽은 아주 똑똑한 앵무새라고 생각하면 돼요. 사람처럼 생각하는 건 아니지만, 다음에 올 단어를 맞히는 능력이 너무 뛰어나서 글을 쓰거나 질문에 답할 수 있는 거죠.

🤓 Expert Deep Dive

The [Transformer architecture](/ko/terms/transformer-architecture), with its self-attention mechanism, is foundational to modern LLMs. Self-attention allows the model to dynamically compute representations of tokens based on their relationships within the input sequence, overcoming the limitations of recurrent neural networks (RNNs) in handling long-range dependencies. The scale of LLMs, characterized by parameter counts (e.g., GPT-3 with 175 billion parameters) and dataset size (e.g., Common Crawl), directly correlates with emergent capabilities. Training involves optimizing a loss function (e.g., cross-entropy) over vast corpora, often requiring significant computational resources (TPUs/GPUs). Key challenges include mitigating biases present in training data, controlling model hallucinations (generating factually incorrect information), ensuring safety and ethical alignment, and managing the computational cost of inference. Techniques like quantization and knowledge distillation are employed to create smaller, more efficient models.

🔗 관련 용어

📚 출처