추론 지연 시간
머신러닝 모델이 입력을 받아 결과를 반환하는 데 걸리는 시간입니다.
실시간 서비스의 품질을 결정짓는 핵심 요소입니다. 모델이 복잡할수록, 데이터가 많을수록 지연 시간이 길어집니다. 이를 줄이기 위해 모델 경량화(Quantization), 전용 AI 칩셋(NPU) 사용, 또는 클라우드 대신 엣지 컴퓨팅을 활용하는 방법이 있습니다.
graph LR
Center["추론 지연 시간"]:::main
Rel_network_latency["network-latency"]:::related -.-> Center
click Rel_network_latency "/terms/network-latency"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧒 5살도 이해할 수 있게 설명
🛡️ It's like waiting for a calculator to show the result after you press 'equals'. In AI, it's the split-second wait for a robot to recognize your face.
🤓 Expert Deep Dive
Inference latency is bounded by compute intensity (FLOPs) and memory bandwidth. Optimization involves operator fusion, constant folding, and precision reduction (Quantization). Tail latency (P99) is critical in distributed systems to prevent cascading timeouts. Benchmarking standards, notably MLPerf, provide comparative data across CPU, GPU, and ASIC architectures (TPUs, NPUs).
❓ 자주 묻는 질문
지연 시간과 처리량(Throughput)의 차이는?
지연 시간은 한 건의 처리에 걸리는 속도이고, 처리량은 단위 시간당 처리할 수 있는 데이터의 양입니다.