Latência de Inferência

O tempo que um modelo de ML leva para processar uma entrada e gerar uma previsão.

🌐 Termos em outros idiomas:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

Fator crucial para experiência do usuário em apps interativos. É impactada pelo tamanho do modelo, hardware e rede. Estratégias de otimização incluem reduzir a precisão numérica (quantization) e usar arquiteturas de modelos mais eficientes (como MobileNet para visão).

        graph LR
  Center["Latência de Inferência"]:::main
  Rel_network_latency["network-latency"]:::related -.-> Center
  click Rel_network_latency "/terms/network-latency"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧒 Explique como se eu tivesse 5 anos

🛡️ It's like waiting for a calculator to show the result after you press 'equals'. In AI, it's the split-second wait for a robot to recognize your face.

🤓 Expert Deep Dive

Inference latency is bounded by compute intensity (FLOPs) and memory bandwidth. Optimization involves operator fusion, constant folding, and precision reduction (Quantization). Tail latency (P99) is critical in distributed systems to prevent cascading timeouts. Benchmarking standards, notably MLPerf, provide comparative data across CPU, GPU, and ASIC architectures (TPUs, NPUs).

❓ Perguntas frequentes

O que causa alta latência?

Modelos muito grandes, hardware insuficiente ou gargalos na transferência de dados.

🧒 Explique como se eu tivesse 5 anos

🤓 Expert Deep Dive

❓ Perguntas frequentes

O que causa alta latência?

📚 Fontes