Задержка вывода (Inference Latency)

Время, затрачиваемое ML-моделью на обработку входных данных и генерацию предсказания.

🌐 Термины на других языках:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

Критична для интерактивных приложений. Состоит из времени передачи данных, вычислений модели и постобработки. Снижение задержки достигается за счет оптимизации архитектуры модели, использования GPU/TPU и специальных форматов (ONNX, TFLite). Важно различать среднюю задержку и 'хвостовую' (p99) — худшие случаи.

        graph LR
  Center["Задержка вывода (Inference Latency)"]:::main
  Rel_network_latency["network-latency"]:::related -.-> Center
  click Rel_network_latency "/terms/network-latency"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧒 Простыми словами

🛡️ It's like waiting for a calculator to show the result after you press 'equals'. In AI, it's the split-second wait for a robot to recognize your face.

🤓 Expert Deep Dive

Inference latency is bounded by compute intensity (FLOPs) and memory bandwidth. Optimization involves operator fusion, constant folding, and precision reduction (Quantization). Tail latency (P99) is critical in distributed systems to prevent cascading timeouts. Benchmarking standards, notably MLPerf, provide comparative data across CPU, GPU, and ASIC architectures (TPUs, NPUs).

❓ Частые вопросы

Как уменьшить задержку вывода?

Использовать квантование (int8), уменьшить размер модели или применить аппаратное ускорение.

🧒 Простыми словами

🤓 Expert Deep Dive

❓ Частые вопросы

Как уменьшить задержку вывода?

📚 Источники