Задержка (Latency)

Время, затрачиваемое ML-моделью на обработку входных данных и генерацию предсказания.

Критична для интерактивных приложений. Состоит из времени передачи данных, вычислений модели и постобработки. Снижение задержки достигается за счет оптимизации архитектуры модели, использования GPU/TPU и специальных форматов (ONNX, TFLite). Важно различать среднюю задержку и 'хвостовую' (p99) — худшие случаи.

        graph LR
  Center["Задержка (Latency)"]:::main
  Rel_network_latency["network-latency"]:::related -.-> Center
  click Rel_network_latency "/terms/network-latency"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Проверка знаний

1 / 1

🧒 Простыми словами

Это как 'пинг' в играх. Чем он меньше, тем быстрее твой персонаж реагирует на нажатия клавиш.

🤓 Expert Deep Dive

Критически важна для систем реального времени и финансового трейдинга.

📚 Источники