Затримка інференсу
Час, необхідний моделі машинного навчання для обробки вхідних даних та видачі результату (передбачення).
Затримку часто плутають із пропускною здатністю; тоді як пропускна здатність вимірює об'єм, затримка вимірює швидкість реакції. Ключові вузькі місця включають серіалізацію даних та накладні витрати на передачу через PCIe. Мобільний та периферійний ШІ (Edge AI) покладаються на такі методи, як прунінг та дистиляція, щоб вкластися в бюджет 20-50 мс для живої взаємодії.
graph LR
Center["Затримка інференсу"]:::main
Rel_network_latency["network-latency"]:::related -.-> Center
click Rel_network_latency "/terms/network-latency"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧒 Простими словами
🛡️ Це як час очікування відповіді калькулятора після того, як ви натиснули кнопку 'дорівнює'. У ШІ — це частка секунди, поки робот впізнає ваше обличчя.
🤓 Expert Deep Dive
Затримка інференсу обмежена інтенсивністю обчислень (FLOPs) та пропускною здатністю пам'яті. Оптимізація включає злиття операторів, згортання констант та зниження точності (квантування). 'Хвостова' затримка (P99) є критичною в розподілених системах для запобігання каскадним таймаутам. Стандарти тестування, зокрема MLPerf, надають порівняльні дані для архітектур CPU, GPU та ASIC.