Затримка інференсу

Час, необхідний моделі машинного навчання для обробки вхідних даних та видачі результату (передбачення).

🌐 Терміни іншими мовами:

English Deutsch Español Français 日本語 한국어 Polski Português Русский Türkçe Українська

Затримку часто плутають із пропускною здатністю; тоді як пропускна здатність вимірює об'єм, затримка вимірює швидкість реакції. Ключові вузькі місця включають серіалізацію даних та накладні витрати на передачу через PCIe. Мобільний та периферійний ШІ (Edge AI) покладаються на такі методи, як прунінг та дистиляція, щоб вкластися в бюджет 20-50 мс для живої взаємодії.

        graph LR
  Center["Затримка інференсу"]:::main
  Rel_network_latency["network-latency"]:::related -.-> Center
  click Rel_network_latency "/terms/network-latency"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

🕸️ Open in Universe

🧒 Простими словами

🛡️ Це як час очікування відповіді калькулятора після того, як ви натиснули кнопку 'дорівнює'. У ШІ — це частка секунди, поки робот впізнає ваше обличчя.

🤓 Expert Deep Dive

Затримка інференсу обмежена інтенсивністю обчислень (FLOPs) та пропускною здатністю пам'яті. Оптимізація включає злиття операторів, згортання констант та зниження точності (квантування). 'Хвостова' затримка (P99) є критичною в розподілених системах для запобігання каскадним таймаутам. Стандарти тестування, зокрема MLPerf, надають порівняльні дані для архітектур CPU, GPU та ASIC.

🧒 Простими словами

🤓 Expert Deep Dive

📚 Джерела