Opóźnienie Wnioskowania
Czas potrzebny modelowi AI na przetworzenie danych i wygenerowanie wyniku.
Jest kluczowym parametrem wydajności w systemach czasu rzeczywistego. Zależy od złożoności modelu i mocy obliczeniowej sprzętu. Aby je zmniejszyć, stosuje się kompresję modeli, akcelerację sprzętową (GPU) oraz optymalizację kodu (np. użycie ONNX).
graph LR
Center["Opóźnienie Wnioskowania"]:::main
Rel_network_latency["network-latency"]:::related -.-> Center
click Rel_network_latency "/terms/network-latency"
classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
linkStyle default stroke:#4b5563,stroke-width:2px;
🧠 Sprawdzenie wiedzy
🧒 Wyjaśnij jak 5-latkowi
Latency is like the delay when you call someone's name and wait for them to say 'Hello'. If they are right next to you, latency is low. If they are across a football field, the sound takes time to travel, so latency is higher.
🤓 Expert Deep Dive
Latency is composed of several delays: Processing Delay (router speed), Queuing Delay (waiting in line), Transmission Delay (pushing bits onto the wire), and Propagation Delay (the speed of light in the medium). Every mile of fiber optic cable adds about 0.005ms of propagation latency.