Opóźnienie Wnioskowania

Czas potrzebny modelowi AI na przetworzenie danych i wygenerowanie wyniku.

Jest kluczowym parametrem wydajności w systemach czasu rzeczywistego. Zależy od złożoności modelu i mocy obliczeniowej sprzętu. Aby je zmniejszyć, stosuje się kompresję modeli, akcelerację sprzętową (GPU) oraz optymalizację kodu (np. użycie ONNX).

        graph LR
  Center["Opóźnienie Wnioskowania"]:::main
  Rel_network_latency["network-latency"]:::related -.-> Center
  click Rel_network_latency "/terms/network-latency"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Sprawdzenie wiedzy

1 / 1

🧒 Wyjaśnij jak 5-latkowi

Latency is like the delay when you call someone's name and wait for them to say 'Hello'. If they are right next to you, latency is low. If they are across a football field, the sound takes time to travel, so latency is higher.

🤓 Expert Deep Dive

Latency is composed of several delays: Processing Delay (router speed), Queuing Delay (waiting in line), Transmission Delay (pushing bits onto the wire), and Propagation Delay (the speed of light in the medium). Every mile of fiber optic cable adds about 0.005ms of propagation latency.

📚 Źródła