Latencia de Inferencia

El tiempo que tarda una modelo de IA en procesar una entrada y generar una respuesta.

Es vital en aplicaciones en tiempo real como vehículos autónomos o reconocimiento de voz. Depende de la complejidad del modelo, el hardware subyacente y la eficiencia del software de servicio. Técnicas como la cuantización y la destilación de modelos ayudan a reducirla sin sacrificar demasiada precisión.

        graph LR
  Center["Latencia de Inferencia"]:::main
  Rel_network_latency["network-latency"]:::related -.-> Center
  click Rel_network_latency "/terms/network-latency"
  classDef main fill:#7c3aed,stroke:#8b5cf6,stroke-width:2px,color:white,font-weight:bold,rx:5,ry:5;
  classDef pre fill:#0f172a,stroke:#3b82f6,color:#94a3b8,rx:5,ry:5;
  classDef child fill:#0f172a,stroke:#10b981,color:#94a3b8,rx:5,ry:5;
  classDef related fill:#0f172a,stroke:#8b5cf6,stroke-dasharray: 5 5,color:#94a3b8,rx:5,ry:5;
  linkStyle default stroke:#4b5563,stroke-width:2px;

      

🧠 Prueba de conocimiento

1 / 1

🧒 Explícalo como si tuviera 5 años

Latency is like the delay when you call someone's name and wait for them to say 'Hello'. If they are right next to you, latency is low. If they are across a football field, the sound takes time to travel, so latency is higher.

🤓 Expert Deep Dive

Latency is composed of several delays: Processing Delay (router speed), Queuing Delay (waiting in line), Transmission Delay (pushing bits onto the wire), and Propagation Delay (the speed of light in the medium). Every mile of fiber optic cable adds about 0.005ms of propagation latency.

📚 Fuentes