Latenz (KI)
Latency (AI)
Latenz bezeichnet die Zeitspanne zwischen einer Anfrage an ein KI-Modell und dem Beginn oder Abschluss der Antwort. Sie hängt unter anderem von Modellgröße, Kontextlänge und Serverauslastung ab und ist besonders bei interaktiven Anwendungen ein wichtiger Qualitätsfaktor.
Quelle: NVIDIA — AI inference explained