Tokenisierung
Tokenization
Tokenisierung ist der Prozess, bei dem ein Text in Tokens zerlegt wird, bevor ein Sprachmodell ihn verarbeiten kann. Das verwendete Tokenisierungsverfahren beeinflusst, wie effizient ein Modell mit einer Sprache umgeht — Sprachen mit vielen zusammengesetzten Wörtern wie Deutsch benötigen oft mehr Tokens pro Satz als etwa Englisch.