Jede Schätzung in der Tabelle oben setzt englische Prosa bei grob 0,75 Wörtern pro Token voraus. Dieses Verhältnis ist praktisch für Napkin-Mathematik, aber es ist eine Zahl aus einer Verteilung, die je nach Sprache, Zeichensatz und Inhaltstyp grob 3x breit läuft. Wenn Sie ein 200k- oder 1M-Token-Fenster für eine mehrsprachige Arbeitslast budgetieren, wird eine Planung mit der englischen Rate regelmäßig die echte Token-Zählung um 50–200% unterschätzen. Das gleiche Fenster, das 150.000 englische Wörter hält, hält nur 60–80.000 chinesische Zeichen, 40–50.000 Zeilen hübsch gedrucktes JSON und irgendwo zwischen 8.000 und 12.000 Zeilen Python je nach Stil.
Beginnen Sie mit den Tokenizern selbst. Die OpenAI-GPT-Familie verwendet cl100k_base für GPT-4 und GPT-5.x, eine Byte-Pair-Codierung (BPE), die hauptsächlich auf englischem Webtext mit ungefähr 100.277 Token im Vokabular trainiert wurde. Anthropics Claude verwendet seinen eigenen BPE-Tokenizer mit vergleichbaren, aber nicht identischen Merges – Token-Zählungen zwischen OpenAI und Claude für die gleiche englische Passage unterscheiden sich normalerweise um 1–4% in jeder Richtung. Googles Gemini-Familie verwendet SentencePiece mit einem Vokabular von grob 256k Token, das nicht-lateinische Schriften aggressiver komprimiert als cl100k_base. Llama 4 verwendet eine 128k SentencePiece-Variante. Die Vokabulgröße und Trainingsverteilung bestimmen, wie effizient sich eine bestimmte Sprache komprimiert, und die Lücke zwischen Modellen auf dem gleichen nicht-englischen Text kann 30–40% treffen.
Englisch komprimiert gut, weil BPE-Tokenizer riesige englische Trainingstexte sehen und häufige Substrings ('ing', 'tion', 'the ') in einzelne Token zusammenführen. Die empirische englische Rate liegt bei 0,73–0,78 Wörtern pro Token über modernen Frontier-Tokenizern oder etwa 4 Zeichen pro Token. Romanische Sprachen (Spanisch, Französisch, Italienisch, Portugiesisch) sitzen etwas schlechter – 0,65–0,72 Wörter pro Token – da BPE-Trainingsdaten Englisch bevorzugen. Deutsch läuft 0,55–0,65, weil lange Komposita oft in 2–4 Token fragmentieren. Russisch und andere kyrillische Sprachen laufen normalerweise 0,4–0,55 Wörter pro Token. Arabisch mit morphologisch reichen Wörtern und Rechts-nach-Links-Schrift läuft oft 0,35–0,5.
Logographische und syllabische Schriften sind der harte Fall. Auf cl100k_base kostet ein typisches chinesisches Zeichen 1,5–2,5 Token – 100k Token chinesisch passt also nur 40.000–65.000 Zeichen oder grob die Länge eines einzelnen 200-Seiten-Romans statt der 500-Seiten-Sammlung, die das gleiche Fenster auf Englisch hält. Japanisch ist etwas schlechter als Chinesisch, da Kanji, Hiragana und Katakana alle unterschiedlich tokenisieren. Koreanisch Hangul läuft 1,2–1,8 Token pro Silbenblock auf cl100k_base. SentencePiece-Tokenizer (Gemini, Llama 4) schneiden dies grob in der Hälfte – Gemini behandelt ein chinesisches Zeichen näher an 0,8–1,2 Token – was ein echter Grund ist, warum Teams CJK-Arbeitslastgravitation zu Gemini oder Modellen mit ähnlichen Tokenizern durchführen.
Der Inhaltstyp zählt genauso wie die Sprache. Code ist zeichendicht aber token-dünn pro Zeichen (grob 1 Token pro 3,5–4,5 Zeichen), doch token-schwer pro Zeile, da Bezeichner, Interpunktion und Leerzeichen alle Token verbrauchen. Eine pragmatische Regel: Ein 200k-Token-Fenster hält 1.600–2.400 Zeilen dicht kommentiertes Python, 1.200–1.800 Zeilen Java oder C#, 800–1.400 Zeilen TypeScript mit JSX oder 6.000–10.000 Zeilen minifiziertes JavaScript. JSON und XML drücken die andere Richtung – sie sind token-teuer, da jedes Anführungszeichen, jede Klammer und jedes Tag sein eigenes Token oder zwei ist. Ein 200k-Token-Fenster hält grob 40–55k Zeilen formatiertes JSON oder 25–35k Zeilen XML. Markdown sitzt zwischen Prosa und Code; mathematische Notation in LaTeX gehört zu den schlechtesten, läuft 0,3–0,5 'Konzepte' pro Token, weil jeder Backslash-Befehl, jedes Klammer-Paar und jeder Index stark fragmentiert.
Praktisches Beispiel. Ein 200k-Token-Kontextfenster hält ungefähr: 150.000 englische Wörter (etwa 500 Seiten), 100.000–120.000 spanische Wörter, 65.000–80.000 chinesische Zeichen unter cl100k_base, 110.000–130.000 chinesische Zeichen unter Geminis Tokenizer, 8.000–12.000 Zeilen Python, 4.000–6.000 Zeilen XML oder 45.000–55.000 Zeilen kompaktes JSON. Ein 1M-Token-Gemini-2.5-Pro-Fenster hält grob 750.000 englische Wörter, aber nur 550.000–650.000 chinesische Zeichen – immer noch weitaus mehr als cl100k_base passt, aber weit unter der naiven englischen Extrapolation. Die praktische Regel für mehrsprachige Arbeitslast ist, bei 1,5–2x der englischen Token-Rate für nicht-lateinische Schriften bei OpenAI und Claude zu budgetieren, und grob 1,2–1,5x bei Gemini und Llama 4.
Der praktische Rat: Begehen Sie sich nie auf eine Fenstergröße basierend auf Zeichenzählung oder Wortanzahl allein. Führen Sie Ihren echten Inhalt durch den Tokenizer des Modells selbst – OpenAI-tiktoken-Bibliothek für GPT, Anthropics count_tokens-Endpunkt für Claude, Googles count_tokens-API für Gemini – bei einer repräsentativen Stichprobe von 5–10 echten Dokumenten, dann planen Sie mit einer 20–30%-Sicherheitspuffer oben auf der gemessenen Rate. Die Kosten einer Fehlschätzung sind konkret: Ein Workflow für 150k englische Wörter, die tatsächlich auf Chinesisch läuft, wird bei Dokument 1 das 200k-Fenster treffen, schweigend fehlschlagen oder abschneiden und fehlerhafte Antworten an Benutzer liefern. Zuerst messen, dann fenstergrößße wählen.