Die Kostenformel (merken Sie sich diese)
Jeder OpenAI API-Aufruf folgt der gleichen Mathematik. Es gibt keine Plattformgebühr, keine Pro-Aufruf-Gebühr, kein Minimum. Sie zahlen für das, was Sie senden und was Sie zurückbekommen, zum Modell-Satz pro 1M Token:
``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```
Zwei Anpassungen stapeln sich oben drauf. Erstens, Prompt-Cache-Treffer — Teile Ihres Input-Präfix, die OpenAI zwischengespeichert hat, weil Sie sie in einem kürzlichen vorherigen Aufruf gesendet haben — werden zum Cached-Input-Satz abgerechnet (~10% des Standard-Input). Lange System-Prompts und stabile Tool-Schemas sind die typischen Gewinner; der Cache ist opportunistisch über die meisten SDKs und erfordert keine Code-Änderungen zur Aktivierung. Zweitens, die Batch API nimmt 50% von Input und Output als Gegenleistung für ein Lieferfenster von bis zu 24 Stunden. Die beiden Rabatte stapeln sich: ein gepufferter, versammelter Aufruf auf gpt-5.5 wird bei $0,25 Input ÷ 2 = $0,125/1M und $30 Output ÷ 2 = $15/1M für den gepufferten + versammelten Teil abgerechnet. Die Struktur Ihrer Prompts bestimmt, wie viel von jedem Rabatt Sie in der Praxis erfassen können.
Reasoning-Token bei der o-Serie werden zum Output-Satz abgerechnet, auch wenn sie nicht an Sie zurückgegeben werden — ein Modell, das 4.000 Token vor der Erzeugung einer 200-Token-Antwort 'nachdenkt', wird mit 4.200 Output-Token abgerechnet. Planen Sie ein 5-10x Output-Budget für Reasoning-intensive Aufgaben.