Die Kostenformel mit Cache-Write/Read-Mathematik
Claude-Preisgestaltung hat drei Input-Sätze statt zwei: Standard Input, Cache-Write Input (Premium), Cache-Read Input (90% Rabatt). Für einen einzelnen Aufruf ohne Cache entspricht die Formel OpenAIs:
``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```
Wenn Caching aktiviert ist, wird das Präfix, das Sie als cachebar markieren, beim ersten Aufruf zum Cache-Write-Satz berechnet (1,25x für 5-min TTL oder 2x für 1-Stunden-TTL), dann zum Cache-Read-Satz (10% der Base) bei jedem nachfolgenden Aufruf bis die TTL abläuft. Die amortisierten Kosten über N Aufrufe im gleichen TTL-Fenster:
``` amortized_cost = (cache_write_cost + (N-1) × cache_read_cost + N × non_cached_input_cost + N × output_cost) ```
Break-Even beim 1-Stunden-Cache-Write (2x Premium) geschieht nach 2 Cache Hits. Danach ist jeder zusätzliche Hit reine Einsparungen. Für einen stabilen 2.000-Token System Prompt + Tools auf Sonnet 4.6 gelesen über 100 Aufrufe in einer Stunde: Cache Write = 2000 × $6/1M = $0,012 einmal, Cache Reads = 99 × 2000 × $0,30/1M = $0,0594 — vs das gleiche Präfix 100x zum Standard Input lesen = 100 × 2000 × $3/1M = $0,60. Das ist eine **88% Einsparung auf dem Präfix-Teil**.
Die Batch API stapelt sich auf allem anderen: 50% Rabatt auf Input und Output für asynchrone Jobs.