Listenpreise sind abstrakt. Was Teams wirklich wissen wollen ist: Bei meinem Workload, was ist die monatliche Rechnung? Die drei Fallstudien unten gehen durch Input-lastige, ausgewogene und Output-lastige Produktions-Workloads bei realistischen monatlichen Volumen. Alle Zahlen sind direkt aus der Standard-Rate-Card berechnet; gecachte und batch-Zahlen wenden den Rabatt-Stapel aus dem obigen Abschnitt an (Cache-Hits bei 10% der Input-Rate auf 80% der Input-Tokens; Batch API bei 50% Rabatt auf Input und Output, wo der Anbieter es anbietet).
Fallstudie 1 — Northwind Marketing, Kundensupport-Ticket-Zusammenfassung. Das Team erfasst 1M Support-Tickets pro Monat von Zendesk und führt jedes durch ein LLM, das Produkt, Stimmung, Grundursache und ein One-Liner-Thema extrahiert. Der Workload ist stark Input-lastig: 4.000 Input-Tokens pro Aufruf (die Ticket-Transkription plus Referenz-Taxonomie) und 200 Output-Tokens (strukturiertes JSON). Monatsrechnungen bei Standard-Tarif bei 1M Aufrufen: Claude Sonnet 4.6 = (4.000/1M × $3 × 1M) + (200/1M × $15 × 1M) = $12.000 + $3.000 = $15.000. gpt-5.4-mini = (4.000/1M × $0,75 × 1M) + (200/1M × $4,50 × 1M) = $3.000 + $900 = $3.900. Gemini 2.5 Flash = (4.000/1M × $0,30 × 1M) + (200/1M × $2,50 × 1M) = $1.200 + $500 = $1.700. Rabatt-Stapel anwenden. Die Taxonomie ist identisch über alle 1M Aufrufe — grob 2.500 der 4.000 Input-Tokens cachen sauber. Sonnet gecacht + batch-ed landet bei ~$4.100/Monat. gpt-5.4-mini gecacht + batch-ed landet bei ~$1.050/Monat. Gemini 2.5 Flash hat keine Batch API und schwächere Caching-Mechanik, also sitzt es bei grob $1.400/Monat. Gewinner: gpt-5.4-mini. Es ist innerhalb 25% von Gemini Flash bei rohen Kosten, addiert aber die Batch API und stärkeres Prompt Caching, und auf Northwinds interner Eval erzielte es 94% Taxonomie-Genauigkeit versus 89% für Gemini Flash. Die $350/Monat-Prämie zahlt sich in Überprüfungswarteschlangen-Einsparungen aus.
Fallstudie 2 — Cascade SaaS, In-Produkt-Chatbot für ein 220K-Nutzer-Analytics-Tool. Der Chatbot bearbeitet 500K Benutzer-Gespräche pro Monat, durchschnittlich zwei Turns pro Session, also 1M LLM-Aufrufe. Workload ist ausgewogen bei 1.500 Input-Tokens / 500 Output-Tokens — typisch für Retrieval-augmented Chat mit drei Context-Snippets. Monatsrechnungen bei Standard-Tarif bei 1M Aufrufen: gpt-5.5 = (1.500/1M × $5 × 1M) + (500/1M × $30 × 1M) = $7.500 + $15.000 = $22.500. Sonnet 4.6 = (1.500/1M × $3) + (500/1M × $15) alles mal 1M = $4.500 + $7.500 = $12.000. Gemini 2.5 Pro = (1.500/1M × $1,25) + (500/1M × $10) alles mal 1M = $1.875 + $5.000 = $6.875. Cascade kann die Batch API nicht nutzen — Chat ist synchron — also ist der Rabatt-Stapel nur Cache. System-Prompt plus Produkt-Docs ergeben 900 der 1.500 Input-Tokens und cachen zuverlässig. Sonnet gecacht senkt Input von $4.500 auf grob $1.170 (600 ungecacht bei $3 + 900 gecacht bei $0,30), monatliche Gesamtrechnung $8.670. gpt-5.5 gecacht senkt auf grob $14.700. Gemini 2.5 Pro Cache-Support ist echtzeitlich-implizit und weniger aggressiv, also landet die gecachte Rechnung bei grob $5.600. Gewinner: Sonnet 4.6. Gemini Pro ist $3.000/Monat günstiger aber Cascades Blind-Eval erzielte Sonnet 4.6 bei 4,6/5 in Antwortqualität versus 4,1/5 für Gemini Pro, und der Pro-Konversation-Kostenunterschied ($0,006 vs $0,011) wird vom LTV-Einfluss eines besseren Chatbots in einem $99/Seat-Produkt in den Schatten gestellt. gpt-5.5 wurde aus Kostengründen ausgeschieden — es bot keinen messbaren Qualitätsvorteil über Sonnet bei fast doppelter Rechnung.
Fallstudie 3 — Mesa AI, ein Developer-Tooling-Startup, das 200K Completions pro Tag verarbeitet (6M Aufrufe pro Monat). Workload ist Output-lastig: 2.000 Input-Tokens (aktueller File-Context plus Open-Buffer-Diff) und 1.500 Output-Tokens (der vorgeschlagene Patch). Monatsrechnungen bei Standard-Tarif bei 6M Aufrufen: gpt-5.4 = (2.000/1M × $2,50 × 6M) + (1.500/1M × $15 × 6M) = $30.000 + $135.000 = $165.000. Sonnet 4.6 = (2.000/1M × $3 × 6M) + (1.500/1M × $15 × 6M) = $36.000 + $135.000 = $171.000. Claude Fable 5 = (2.000/1M × $10 × 6M) + (1.500/1M × $50 × 6M) = $120.000 + $450.000 = $570.000. DeepSeek V4 bei geschätzten $0,40/$1,20 = (2.000/1M × $0,40 × 6M) + (1.500/1M × $1,20 × 6M) = $4.800 + $10.800 = $15.600. Die Spanne ist grob das 36-fache zwischen DeepSeek und Fable. Stapel anwenden: Code-Completion ist synchron also Batch API tritt nicht an; Caching hilft moderat auf der Input-Seite (grob 30% cache-taugliche), sparing $9.000–$11.000 auf der Input-Rechnung für OpenAI und Anthropic. Mesa führte eine Blind-Eval über 800 interne Completion-Samples durch: gpt-5.4 traf 71% Akzeptanz, Sonnet 4.6 traf 73%, Fable 5 traf 79%, DeepSeek V4 traf 64%. Gewinner: eine gestaffelte Routing-Strategie, nicht ein einzelnes Modell. Mesa routet 75% der Completions (Single-Line, In-Buffer) an DeepSeek V4 bei grob $11.700/Monat für diesen Slice, routet 20% (Multi-Line-Refaktoren) an Sonnet 4.6 bei grob $32.000/Monat, und reserviert 5% (Ganze-Datei-Umschreiben und Explain-and-Fix) für Fable 5 bei grob $25.000/Monat. Gemischte monatliche Rechnung: grob $68.700 mit 74% gemischter Akzeptanz — versus $165.000 auf gpt-5.4 allein für einen Punkt weniger Akzeptanz, oder $570.000 auf Fable allein für fünf Punkte mehr.
Was die drei Fälle enthüllen. Bei Input-lastigen Workloads dominieren die günstigen Tiers weil Output eine Abrundung ist — gpt-5.4-mini, Gemini Flash und Haiku 4.5 sind die Kandidaten, und die Wahl dreht sich üblicherweise darum, welche Anbieter-Caching- und Batch-Story zu der Pipeline passt. Bei ausgewogenen synchronen Workloads gewinnt das mittlere Tier weil Qualitätsunterschiede in benutzer-seitige Metriken zeigen und die absolute Spanne klein genug ist, dass der qualitäts-bereinigte Gewinner üblicherweise die günstigste Option schlägt — Sonnet 4.6 und Gemini 2.5 Pro sind die häufigsten Landeplätze. Bei Output-lastigen Workloads gewinnt kein einzelnes Modell; Routing pro Task-Typ schlägt die Auswahl eines einzelnen Modells um 30–60% fast jedes Mal, weil Output-Kosten groß genug sind, dass das günstige Modell den einfachen Slice bearbeitet und das teure Modell auf dem schweren Slice zahlt.
Zwei Arithmetik-Überprüfungen, die Sie im Kopf behalten sollten. Erstens die Pro-Aufruf-Kosten-Faustregel: multiplizieren Sie Input-Tokens (in Tausend) mit Input-Preis (pro 1M, in Dollar) und teilen Sie durch 1.000, um Input-Dollar pro Aufruf zu erhalten; gleiches für Output. Bei 1M Aufrufen pro Monat entsprechen die Kosten pro Aufruf in Cent grob der monatlichen Rechnung in Zehntausenden von Dollar — ein 2-Cent-Aufruf ist grob $20K/Monat bei 1M Aufrufen. Zweitens sind Cache-Einsparungen durch Input-Anteil der Kosten begrenzt. Im Mesa-Fall ist Input nur 18% der Rechnung auf Sonnet — Caching kann nicht mehr als $6.500/Monat sparen, egal wie aggressiv die Cache-Hit-Rate ist. Im Northwind-Fall sind Input 80% der Rechnung — Caching ist der einzelne Hebel mit der höchsten Einfluss.
One-Liner-Zusammenfassung von wann jeder Anbieter in 2026 zu gewinnen neigt. OpenAI gewinnt ausgewogene Workloads, wo Ökosystem-Features (File Search, Code Interpreter, Structured Outputs) wichtig sind und Budget die Prämie verträgt. Anthropic gewinnt Long-Context- und Agent-Workloads, wo Sonnets Pro-Dollar-Qualität und explizite Cache-Kontrolle sich zusammensetzen. Google gewinnt Input-lastige und Multimodal-Workloads, wo rohe Pro-Token-Kosten und 2M+ Context die Beschränkung sind. Open-Source und Budget-Anbieter wie DeepSeek gewinnen den einfachen Slice jeder gestaffelten Routing-Strategie.