Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Von The DDH Team · Digital Dashboard Hub

GPT vs Claude vs Gemini Kostenrechner: Nebeneinander-Vergleich der Kosten pro Aufruf (2026)

By DDH Research Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

Alle drei großen Anbieter — OpenAI, Anthropic und Google — berechnen LLM-API-Aufrufe pro Million Tokens mit separaten Ein- und Ausgaberaten. Im Juni 2026 beträgt die Kostenbandbreite pro Aufruf bei einem typischen Workload von 1.000 Input- und 500 Output-Tokens etwa das 200-fache: Gemini 2.5 Flash-Lite bei $0,00030 pro Aufruf, gpt-5.5-pro bei $0,120, mit allem anderen dazwischen.

Die Kosten bestimmen die endgültige Modellwahl selten allein — Qualität und Latenz sind gleichberechtigt — aber bei gleichwertiger Qualität ist das richtige Modell üblicherweise 3–10x günstiger als das Standard-Modell, das die meisten Teams wählen. Im Folgenden finden Sie die Formel, Kostenvergleiche bei drei verschiedenen Workload-Größen, den angewendeten Rabattstapel (Batch + Cache) sowie Entscheidungshilfen für den Anbieter-Wechsel. Für schnelle Schätzungen nutzen Sie unseren AI-Prompt-Kostenrechner, der Ihre Token-Anzahl in Dollar umrechnet; das kostenlose PDF-Cheatsheet können Sie ausdrucken und neben Ihrem Monitor aufhängen.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Kosten pro Aufruf für GPT, Claude, Gemini — Juni 2026, Referenz-Workload 1.000 Input / 500 Output

Feature
Input $/1M
Output $/1M
Kosten pro Aufruf
Pro 1M Aufrufe
OpenAI gpt-5.5-pro$30.00$180.00$0.12000$120,000
OpenAI gpt-5.5$5.00$30.00$0.02000$20,000
OpenAI gpt-5.4$2.50$15.00$0.01000$10,000
OpenAI gpt-5.4-mini$0.75$4.50$0.00300$3,000
OpenAI gpt-5.4-nano$0.20$1.25$0.000825$825
OpenAI o4-reasoning$15.00$60.00$0.04500$45,000
Anthropic Claude Fable 5$10.00$50.00$0.03500$35,000
Anthropic Claude Opus 4.8$5.00$25.00$0.01750$17,500
Anthropic Claude Sonnet 4.6$3.00$15.00$0.01050$10,500
Anthropic Claude Haiku 4.5$1.00$5.00$0.00350$3,500
Google Gemini 3.5 Flash$1.50$9.00$0.00600$6,000
Google Gemini 3.1 Pro Preview$2.00$12.00$0.00800$8,000
Google Gemini 2.5 Pro$1.25$10.00$0.00625$6,250
Google Gemini 2.5 Flash$0.30$2.50$0.00155$1,550
Google Gemini 2.5 Flash-Lite$0.10$0.40$0.00030$300

Quellen, Juni 2026: OpenAI (https://developers.openai.com/api/docs/pricing), Anthropic (https://claude.com/pricing), Google Gemini (https://ai.google.dev/gemini-api/docs/pricing). Die Kosten pro Aufruf basieren auf 1.000 Input-Tokens + 500 Output-Tokens, Standard-Tarife ohne Batch- oder Cache-Rabatt. Reasoning-Modell-Zeilen enthalten keine versteckten Chain-of-Thought-Tokens; kalkulieren Sie das 3–5-fache der Output-Tokens für Aufgaben, die von Reasoning profitieren.

Die Formel, der alle Anbieter folgen

Die Kostenberechnung pro Aufruf ist bei allen Anbietern identisch:

``` kosten_pro_aufruf = (input_tokens / 1.000.000) * input_preis + (output_tokens / 1.000.000) * output_preis ```

Token-zu-Wort-Umrechnung: grob 1 Token pro 0,75 englische Wörter oder grob 1 Token pro 4 Zeichen. Ein 750-Wort-Prompt entspricht also etwa 1.000 Input-Tokens; eine 375-Wort-Antwort etwa 500 Output-Tokens.

Rabatte passen die Formel an, ersetzen sie nie. Batch API (OpenAI und Anthropic) halbiert sowohl Input als auch Output für asynchrone Workloads mit 24-Stunden-Lieferfenster. Prompt Caching senkt die Input-Rate auf 10% bei Cache-Hit-Tokens. Vision- und Audio-Eingaben werden als Input-Tokens mit anbieter-spezifischen Umrechnungsquoten gezählt.

Reasoning-Tokens bei den o-Modellen und Claude Fable 5 werden als Output gezählt, obwohl sie nicht an Sie zurückgegeben werden. Ein Modell, das 2.000 Tokens durchdenkt, bevor es eine 200-Token-sichtbare Antwort produziert, rechnet 2.200 Output-Tokens ab.


Praktisches Beispiel 1: Kurze Frage-und-Antwort bei 1.000 Aufrufen

Referenz-Workload: 1.000 Input-Tokens, 500 Output-Tokens, 1.000 Aufrufe. Standard-Tarife, keine Rabatte.

OpenAI gpt-5.5: 1.000 × $0.020 = $20.00. Anthropic Claude Sonnet 4.6: 1.000 × $0.0105 = $10.50. Google Gemini 2.5 Pro: 1.000 × $0.00625 = $6.25. Google Gemini 2.5 Flash: 1.000 × $0.00155 = $1.55. Google Gemini 2.5 Flash-Lite: 1.000 × $0.00030 = $0.30.

Derselbe Workload, $0,30 bis $20 je nach Modell — eine 66-fache Spanne. Bei 1K Aufrufen pro Tag ist der Unterschied in absoluten Zahlen gering ($0,30 vs $20 pro Tag, $9 vs $600 pro Monat). Bei 1M+ Aufrufen pro Monat wird die Spanne zum Budget-Thema.

Qualitätshinweis: Gemini 2.5 Flash-Lite tauscht Latenz und Tiefe gegen Kosten ein. Bei Klassifizierung, Extraktion und einfachen Frage-und-Antworten entspricht es oft der Qualität von Sonnet 4.6. Bei differenziertem Schreiben, Reasoning oder Code ist der Unterschied größer und Sonnet/gpt-5.5 gewinnt. Führen Sie eine Seite-an-Seite-Evaluierung mit 100 repräsentativen Samples durch, bevor Sie sich für das günstigste Tier entscheiden.


Praktisches Beispiel 2: Hochvolumen-Batch bei 1.000.000 Aufrufen

Derselbe Referenz-Workload 1.000 Input / 500 Output, skaliert auf 1M Aufrufe — ein typisches monatliches Produktionsvolumen.

Standard-Tarife: gpt-5.5 = $20.000. Sonnet 4.6 = $10.500. Opus 4.8 = $17.500. Gemini 2.5 Pro = $6.250. Gemini 2.5 Flash = $1.550. Gemini 2.5 Flash-Lite = $300.

Batch API-Rabatt (-50%) auf OpenAI und Anthropic anwenden: gpt-5.5 = $10.000. Sonnet 4.6 = $5.250. Google bietet im Juni 2026 kein veröffentlichtes Batch-Tier an, daher bleiben die Gemini-Zeilen unverändert.

Prompt Caching anwenden, wobei 800 von 1.000 Input-Tokens bei 10% der Input-Rate gecacht werden. Sonnet 4.6 Input sinkt von $3.000 auf ($600 Basis + $0,30 × 800 × 1M / 1M = $240 gecacht) = $840 Input, insgesamt $10.500 Standard / $5.250 Batch. Eine 60%ige Kostenersparnis allein durch Caching.

Die Auswahl des günstigsten Modells, das die Qualitätsanforderung erfüllt, ist wichtiger als die Verhandlung von Rabatten auf dem falschen Modell. Ein Team, das 1M Aufrufe pro Monat auf gpt-5.5-pro ausführt, zahlt $120.000 monatlich; derselbe Workload auf Sonnet 4.6 kostet $10.500 — ein $109.500 monatlicher Unterschied bei Standard-Tarife, oder das 12-fache. Testen Sie immer das nächstlowere Tier, bevor Sie das Budget festlegen. Für Prompt-Qualitätsstrategien, die auf einem günstigeren Tier funktionieren, hilft unser Code-Prompt-Builder, Anweisung-Blöcke zu verschärfen.


Rabattstapel: Batch + Cache + niedrigeres Tier

Die drei größten Kostenregler wirken zusammen. Wenden Sie jeden nacheinander an und die endgültige Rechnung auf denselben Workload kann 5–15x niedriger ausfallen als der Listenpreis.

Schritt 1: ein Modell-Tier tiefer gehen. 80/20 der meisten Workloads funktioniert fein auf dem Tier darunter, das das Team normalerweise nutzt. Evaluieren Sie mit 100 repräsentativen Samples; führen Sie nur zurück auf, wenn das günstigere Modell bei den wichtigen Routen ausfällt.

Schritt 2: stabile Präfixe cachen. System-Prompt, Tool-Definitionen, Referenzdokumente — alles, das sich über Aufrufe wiederholt — sollte am Anfang des Prompts stehen und als cache-tauglich markiert sein (auf Anthropic) oder einfach lange und stabil bleiben (auf OpenAI, wo Caching opportunistisch ist). Rechnen Sie mit 60–90% Input-Einsparungen bei gecachten Portionen.

Schritt 3: asynchrone Workloads batchen. Alles Nicht-Benutzer-Seitige — nächtliche Reports, wöchentliche Anreicherungen, Backfills, Eval-Läufe — wechselt zur Batch API für pauschal 50% Rabatt auf Input und Output.

Arbeitetes Zusammenspiel: gpt-5.5 Standard bei 1M Aufrufen = $20.000. Auf gpt-5.4-mini wechseln = $3.000 (entspricht Qualität für viele Aufgaben). Cache-Einsparungen addieren: $3.000 → ~$2.200. Batch auf die offline-Hälfte addieren: $2.200 → ~$1.650. Endrechnung: $1.650 — eine 92%ige Reduktion vom Standard-Listenpreis.


Qualitätsbereiniagte Kosten: Was sollten Sie wirklich bezahlen?

Der Listenpreis ist weniger wichtig als die Kosten pro richtiger Antwort. Ein Modell bei $0.001 pro Aufruf, das 30% der Fälle fehlschlägt, ist schlechter als eines bei $0.005 pro Aufruf, das 5% fehlschlägt — letzteres hat niedrigere effektive Kosten, wenn man den Wiederversuch, die Eskalation auf ein höheres Tier oder die manuelle Überprüfungskosten bei Ausfällen berücksichtigt.

Benchmark-bereinigte Kosten (basierend auf veröffentlichten 2026-Qualitätsevaluierungen zu Standard-Chat-Workloads): Sonnet 4.6 und gpt-5.5 liegen bei den meisten Benchmarks dicht beieinander; Sonnet 4.6 kostet grob die Hälfte pro Aufruf. Gemini 2.5 Pro liegt dazwischen, mit stärkerer Long-Context-Erinnerung aber gemischten Ergebnissen bei mehrschrittigem Reasoning. Haiku 4.5 und gpt-5.4-mini sind bei den meisten Extraktionsaufgaben austauschbar; Haiku gewinnt meist bei Anweisungs-Einhaltung, gpt-5.4-mini bei reinen Kosten.

Im Zweifelsfall Standard auf Sonnet 4.6 für Chat- und Content-Workloads, gpt-5.4-mini für hochvolumige strukturierte-Output-Aufgaben, Gemini 2.5 Flash-Lite für ultra-günstige einfache Aufgaben. Kreuzchecken gegen die ausführlichen Seiten bei OpenAI API-Preisgestaltung und Anthropic Claude Preisgestaltung.


Wann OpenAI gewinnt, wann Claude gewinnt, wann Gemini gewinnt

OpenAI gewinnt bei: Ökosystem-Reife (Vector Store, File Search, Code Interpreter nativ integriert), der tiefsten Reasoning-Modell-Auswahl (o4-reasoning, o4-mini-reasoning) und nahtloses Image Generation integriert mit Chat. Standard auf OpenAI, wenn Sie Erst-Anbieter-Tools jenseits des LLM selbst brauchen.

Anthropic gewinnt bei: Pro-Dollar-Qualität auf Sonnet 4.6, der besten Prompt-Caching-Mechanik (explizite Cache-Kontrolle, 1-Stunden-TTL-Option), starker Anweisungs-Einhaltung und längstem praktischem Context mit starker Erinnerung bei Opus und Fable. Standard auf Claude, wenn Sie Agenten bauen, die über lange Dokumente oder mehrstufige Pläne nachdenken müssen.

Google Gemini gewinnt bei: niedrigsten Kosten pro Aufruf bei jedem Tier, den größten praktischen Kontextfenstern (2M bei 3.1 Pro Preview, 10M experimentell bei Flash-Lite) und stärkster Multimodal-Leistung (Bild, Video, Audio). Standard auf Gemini, wenn Kosten die Beschränkung sind oder Ihr Workload substanzielle Vision oder Video enthält.

Bei Nicht-Flagship-Spielern: DeepSeek V4 ist der Preis-Anführer bei Open-Source-ähnlichen Workloads; Mistral Large 3 gewinnt bei europäischen Datenresidenz-Anforderungen; Llama 4 gewinnt, wenn Sie Self-Host brauchen. Die vollständige Anbieter-Matrix ist breiter als drei — für hochvolumige Arbeit führen Sie ein vierteljährliches Bake-Off durch.


Ihren eigenen internen Kostenrechner bauen

Replizieren Sie die Mathematik in fünf Zeilen Python oder einer Google-Sheets-Formel:

``` =(input_tokens/1000000)*input_preis + (output_tokens/1000000)*output_preis ```

Bauen Sie eine Zeile pro (Modell, Route)-Paar, füllen Sie Ihre echten Tokens pro Aufruf ein (nutzen Sie den Tokenizer-Endpoint für eine genaue Zählung, oder schätzen Sie Wörter/0,75 für die Planung), und skalieren Sie mit täglichem Aufruf-Volumen. Addieren Sie eine Spalte für Batch-taugliches Volumen und wenden Sie -50% auf diesen Anteil an.

Für Prompt Caching schätzen Sie die gecachte Portion als Anteil des gesamten Input — 60–90% ist realistisch für Chatbots mit stabilem System-Prompt, 0% für One-Shot User-Prompts. Multiplizieren Sie den gecachten Anteil mit 10% der Input-Rate, den ungecachten Anteil mit 100%.

Rechnen Sie die Berechnung monatlich neu. Anbieter-Preisgestaltung hat sich in 2025–2026 vierteljährlich verschoben, und das günstigste Modell bei jedem Tier ändert sich; das Team, das die Annahmen alle 90 Tage neu durchrechnet, spart im stabilen Zustand 20–40% pro Jahr.


Drei echte Fallstudien: Was 1M-Aufruf/Monat-Workloads tatsächlich über Anbieter kosten

Listenpreise sind abstrakt. Was Teams wirklich wissen wollen ist: Bei meinem Workload, was ist die monatliche Rechnung? Die drei Fallstudien unten gehen durch Input-lastige, ausgewogene und Output-lastige Produktions-Workloads bei realistischen monatlichen Volumen. Alle Zahlen sind direkt aus der Standard-Rate-Card berechnet; gecachte und batch-Zahlen wenden den Rabatt-Stapel aus dem obigen Abschnitt an (Cache-Hits bei 10% der Input-Rate auf 80% der Input-Tokens; Batch API bei 50% Rabatt auf Input und Output, wo der Anbieter es anbietet).

Fallstudie 1 — Northwind Marketing, Kundensupport-Ticket-Zusammenfassung. Das Team erfasst 1M Support-Tickets pro Monat von Zendesk und führt jedes durch ein LLM, das Produkt, Stimmung, Grundursache und ein One-Liner-Thema extrahiert. Der Workload ist stark Input-lastig: 4.000 Input-Tokens pro Aufruf (die Ticket-Transkription plus Referenz-Taxonomie) und 200 Output-Tokens (strukturiertes JSON). Monatsrechnungen bei Standard-Tarif bei 1M Aufrufen: Claude Sonnet 4.6 = (4.000/1M × $3 × 1M) + (200/1M × $15 × 1M) = $12.000 + $3.000 = $15.000. gpt-5.4-mini = (4.000/1M × $0,75 × 1M) + (200/1M × $4,50 × 1M) = $3.000 + $900 = $3.900. Gemini 2.5 Flash = (4.000/1M × $0,30 × 1M) + (200/1M × $2,50 × 1M) = $1.200 + $500 = $1.700. Rabatt-Stapel anwenden. Die Taxonomie ist identisch über alle 1M Aufrufe — grob 2.500 der 4.000 Input-Tokens cachen sauber. Sonnet gecacht + batch-ed landet bei ~$4.100/Monat. gpt-5.4-mini gecacht + batch-ed landet bei ~$1.050/Monat. Gemini 2.5 Flash hat keine Batch API und schwächere Caching-Mechanik, also sitzt es bei grob $1.400/Monat. Gewinner: gpt-5.4-mini. Es ist innerhalb 25% von Gemini Flash bei rohen Kosten, addiert aber die Batch API und stärkeres Prompt Caching, und auf Northwinds interner Eval erzielte es 94% Taxonomie-Genauigkeit versus 89% für Gemini Flash. Die $350/Monat-Prämie zahlt sich in Überprüfungswarteschlangen-Einsparungen aus.

Fallstudie 2 — Cascade SaaS, In-Produkt-Chatbot für ein 220K-Nutzer-Analytics-Tool. Der Chatbot bearbeitet 500K Benutzer-Gespräche pro Monat, durchschnittlich zwei Turns pro Session, also 1M LLM-Aufrufe. Workload ist ausgewogen bei 1.500 Input-Tokens / 500 Output-Tokens — typisch für Retrieval-augmented Chat mit drei Context-Snippets. Monatsrechnungen bei Standard-Tarif bei 1M Aufrufen: gpt-5.5 = (1.500/1M × $5 × 1M) + (500/1M × $30 × 1M) = $7.500 + $15.000 = $22.500. Sonnet 4.6 = (1.500/1M × $3) + (500/1M × $15) alles mal 1M = $4.500 + $7.500 = $12.000. Gemini 2.5 Pro = (1.500/1M × $1,25) + (500/1M × $10) alles mal 1M = $1.875 + $5.000 = $6.875. Cascade kann die Batch API nicht nutzen — Chat ist synchron — also ist der Rabatt-Stapel nur Cache. System-Prompt plus Produkt-Docs ergeben 900 der 1.500 Input-Tokens und cachen zuverlässig. Sonnet gecacht senkt Input von $4.500 auf grob $1.170 (600 ungecacht bei $3 + 900 gecacht bei $0,30), monatliche Gesamtrechnung $8.670. gpt-5.5 gecacht senkt auf grob $14.700. Gemini 2.5 Pro Cache-Support ist echtzeitlich-implizit und weniger aggressiv, also landet die gecachte Rechnung bei grob $5.600. Gewinner: Sonnet 4.6. Gemini Pro ist $3.000/Monat günstiger aber Cascades Blind-Eval erzielte Sonnet 4.6 bei 4,6/5 in Antwortqualität versus 4,1/5 für Gemini Pro, und der Pro-Konversation-Kostenunterschied ($0,006 vs $0,011) wird vom LTV-Einfluss eines besseren Chatbots in einem $99/Seat-Produkt in den Schatten gestellt. gpt-5.5 wurde aus Kostengründen ausgeschieden — es bot keinen messbaren Qualitätsvorteil über Sonnet bei fast doppelter Rechnung.

Fallstudie 3 — Mesa AI, ein Developer-Tooling-Startup, das 200K Completions pro Tag verarbeitet (6M Aufrufe pro Monat). Workload ist Output-lastig: 2.000 Input-Tokens (aktueller File-Context plus Open-Buffer-Diff) und 1.500 Output-Tokens (der vorgeschlagene Patch). Monatsrechnungen bei Standard-Tarif bei 6M Aufrufen: gpt-5.4 = (2.000/1M × $2,50 × 6M) + (1.500/1M × $15 × 6M) = $30.000 + $135.000 = $165.000. Sonnet 4.6 = (2.000/1M × $3 × 6M) + (1.500/1M × $15 × 6M) = $36.000 + $135.000 = $171.000. Claude Fable 5 = (2.000/1M × $10 × 6M) + (1.500/1M × $50 × 6M) = $120.000 + $450.000 = $570.000. DeepSeek V4 bei geschätzten $0,40/$1,20 = (2.000/1M × $0,40 × 6M) + (1.500/1M × $1,20 × 6M) = $4.800 + $10.800 = $15.600. Die Spanne ist grob das 36-fache zwischen DeepSeek und Fable. Stapel anwenden: Code-Completion ist synchron also Batch API tritt nicht an; Caching hilft moderat auf der Input-Seite (grob 30% cache-taugliche), sparing $9.000–$11.000 auf der Input-Rechnung für OpenAI und Anthropic. Mesa führte eine Blind-Eval über 800 interne Completion-Samples durch: gpt-5.4 traf 71% Akzeptanz, Sonnet 4.6 traf 73%, Fable 5 traf 79%, DeepSeek V4 traf 64%. Gewinner: eine gestaffelte Routing-Strategie, nicht ein einzelnes Modell. Mesa routet 75% der Completions (Single-Line, In-Buffer) an DeepSeek V4 bei grob $11.700/Monat für diesen Slice, routet 20% (Multi-Line-Refaktoren) an Sonnet 4.6 bei grob $32.000/Monat, und reserviert 5% (Ganze-Datei-Umschreiben und Explain-and-Fix) für Fable 5 bei grob $25.000/Monat. Gemischte monatliche Rechnung: grob $68.700 mit 74% gemischter Akzeptanz — versus $165.000 auf gpt-5.4 allein für einen Punkt weniger Akzeptanz, oder $570.000 auf Fable allein für fünf Punkte mehr.

Was die drei Fälle enthüllen. Bei Input-lastigen Workloads dominieren die günstigen Tiers weil Output eine Abrundung ist — gpt-5.4-mini, Gemini Flash und Haiku 4.5 sind die Kandidaten, und die Wahl dreht sich üblicherweise darum, welche Anbieter-Caching- und Batch-Story zu der Pipeline passt. Bei ausgewogenen synchronen Workloads gewinnt das mittlere Tier weil Qualitätsunterschiede in benutzer-seitige Metriken zeigen und die absolute Spanne klein genug ist, dass der qualitäts-bereinigte Gewinner üblicherweise die günstigste Option schlägt — Sonnet 4.6 und Gemini 2.5 Pro sind die häufigsten Landeplätze. Bei Output-lastigen Workloads gewinnt kein einzelnes Modell; Routing pro Task-Typ schlägt die Auswahl eines einzelnen Modells um 30–60% fast jedes Mal, weil Output-Kosten groß genug sind, dass das günstige Modell den einfachen Slice bearbeitet und das teure Modell auf dem schweren Slice zahlt.

Zwei Arithmetik-Überprüfungen, die Sie im Kopf behalten sollten. Erstens die Pro-Aufruf-Kosten-Faustregel: multiplizieren Sie Input-Tokens (in Tausend) mit Input-Preis (pro 1M, in Dollar) und teilen Sie durch 1.000, um Input-Dollar pro Aufruf zu erhalten; gleiches für Output. Bei 1M Aufrufen pro Monat entsprechen die Kosten pro Aufruf in Cent grob der monatlichen Rechnung in Zehntausenden von Dollar — ein 2-Cent-Aufruf ist grob $20K/Monat bei 1M Aufrufen. Zweitens sind Cache-Einsparungen durch Input-Anteil der Kosten begrenzt. Im Mesa-Fall ist Input nur 18% der Rechnung auf Sonnet — Caching kann nicht mehr als $6.500/Monat sparen, egal wie aggressiv die Cache-Hit-Rate ist. Im Northwind-Fall sind Input 80% der Rechnung — Caching ist der einzelne Hebel mit der höchsten Einfluss.

One-Liner-Zusammenfassung von wann jeder Anbieter in 2026 zu gewinnen neigt. OpenAI gewinnt ausgewogene Workloads, wo Ökosystem-Features (File Search, Code Interpreter, Structured Outputs) wichtig sind und Budget die Prämie verträgt. Anthropic gewinnt Long-Context- und Agent-Workloads, wo Sonnets Pro-Dollar-Qualität und explizite Cache-Kontrolle sich zusammensetzen. Google gewinnt Input-lastige und Multimodal-Workloads, wo rohe Pro-Token-Kosten und 2M+ Context die Beschränkung sind. Open-Source und Budget-Anbieter wie DeepSeek gewinnen den einfachen Slice jeder gestaffelten Routing-Strategie.


Latenz, Zuverlässigkeit und andere Kosten nicht in der Formel

Pro-Token-Kosten sind die größte Zeile auf der Rechnung, aber nicht die einzige. Latenz übersetzt sich in UX-Kosten — jede zusätzliche Sekunde Antwortzeit kostet die Konversion in benutzer-seitigen Apps; kumulative Latenz × Aufruf-Volumen ist echtes Geld. Gemini Flash-Familie gewinnt üblicherweise bei Zeit-zum-ersten-Token; o4-reasoning verliert üblicherweise um ein großes Maß bei Aufgaben, wo Reasoning läuft.

Zuverlässigkeit übersetzt sich in Wiederversuchs-Kosten — wenn ein Modell 1% der Aufrufe ausfällt und Sie wiederholen, kostet Ihre effektive Kosten 1% höher. Noch wichtiger, wenn 1% der Ausfälle zu einer manuellen Überprüfungswarteschlange bei $5 pro Review eskaliert, 1% Ausfallrate bei 1M Aufrufen = 10.000 Ausfälle = $50.000 in manuelle Überprüfung. Die Modell-Genauigkeit wirkt sich direkt auf Review-Kosten aus.

Rate-Limits übersetzen sich in Kapazitäts-Kosten. Pro unsere LLM-Rate-Limits-Seite, begrenzt jedes Anbieter-Tier Anfragen pro Minute und Tokens pro Minute; wenn Ihr Workload die Kappe überschreitet, Sie reihen, wiederholen oder teilen über mehrere Keys — alle addieren Overhead. Budget für Tier-Upgrades neben Modell-Upgrades.

Bottom Line: wählen Sie das Modell, das (Pro-Aufruf-Kosten + Wiederversuchs-Kosten + Überprüfungs-Kosten + Kapazitäts-Kosten) minimiert. Für die meisten Teams ist das ein anderes Modell als das eine, das allein Pro-Aufruf-Kosten minimiert.

Frequently Asked Questions

Welcher ist am günstigsten: GPT, Claude oder Gemini?

Gemini ist der Pro-Token-Preis-Anführer bei jedem Tier in 2026. Gemini 2.5 Flash-Lite bei $0,10/$0,40 pro 1M ist das günstigste Mainstream-Chat-Modell; Claude Haiku 4.5 ($1/$5) und OpenAI gpt-5.4-nano ($0,20/$1,25) sind die günstig-Tier-Konkurrenten. Passen Sie das günstigste Tier, das Ihre Qualitätsanforderung erfüllt.

Ist Gemini günstiger als ChatGPT für Produktions-Workloads?

Ja, bei jedem Tier. Gemini 2.5 Pro ($1,25/$10) ist grob 3–4x günstiger als gpt-5.5 ($5/$30) bei vergleichbarer Qualität auf den meisten Benchmarks. Die Entscheidung dreht sich üblicherweise um Qualitäts-Fit für Ihren spezifischen Workload, Ökosystem-Integration und Reasoning-Anforderungen.

Was ist das günstigste Reasoning-Modell in 2026?

OpenAI o4-mini-reasoning bei $3 Input / $12 Output ist das günstigste Reasoning-Tier unter großen Anbietern im Juni 2026. Claude Fable 5 ($10/$50) ist das teuerste Reasoning-Tier, aber bietet den längsten effektiven Context für Chain-of-Thought-Arbeit.

Wie stapeln sich Batch- und Cache-Rabatte?

Sie multiplizieren. Ein Claude Sonnet 4.6 Input-Token, der sowohl Cache-Hit (0,1x Rate) als auch über Batch eingereicht (0,5x Rate) ist, rechnet bei 0,05x — ein 95%-Rabatt versus Standard-Input-Rate. Bei einem 1M-Aufruf-Workload mit 80% Cache-tauglichen Input senkt die effektive Input-Rechnung von $3.000 auf grob $300.

Enthält die Kosten pro Aufruf Tool Calls?

Tool Call-Argumente werden als Output-Tokens gezählt, und das Tool-Ergebnis, das Sie in der nächsten Runde wiedergeben, wird als Input gezählt. Eine Agenten-Schleife mit 5 Tool Calls vor der Antwort kann das 5–8x-fache des Output eines direkten-Antwort-Aufrufs rechnen. Agenten-Schleifen separat rechnen — siehe unseren AI-Agent-Kostenrechner.

Warum ist Output 5–6x Input über Anbieter?

Token erzeugen erfordert einen vollständigen Forward Pass pro Token, während Input in einem einzigen batch-ed Pass verarbeitet wird. Das 5–6x Output-Verhältnis ist Standard über OpenAI (6x auf den meisten Tiers), Anthropic (5x) und Google (4–8x je nach Modell).

Sollte ich Anbieter wechseln, um 30% zu sparen?

Wahrscheinlich nicht allein — Wechsel-Kosten (Engineering-Zeit, Eval-Drift, Output-Format-Unterschiede, Prompt-Feinabstimmung) überschreiten üblicherweise eine einmalige 30%-Einsparung auf einem stabilen Workload. Wechseln macht Sinn bei 2x Kostenunterschieden, auf Greenfield-Projekten oder wenn der neue Anbieter eine Fähigkeit freischaltet, die der aktuelle nicht kann.

Wo kann ich Live-Anbieter-Preisgestaltung sehen?

OpenAI: developers.openai.com/api/docs/pricing. Anthropic: claude.com/pricing. Google: ai.google.dev/gemini-api/docs/pricing. Alle drei aktualisieren vierteljährlich oder schneller — bestätigen Sie vor dem Budgeting.

Bei einem Input-lastigen Workload (4K In / 200 Out), welcher Anbieter ist wirklich am günstigsten bei 1M Aufrufen?

Gemini 2.5 Flash führt auf reiner Rate-Card: 4.000/1M × $0,30 × 1M + 200/1M × $2,50 × 1M = $1.700/Monat. gpt-5.4-mini bei $3.900/Monat ist nah, sobald Sie Batch API (-50%) anwenden und aggressive Prompt Caching auf der stabilen Taxonomie-Portion — landend bei grob $1.050/Monat All-In versus Gemini Flash grob $1.400 mit schwächeren Caching-Mechanik. Bei Ticket-Zusammenfassung und Klassifizierungs-Pipelines gewinnt gpt-5.4-mini mit vollständigem Rabatt-Stapel üblicherweise mit kleinem Rand und addiert bessere Anweisungs-Einhaltung.

Ist gpt-5.5 für einen synchronen Chatbot bei 500K Gespräche/Monat das 2x-Sonnet-Rechnungs-Doppelte wert?

Fast nie. Bei einem ausgewogenen 1,5K-In / 500-Out-Workload kosten 1M Chat-Aufrufe $22.500/Monat auf gpt-5.5 versus $12.000/Monat auf Sonnet 4.6 bei Standard-Tarif ($14.700 vs $8.670 mit System-Prompt-Caching). Die meisten Blind-Evals bewerten Sonnet 4.6 innerhalb eines Zehntels von gpt-5.5 auf Chat-Workloads; das $6.000+/Monat-Delta macht nur Sinn, wenn ein spezifisches OpenAI-Feature (File Search, Code Interpreter, nativer Vector Store) auf dem kritischen Path ist.

Wie vermeiden Coding Assistants bei 6M Aufrufen/Monat eine $500K+ monatliche Rechnung auf Premium-Modellen?

Gestaffelte Routing, nicht Single-Modell-Auswahl. Ein Coding Assistant, der 75% der Completions an DeepSeek V4 routet (~$11.700/Monat), 20% an Sonnet 4.6 (~$32.000/Monat) und 5% an Claude Fable 5 (~$25.000/Monat) landet bei grob $68.700/Monat mit gemischter Akzeptanz innerhalb eines Punkts zum Ausführen von Fable auf allem (was $570.000/Monat kosten würde). Das günstige Modell bearbeitet Single-Line-Completions; das teure Modell bearbeitet Whole-File-Umschreiben. Output-lastige Workloads belohnen fast immer Routing über eine Single-Modell-Wette.

2026 Anbieter-übergreifendes Cheatsheet abrufen

Einseitige PDF mit allen Flagship-Modell-Ein/Ausgabe-Tarife und der Rabatt-Mathematik. Kostenlos, keine Anmeldungs-Hürde.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.