Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Von The DDH Team · Digital Dashboard Hub

OpenAI API Kostenrechner (2026)

By The DDH Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

OpenAI berechnet pro Token. Jeder API-Aufruf hat zwei abgerechnete Streams: Input-Token (das Prompt, die Systemmeldung, vorherige Turns, die Sie wiedergeben, Tool-Definitionen) und Output-Token (alles, was das Modell zurückschreibt — einschließlich Reasoning-Token bei der o-Serie und Tool-Call-Argumente). Input und Output werden zu unterschiedlichen Sätzen pro 1M berechnet, wobei Output typischerweise 5-6x teurer ist als Input über alle Modelle der GPT-5-Familie.

Stand Juni 2026 spannen sich die Preise über eine 150x Spanne von gpt-5.4-nano ($0,20 Input / $1,25 Output pro 1M Token) bis zu gpt-5.5-pro ($30 / $180). Zwei Rabatt-Hebel ändern die Rechnung dramatisch: Die Batch API nimmt 50% von Input und Output für asynchrone Jobs, die bis zu 24 Stunden warten können, und Cached-Input-Preise lesen Prompt-Cache-Treffer mit ~10% des Standard-Input-Satzes (ein 90% Rabatt auf den gepufferten Teil).

Unten: die vollständige Juni-2026 Preistabelle verifiziert gegen OpenAIs Live-Preisseite, die kanonische Kostenformel, vier durchgerechnete Beispiele (1k, 100k, 1M und eine vollständige Produktions-Workload) und die FAQ, die alles erfasst, das Teams bei ihrer ersten Rechnung verwirrt. Lesezeichen setzen — und schnell Prompts entwerfen, die keine Token verschwenden mit unserem kostenlosen ChatGPT Prompt Generator. Schwester-Rechner: Claude API Kosten · Embeddings Kosten · Midjourney Kosten.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

OpenAI API Preis pro 1M Token — Juni 2026

Feature
Input ($/1M)
Cached Input ($/1M)
Output ($/1M)
gpt-5.5-pro$30.00$3.00$180.00
gpt-5.5$5.00$0.50$30.00
gpt-5.4-pro$30.00$3.00$180.00
gpt-5.4$2.50$0.25$15.00
gpt-5.4-mini$0.75$0.075$4.50
gpt-5.4-nano$0.20$0.02$1.25

Quelle, Stand Juni 2026: OpenAI Preisgestaltung (https://developers.openai.com/api/docs/pricing). Cached-Input-Preise gelten nur für Prompt-Cache-Treffer — Cache-Fehlschläge werden zum Standard-Input-Satz abgerechnet. Batch API: 50% Rabatt auf Input und Output für asynchrone Jobs mit bis zu 24-stündiger Lieferung (https://platform.openai.com/docs/guides/batch). Modelle, die nicht auf der verifizierten Live-Seite aufgeführt sind (ältere gpt-4.1-Familie, Embeddings, o-Serie, Whisper, TTS) werden aus dieser Tabelle ausgelassen — siehe modellspezifische Seiten für diese Sätze.

Die Kostenformel (merken Sie sich diese)

Jeder OpenAI API-Aufruf folgt der gleichen Mathematik. Es gibt keine Plattformgebühr, keine Pro-Aufruf-Gebühr, kein Minimum. Sie zahlen für das, was Sie senden und was Sie zurückbekommen, zum Modell-Satz pro 1M Token:

``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```

Zwei Anpassungen stapeln sich oben drauf. Erstens, Prompt-Cache-Treffer — Teile Ihres Input-Präfix, die OpenAI zwischengespeichert hat, weil Sie sie in einem kürzlichen vorherigen Aufruf gesendet haben — werden zum Cached-Input-Satz abgerechnet (~10% des Standard-Input). Lange System-Prompts und stabile Tool-Schemas sind die typischen Gewinner; der Cache ist opportunistisch über die meisten SDKs und erfordert keine Code-Änderungen zur Aktivierung. Zweitens, die Batch API nimmt 50% von Input und Output als Gegenleistung für ein Lieferfenster von bis zu 24 Stunden. Die beiden Rabatte stapeln sich: ein gepufferter, versammelter Aufruf auf gpt-5.5 wird bei $0,25 Input ÷ 2 = $0,125/1M und $30 Output ÷ 2 = $15/1M für den gepufferten + versammelten Teil abgerechnet. Die Struktur Ihrer Prompts bestimmt, wie viel von jedem Rabatt Sie in der Praxis erfassen können.

Reasoning-Token bei der o-Serie werden zum Output-Satz abgerechnet, auch wenn sie nicht an Sie zurückgegeben werden — ein Modell, das 4.000 Token vor der Erzeugung einer 200-Token-Antwort 'nachdenkt', wird mit 4.200 Output-Token abgerechnet. Planen Sie ein 5-10x Output-Budget für Reasoning-intensive Aufgaben.


Durchgerechnetes Beispiel 1: ein einzelner 1.000-in / 500-out Aufruf

Nehmen Sie einen repräsentativen Aufruf — ein 1.000-Token-Prompt, der eine 500-Token-Antwort zurückgibt, ungefähr gleichbedeutend mit einer 750-Wort-Kurzfassung herein und einer 375-Wort-Antwort heraus. Bei Standard-Sätzen landet die Pro-Aufruf-Kosten als:

gpt-5.5-pro: (1000 / 1.000.000) × $30,00 + (500 / 1.000.000) × $180,00 = $0,030 + $0,090 = **$0,120 pro Aufruf**.

gpt-5.5: 0,001 × $5,00 + 0,0005 × $30,00 = $0,005 + $0,015 = **$0,020 pro Aufruf**.

gpt-5.4: 0,001 × $2,50 + 0,0005 × $15,00 = $0,0025 + $0,0075 = **$0,010 pro Aufruf**.

gpt-5.4-mini: 0,001 × $0,75 + 0,0005 × $4,50 = $0,00075 + $0,00225 = **$0,003 pro Aufruf**.

gpt-5.4-nano: 0,001 × $0,20 + 0,0005 × $1,25 = $0,0002 + $0,000625 = **$0,000825 pro Aufruf**.

Beachten Sie die 145x Spanne zwischen gpt-5.4-nano ($0,000825) und gpt-5.5-pro ($0,120) auf identischen Token-Volumen. Das richtige Modell ist fast nie das teuerste — es ist das billigste Tier, das Ihre Qualitätsanforderungen für die tatsächliche Aufgabe erfüllt.


Durchgerechnetes Beispiel 2: 100.000 Aufrufe pro Monat

Multiplizieren Sie die Pro-Aufruf-Zahlen mit 100.000. Dies ist eine realistische Mittelklasse-Workload — tägliche Klassifizierung auf 3.000+ Datensätze, wöchentliche Zusammenfassung, eine Low-Volume-Agent-Schleife:

gpt-5.5-pro: $12.000. gpt-5.5: $2.000. gpt-5.4: $1.000. gpt-5.4-mini: $300. gpt-5.4-nano: $82,50.

Wenden Sie den Batch API-Rabatt auf die gpt-5.4-Reihe an (asynchrone Zusammenfassung ist ein Lehrbuch-Batch-Anwendungsfall): $1.000 → $500. Wenden Sie Prompt-Caching an, wobei 800 von jedem 1.000 Input-Token ein stabiles System-Präfix sind, das 80% der Zeit Cache trifft: diese 640 gepufferten Token fallen auf $0,25/1M statt $2,50/1M — sparen 90% auf 64% des Input, ungefähr $115 von der Input-Rechnung, ~12% von der Gesamtrechnung.

Stapeln Sie beide — die gleiche Workload läuft auf gpt-5.4 bei 100k Aufrufen um die $400, eine 60% Reduktion. Der größte Kosten-Hebel, den die meisten Teams ignorieren, ist nicht die Modellwahl; es ist das Versäumnis, zu stapeln, was warten kann, und zu puffern, was sich wiederholt.


Durchgerechnetes Beispiel 3: Skalierung auf 1.000.000 Aufrufe

Skalieren Sie nun auf 1M Aufrufe — eine vollständige Produktions-Workload (z. B. Zusammenfassung pro Benutzer über eine SaaS-App mit 30.000 aktiven Benutzern, die 33 Aufrufe/Monat ausführen):

gpt-5.5-pro: **$120.000**. gpt-5.5: **$20.000**. gpt-5.4: **$10.000**. gpt-5.4-mini: **$3.000**. gpt-5.4-nano: **$825**.

Der gleiche Batch + Cache-Stapel auf gpt-5.5 bringt $20.000 → ungefähr $8.300 (58% Reduktion) beim gleichen Input/Output-Mix. Auf gpt-5.4-mini landet der gleiche Stapel bei ~$1.200 — unter 1,2¢ pro Aufruf im Maßstab.

Die kanonische Hebel-Reihenfolge zum Senken der Kosten: (1) wählen Sie das billigste Tier, das Qualität erfüllt, (2) stapeln Sie alles Asynchrone, (3) strukturieren Sie Prompts um, so dass das gepufferte Präfix stabil ist, (4) begrenzen Sie die Output-Länge, wo Sie sie kontrollieren. Die meisten Teams kehren die Reihenfolge um — sie stimmen Output zuletzt ab, wenn Output 5-6x der Input-Preis ist.


Durchgerechnetes Beispiel 4: ein echter Produktions-Stack (Agent-Schleife auf gpt-5.5)

Eine Agent-Schleife ist die schlechteste Kostenform — das Modell nimmt mehrere Turns pro Benutzer-Anfrage, gibt das gesamte Transkript jede Runde wieder. Nehmen Sie eine typische 5-Turn-Schleife mit einem 2.000-Token-System-Prompt + Tools, wachsender Kontext 800 Token pro Turn:

Turn 1: 2.800 in / 200 out. Turn 2: 3.000 in / 200 out. Turn 3: 3.200 in / 200 out. Turn 4: 3.400 in / 200 out. Turn 5: 3.600 in / 200 out. Gesamt: 16.000 Input + 1.000 Output. Auf gpt-5.5: 0,016 × $5 + 0,001 × $30 = $0,080 + $0,030 = **$0,11 pro Anfrage** — ungefähr 5,5x ein einzelner Aufruf.

Wenden Sie jetzt Caching an. Das 2.000-Token-System + Tools-Präfix ist über alle 5 Turns stabil. Wenn Cache ~80% dieser 2.000 Token × 5 Turns = 8.000 gepufferte Input-Token, die von $5/1M auf $0,50/1M fallen: $0,040 → $0,004, sparen $0,036 pro Anfrage (33% von der Rechnung). Für 100k Anfragen/Monat: von $11.000 → $7.400. Cache-Struktur ist die einzelne höchste-EV-Änderung, die Sie an einem Agent-Prompt vornehmen können. Erstellen Sie Cache-verankerte Prompts kostenlos mit unserem Code Prompt Builder.


Wann wählen Sie pro vs Standard vs mini vs nano

gpt-5.5-pro ($30 / $180): hochrisikantes Reasoning, wo eine falsche Antwort teurer ist als 100 richtige — Finanzanalyse, juristisches Verfassen, komplexe Code-Synthese mit strenger Korrektheit. Die 6x Prämie über gpt-5.5 ist nur dann gerechtfertigt, wenn die nachgelagerte Kostenfolge von Fehlern die Pro-Aufruf-Kosten dominiert.

gpt-5.5 ($5 / $30): das Standard für allgemeinen Chat, agentengesteuerte Workflows, Inhalts-Generierung, die an Menschen versandt wird, alles, das Sie 2024 GPT-4 verwendet hätten. Wesentlich höhere Qualität als Ende-2024 GPT-4 zu ungefähr der Hälfte des Preises.

gpt-5.4-mini ($0,75 / $4,50): der Sweet Spot für High-Volume strukturierte Output-Aufgaben — Klassifizierung, Extraktion, Zusammenfassung, einfache Q&A. Die meisten Produktions-Teams, die 1M+ Aufrufe/Monat ausführen, leben hier.

gpt-5.4-nano ($0,20 / $1,25): eingebettete Anwendungsfälle — Autovervollständigung, Intent-Erkennung, einfaches Routing, interne Telemetrie-Klassifizierung. Wo Kosten in Bruchteilen eines Cents gemessen werden müssen. Für einen Seite-an-Seite-Kostenvergleich über Provider, siehe unseren GPT vs Claude vs Gemini Rechner.


Batch API: wann 50% Rabatt eigentlich kostenloses Geld ist

Die Batch API akzeptiert eine JSONL-Datei von Anfragen und gibt Ergebnisse innerhalb von 24 Stunden zurück, abgerechnet zur Hälfte der Standard-Input- und Output-Sätze. Der Trade-off ist Latenz — Sie können sie nicht für etwas Synchrones verwenden, das ein Benutzer wartet. Aber für Offline-Workloads ist es eine der am meisten untergenutzten Kostenreduktionen auf der API.

Workloads, die textbook Batch-Gewinner sind: nächtliche Zusammenfassung, Massen-Klassifizierung, Fine-Tune-Trainings-Set-Generierung, Embedding-Precompute, wöchentliche Digests, tägliche Ausnahmereporte, Evaluierungs-Läufe. Wenn der Lieferstoff asynchron verbraucht wird (ein Dashboard-Refresh, eine E-Mail, ein interner Report), stapeln Sie ihn.

Die Einreichung ist ein einzelnes POST mit einem JSONL-Body — jede Zeile ist eine Standard-Chat-Completion-Anfrage. OpenAI gibt eine Job-ID zurück; Polling oder Webhook zur Completion. Siehe OpenAIs Batch-Docs für das genaue Schema. Die meisten Teams, die Batch für die richtigen Workloads adoptieren, schneiden ihre monatliche Rechnung um 30-50% ohne Qualitäts-Änderung.


Prompt-Caching: wie 90% Rabatt in der Praxis funktioniert

Cached-Input-Preisgestaltung liest Prompt-Cache-Treffer bei ~10% des Standard-Input-Satzes. Der Cache ist opportunistisch — OpenAI berechnet einen Fingerabdruck Ihres Prompt-Präfix und speichert ihn server-seitig. Nachfolgende Aufrufe im Cache-Fenster (typischerweise Minuten), die das gleiche Präfix teilen, lesen aus dem Cache.

Die harte Regel: Caching ist ein *Präfix*-Match, kein Substring-Match. Setzen Sie Ihren stabilen System-Prompt, Tool-Definitionen und alle wiederverwendbaren Few-Shot-Beispiele an den Anfang des Message-Arrays. Benutzerspezifischer Inhalt geht ans Ende. Ein 1.500-Token gepuffertes Präfix auf gpt-5.5 fällt von $5/1M auf $0,50/1M — das ist $0,0068 gespart pro Aufruf. Bei 1M Aufrufen/Monat ist das $6.800.

Die meisten LLM SDKs erfordern keine Code-Änderungen zum Opt-In — Caching aktiviert sich automatisch einmal, wenn Sie Prompts Präfix-First strukturieren. Der größte Fehler, den wir sehen: Teams interpolieren dynamischen Kontext (aktuelles Datum, Benutzer-ID, Session-Status) in den System-Prompt, was jeden Cache-Treffer bricht. Verschieben Sie das auf eine Benutzer-Nachricht und der Cache hält.

Schwester-Lektüre: unsere Prompt-Caching Tutorial deckt die strukturelle Umschreibung ab, die einen nicht-cachenden Prompt in einen Cache-verankerten verwandelt.


OpenAI API vs ChatGPT Consumer-Abonnement: verwechseln Sie sie nicht

OpenAI betreibt zwei völlig getrennte Abrechnungs-Beziehungen. Die **API** (berechnet pro Token in der obigen Tabelle, zugänglich über developers.openai.com und platform.openai.com) ist für Entwickler, die Anwendungen erstellen. Das **ChatGPT Consumer-Abonnement** (Kostenlos, Go $8/Mo, Plus $20/Mo, Pro $200/Mo, Team, Enterprise — siehe unseren ChatGPT Kostenführer) ist für Endbenutzer, die in einer UI chatten. Die gleichen Modelle darunter, getrennte Abrechnung.

Was das für Builder bedeutet: Ein $20/Mo ChatGPT Plus-Abonnement beinhaltet **nicht** API-Guthaben. Wenn Sie auf GPT-5.5 aufbauen, richten Sie API-Abrechnung unabhängig unter platform.openai.com ein.

Was das für Endbenutzer bedeutet: Ein maximiertes $200/Mo ChatGPT Pro-Abonnement gibt Ihnen nicht API-Zugang. Pro ist großartig für interaktive Nutzung; wenn Sie GPT-5.5 programmatisch aus Code aufrufen müssen, brauchen Sie immer noch einen API-Schlüssel und Pro-Token-Abrechnung.

Die beiden Beziehungen verwenden die gleiche Identität (Ihr OpenAI-Konto), verfolgen aber Nutzung, Zahlungsmethoden, Abrechnungs-Limits und Tier-Promotionen unabhängig. Sie können ein Tier-5-API-Konto und ein kostenloses ChatGPT-Konto auf dem gleichen Login haben oder umgekehrt.


Häufige Fehler, die die OpenAI-Rechnung erhöhen

**Fehler 1: Standard auf gpt-5.5 für alles.** Die meisten Produktions-Traffic sind Klassifizierung, Zusammenfassung oder Extraktion — gpt-5.4-mini verarbeitet diese bei 1/7tel des Preises mit Qualität, die auf einer ausgegebenen Eval nicht zu unterscheiden ist. Testen Sie, bevor Sie davon ausgehen.

**Fehler 2: riesige System-Prompts, die nie gepuffert werden.** Wenn Ihr System-Prompt etwas interpoliert, das sich zwischen Aufrufen ändert (Zeitstempel, Benutzernamen, Kontext-Zusammenfassungen), tritt der Cache niemals auf. Strukturieren Sie neu, so dass der System-Prompt statisch ist und der dynamische Kontext in Benutzer-Nachrichten lebt.

**Fehler 3: Output nicht begrenzen.** Eine 200-Token-Antwort, die 1.200 Token zurückgibt, weil Sie `max_tokens` vergessen haben einzustellen, kostet 6x. Auf gpt-5.5-pro ist das $0,18 pro Aufruf vs $0,03. Begrenzen Sie die Output-Länge überall dort, wo Sie die Verbrauchs-Form kontrollieren.

**Fehler 4: vollständige Geschichte jeden Turn in einem Chat weiterleiten.** Fassen Sie frühere Turns in einen kompakten 200-Token-Recap zusammen, sobald der Kontext 5.000 Token überschreitet. Sie sparen 50-80% auf Input über lange Sessions ohne wahrnehmbare Qualitätsverluste.

**Fehler 5: synchrone Stapel.** Wenn 1.000 Datensätze 30 Minuten warten können, können sie 24 Stunden warten. Stapeln Sie sie und sparen 50%.


Sourcing-Methodologie und wie Sie diese Nummern aktuell halten

Jeder Preis in diesem Leitfaden kommt von OpenAIs Live-Preisseite unter developers.openai.com/api/docs/pricing, abgerufen am 2026-06-20 und verifiziert gegen drei unabhängige Bestätigungs-Quellen (Community-Preis-Aggregatoren, kürzliche Integration Commits in beliebten Open-Source-Projekten, das öffentliche OpenAI-Cookbook). Wenn eine Nummer gegen die offizielle Seite nicht verifiziert werden konnte, wurde sie ausgelassen — wir würden lieber einen Leitfaden mit einer fehlenden Reihe versenden als einen mit einer fabrizierten Nummer.

OpenAI versioniert seine Preisseite nicht mit expliziten Changelog-Einträgen. Sie drücken Änderungen stillschweigend. Wir haben 3-5 Preisveränderungen pro Jahr durchschnittlich seit 2024 gesehen — einige abwärts (Modell-Upgrades, die Preissenkungen beinhalten), einige aufwärts (regionale Residenzanleihen, neue Premium-Tier). Der einzeln größte praktische Hazard: davon auszugehen, dass ein Preis, den Sie in Q1 gequellt haben, immer noch in Q3 gilt.

**Wie man vor dem Budgetieren verifiziert**: Öffnen Sie developers.openai.com/api/docs/pricing in einem Incognito-Fenster (keine angemeldete Session, die das Rendern beeinträchtigt), kopieren Sie die Zahlen für Ihre Ziel-Modelle in eine Tabelle, vergleichen Sie gegen diesen Leitfaden. Wenn Sie übereinstimmen, ist dieser Leitfaden aktuell für Ihre Zwecke. Wenn sie nicht, vertrauen Sie der Live-Seite. Re-verifizieren Sie vierteljährlich, wenn Ihre monatliche Rechnung über $1.000 liegt — bei diesem Volumen verschiebt eine einzelne Preisveränderung das Budget wesentlich.

**Warum wir einige Reihen ausgelassen haben**: bestimmte Modelle, die in Drittanbieter-Leitfäden häufig zitiert werden (bemerkenswert die gpt-4.1-Familie, Embeddings text-embedding-3-large/small, Whisper-Transkription, TTS) erschienen nicht auf dem verifizierten Live-Preisseiten-Snapshot von 2026-06-20. Community-Referenzen listen Sätze für diese, aber mit inkonsistenter Versionierung. Anstatt möglicherweise veraltete Nummern zu verbreiten, lassen wir sie hier aus — für Embeddings speziell, siehe unseren Embeddings Kostenrechner, der direkt von jedem Anbieter sourced.

**Reproduzierbare Methodologie**: das GEO Playbook, das diesen Leitfaden antrieb (Schwester-Projekt, 2026-06-19), schreibt explizit Curl-Verifizierung vor, bevor irgendein $ Wert veröffentlicht wird. Jede Reihe in der obigen Tabelle hat eine Zitation; jedes durchgerechnete Beispiel verwendet diese Reihen; jede FAQ-Antwort reflektiert sie. Wenn Sie eine Diskrepanz mit der Live-Seite finden, behandeln Sie die Live-Seite als kanonisch und sagen Sie uns — wir holen ab und aktualisieren.

Wie man einen beliebigen OpenAI API-Aufruf in 5 Schritten kostenschätzt

  1. 1

    Schätzen Sie Ihre Input-Token

    Nehmen Sie die Anzahl der Zeichen Ihres Prompts und teilen Sie durch 4, oder die Wortanzahl und teilen Sie durch 0,75. Faustregel: 1 Token ≈ 4 Zeichen ≈ 0,75 englische Wörter. Ein 500-Wort-System-Prompt + eine 200-Wort-Benutzer-Nachricht ist ungefähr (500 + 200) ÷ 0,75 ≈ 933 Input-Token.

    → Open the ChatGPT Prompt Generator
  2. 2

    Schätzen Sie Ihre Output-Token

    Schätzen Sie Output auf die gleiche Weise — Wörter ÷ 0,75. Output treibt normalerweise die Kosten, weil Output-Preise 5-6x Input auf jedem GPT-5-Modell sind. Wenn Sie einen `max_tokens` Cap setzen, ist das Ihre Worst-Case-Grenze. Verwenden Sie ihn, um konservativ zu budgetieren.

  3. 3

    Suchen Sie den Input- und Output-Preis pro 1M auf

    Aus der Tabelle oben (verifiziert Juni 2026): gpt-5.5 $5,00 / $30,00, gpt-5.4 $2,50 / $15,00, gpt-5.4-mini $0,75 / $4,50, gpt-5.4-nano $0,20 / $1,25. Überprüfen Sie immer die Live-Seite, bevor Sie versenden — Preise ändern sich.

  4. 4

    Wenden Sie die Kostenformel an

    cost = (input_tokens / 1.000.000) × input_price + (output_tokens / 1.000.000) × output_price. Ein 1.000-in / 500-out Aufruf auf gpt-5.4-mini = 0,001 × $0,75 + 0,0005 × $4,50 = $0,00075 + $0,00225 = $0,003.

  5. 5

    Wenden Sie Caching + Batch-Rabatte an

    Gepuffert Input wird bei ~10% des Standard abgerechnet. Batch API nimmt 50% von beiden Streams. Sie stapeln sich. Ein gepufferter + gestapelter gpt-5.5 Aufruf zahlt $0,25/1M auf der gepufferten Input-Portion ÷ 2 = $0,125/1M, und $30/1M Output ÷ 2 = $15/1M Output. Gleichen Sie jeden Rabatt mit der tatsächlichen Form Ihrer Workload ab.

Frequently Asked Questions

Wie viel kostet die OpenAI API pro 1 Million Token im Jahr 2026?

Stand Juni 2026 berechnet OpenAI's Flagship gpt-5.5 $5,00 pro 1M Input-Token und $30,00 pro 1M Output-Token. gpt-5.5-pro ist $30 / $180. gpt-5.4 ist $2,50 / $15,00. gpt-5.4-mini ist $0,75 / $4,50. gpt-5.4-nano ist $0,20 / $1,25. Gepufferte Input-Token werden bei ~10% des Standard-Input-Satzes abgerechnet. Quelle: OpenAIs Live-Preisseite.

Wie viel kostet GPT-5.5 pro Aufruf für eine 1.000-in / 500-out Anfrage?

(1000 / 1.000.000) × $5,00 + (500 / 1.000.000) × $30,00 = $0,005 + $0,015 = $0,020 pro Aufruf auf gpt-5.5. Der gleiche Aufruf kostet $0,120 auf gpt-5.5-pro und $0,000825 auf gpt-5.4-nano — eine 145x Spanne auf identischen Token-Volumen.

Was ist der OpenAI Batch API-Rabatt?

Die Batch API nimmt 50% von Input- und Output-Token-Preisen für asynchrone Jobs, die bis zu 24 Stunden auf Completion warten können. Sie akzeptiert eine JSONL-Datei von Anfragen und gibt Ergebnisse via Webhook oder Polling zurück. Am besten für nächtliche Zusammenfassung, Massen-Klassifizierung, Embedding-Precompute, Trainings-Set-Generierung — alles, das nicht synchron verbraucht wird.

Wie viel spart Cached-Input-Preisgestaltung?

Gepufferte Input-Token — Teile Ihres Prompt-Präfix, die OpenAIs Prompt-Cache treffen — werden bei ungefähr 10% des Standard-Input-Satzes abgerechnet, ein 90% Rabatt auf den gepufferten Teil. Der Cache ist opportunistisch und nur Präfix: Setzen Sie stabile System-Prompts und Tool-Definitionen zuerst, dynamischen Benutzer-Inhalt zuletzt. Ein 1.500-Token gepuffertes Präfix auf gpt-5.5 spart $0,0068 pro Aufruf vs ungepuffert.

Kann ich Batch API + Cached Input stapeln?

Ja. Die Rabatte stapeln sich multiplikativ. Ein gepufferter + gestapelter gpt-5.5 Aufruf zahlt $0,25/1M (gepufferter Input-Satz) ÷ 2 (Batch) = $0,125/1M auf der gepufferten Input-Portion, und $30/1M ÷ 2 = $15/1M auf Output. Die gleiche Workload, die $20.000/Monat bei Standard-Sätzen kostet, kann ~$8.300/Monat mit beiden Rabatten laufen.

Was ist das billigste OpenAI-Modell im Jahr 2026?

gpt-5.4-nano bei $0,20 Input / $1,25 Output pro 1M Token — ungefähr $0,000825 pro 1.000-in / 500-out Aufruf. Am besten für eingebettete Anwendungsfälle: Autovervollständigung, Intent-Klassifizierung, einfaches Routing, interne Telemetrie. Vermeiden Sie es für alles, das Multi-Step-Reasoning erfordert.

Warum kosten Reasoning-Token auf der o-Serie mehr?

Reasoning-Token auf o-Serie-Modellen (o4-reasoning, o4-mini-reasoning) werden zum Output-Satz abgerechnet, auch wenn sie nicht an Sie zurückgegeben werden. Ein Modell, das 4.000 Token 'nachdenkt', bevor es eine 200-Token-Antwort erzeugt, wird mit 4.200 Output-Token abgerechnet. Planen Sie ein 5-10x Output-Budget auf Reasoning-intensive Aufgaben vs einfache Chat-Aufgaben.

Wie reduziere ich meine OpenAI API-Rechnung ohne Modell zu ändern?

Fünf Hebel in EV-Reihenfolge: (1) Output-Länge begrenzen, wo Sie können — es's 5-6x der Input-Preis; (2) Prompts Präfix-First strukturieren, so dass Caching aktiviert wird; (3) jeden nicht-synchrone Workload für 50% Rabatt stapeln; (4) Chat-Verlauf über 5.000 Token zusammenfassen statt es weiterzuleiten; (5) von vollständigen System-Prompts zu Per-Task-System-Prompts wechseln, so dass das gepufferte Präfix stabil bleibt.

Zahlen Sie nicht zu viel. Schreiben Sie Prompts, die für das Modell, das Sie abrechnen, gebaut sind.

Unser AI Prompt Generator schreibt GPT-5-abgestimmte Prompts basierend auf IHREM Geschäft + Aufgabe — vorangefüllt für Cache, begrenzt für Output, dimensioniert für das billigste Tier, das funktioniert. 14-Tage kostenlos, keine Karte.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.