Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Vom DDH Team · Digital Dashboard Hub

OpenAI API Preise 2026: Die vollständige Preistabelle pro Modell

By DDH Research Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

OpenAI berechnet pro Token, angegeben in Dollar pro 1.000.000 Token, und rechnet Ein- und Ausgabe separat ab. Im Juni 2026 kostet die GPT-5.5-Familie $5,00 Eingabe / $30,00 Ausgabe pro 1M Token in der Standard-Version und $30,00 / $180,00 für gpt-5.5-pro, während die leichtere gpt-5.4-nano $0,20 / $1,25 kostet – eine Spanne von 150x zwischen den billigsten und teuersten Hauptendpunkten. Die Ausgabe ist bei jedem Modell fast immer 5-6x teurer als die Eingabe.

Zwei Rabattmechanismen beeinflussen die Rechnung erheblich: Die Batch API senkt Ein- und Ausgabe um 50% für asynchrone Jobs, die bis zu 24 Stunden warten können, und Prompt-Cache-Eingabepreise berechnen Cache-Treffer mit etwa 10% der Standard-Eingaberate. Unten ist die vollständige Preistabelle basierend auf OpenAIs Live-Preisseite, gefolgt von praktischen Beispielen, die die Zahlen in tatsächliche Dollar pro 1k, 100k und 1M Aufrufe umwandeln. Bestätigen Sie die Rates auf der OpenAI-Preisseite, bevor Sie budgetieren – diese ändern sich häufig. Schätzen Sie schnell Ihre eigene Workload mit unserem KI-Prompt-Kostenrechner oder greifen Sie zum kostenlosen 2026 LLM-Preisreferenz PDF für eine druckbare Übersicht.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

OpenAI API Preis pro 1M Token – Juni 2026

Feature
Eingabe ($/1M)
Gecachte Eingabe ($/1M)
Ausgabe ($/1M)
gpt-5.5-pro$30.00$3.00$180.00
gpt-5.5$5.00$0.50$30.00
gpt-5.4$2.50$0.25$15.00
gpt-5.4-mini$0.75$0.075$4.50
gpt-5.4-nano$0.20$0.02$1.25
o4-reasoning$15.00$1.50$60.00
o4-mini-reasoning$3.00$0.30$12.00
gpt-4.1$2.00$0.50$8.00
gpt-4.1-mini$0.40$0.10$1.60
gpt-4.1-nano$0.10$0.025$0.40
text-embedding-3-large$0.13
text-embedding-3-small$0.02

Quellen, Juni 2026: OpenAI Preise (https://developers.openai.com/api/docs/pricing), OpenAI Batch API Dokumentation (https://platform.openai.com/docs/guides/batch). Gecachte Eingabepreise gelten nur für Prompt-Cache-Treffer, bei denen dasselbe Präfix innerhalb des Cache-Fensters wiederverwendet wird; Cache-Misses werden zum Standard-Eingabepreis berechnet.

Wie OpenAI Sie Zeile für Zeile abrechnet

Jeder API-Aufruf generiert zwei abzurechnende Datenströme: Eingabe-Token (der Prompt, die Systemmeldung, alle Tool-Definitionen und alle vorherigen Turns, die Sie wiedergeben) und Ausgabe-Token (alles, was das Modell zurückschreibt, einschließlich Reasoning-Token in der o-Serie und Tool-Call-Argumente). Sie werden separat berechnet und unabhängig auf der Rechnung aufgelistet.

Die Formel ist gegenüber früheren API-Versionen unverändert:

``` cost = (input_tokens / 1,000,000) * input_price_per_M + (output_tokens / 1,000,000) * output_price_per_M ```

Zwei Anpassungen sind 2026 wichtig. Erstens, Prompt-Cache-Eingabe-Token – Teile Ihres Prompts, die den OpenAI Prompt-Cache innerhalb des Cache-Fensters treffen – werden mit etwa 10% der Standard-Eingaberate berechnet. Der Cache ist opportunistisch und erfordert keine Code-Änderungen für viele SDKs; lange System-Prompts und wiederverwendete Tool-Schemas sind die typischen Gewinner. Zweitens erhalten Anfragen, die über die Batch API eingereicht werden, 50% Rabatt auf Ein- und Ausgabe, im Gegenzug für ein Lieferfenster von bis zu 24 Stunden. Diese beiden Rabatte stapeln sich auf den Grundpreisen und sind der größte Kosthebel, den die meisten Teams übersehen.

Reasoning-Token in der o-Serie (o4-reasoning, o4-mini-reasoning) werden mit der Ausgaberate berechnet, obwohl sie nicht an Sie zurückgegeben werden. Ein Modell, das 4.000 Token "denkt", bevor es eine 200-Token-Antwort erzeugt, rechnet 4.200 Ausgabe-Token ab. Planen Sie für Reasoning-intensive Aufgaben ein 5-10x Ausgabebudget im Vergleich zu direkten Chat-Aufgaben ein.


Praktisches Beispiel 1: ein 1.000 Eingabe / 500 Ausgabe Aufruf auf jeder Stufe

Nehmen Sie einen repräsentativen Aufruf – einen 1.000-Token-Prompt, der eine 500-Token-Antwort zurückgibt, ungefähr einer 750-Wort-Zusammenfassung ein und einer 375-Wort-Antwort aus. Die Pro-Aufruf-Kosten zu Standard-Rates lauten wie folgt:

gpt-5.5-pro: (1000/1.000.000 × $30,00) + (500/1.000.000 × $180,00) = $0,030 + $0,090 = $0,120 pro Aufruf. gpt-5.5: (0,001 × $5,00) + (0,0005 × $30,00) = $0,005 + $0,015 = $0,020 pro Aufruf. gpt-5.4: $0,0025 + $0,0075 = $0,010. gpt-5.4-mini: $0,00075 + $0,00225 = $0,003. gpt-5.4-nano: $0,0002 + $0,000625 = $0,000825. o4-reasoning (angenommen 2.000 Reasoning + 500 sichtbare Ausgabe): $0,015 Eingabe + $0,150 Ausgabe = $0,165 pro Aufruf.

Beachten Sie die 145x Spanne zwischen gpt-5.4-nano ($0,000825) und gpt-5.5-pro ($0,120) bei identischen Token-Volumen. Das richtige Modell ist fast nie das teuerste; es ist die billigste Stufe, die Ihre Qualitätsanforderungen erfüllt.

Wenn Sie die billigste Stufe zuerst testen möchten, verfassen Sie sauberere Prompts, die ein kleineres Modell mit unserem ChatGPT Prompt Generator überstehen. Prägnantere Eingaben reduzieren die Token-Anzahl und verlagern die Workload auf die günstigere Preisstufe.


Praktisches Beispiel 2: Skalierung auf 100.000 und 1.000.000 Aufrufe

Multiplizieren Sie die obigen Pro-Aufruf-Zahlen mit 100.000 (ein mittleres Batch-Klassifikations- oder Zusammenfassungsprojekt) und 1.000.000 (eine vollständige Produktionsworkload):

100k Aufrufe – gpt-5.5-pro: $12.000. gpt-5.5: $2.000. gpt-5.4: $1.000. gpt-5.4-mini: $300. gpt-5.4-nano: $82,50. o4-reasoning (mit 2k Reasoning-Token): $16.500.

1M Aufrufe – gpt-5.5-pro: $120.000. gpt-5.5: $20.000. gpt-5.4: $10.000. gpt-5.4-mini: $3.000. gpt-5.4-nano: $825. o4-reasoning: $165.000.

Wenden Sie nun den Batch API Rabatt (-50% Ein- und Ausgabe) auf die gpt-5.5 Zeile an: $20.000 wird $10.000 bei 1M Aufrufen. Wenden Sie Prompt-Caching an, wobei 800 von 1.000 Eingabe-Token ein stabiles System-Präfix sind, das 80% der Zeit Cache trifft: Diese 640 gecachten Token kosten $0,50/1M statt $5/1M, sparen 90% auf 64% der Eingabe – ungefähr $2.880 off the $4.000 Eingaberechnung bei 1M Aufrufen, oder etwa 14% der Gesamtsumme. Kombinieren Sie beide Rabatte und die gleiche Workload läuft ungefähr $8.300 – eine 58%ige Einsparung gegenüber dem Standard-Preis.

Dies sind die kanonischen Hebel. Passen Sie zuerst die Modellstufe an die Aufgabenschwierigkeit an, dann batch, was warten kann, dann cache, was sich wiederholt.


Wann man Pro, Standard, Mini oder Nano wählt

gpt-5.5-pro wurde für hochriskantes Reasoning entwickelt, bei dem eine einzige falsche Antwort teurer ist als 100 richtige – Finanzanalyse, rechtliche Texterstellung, komplexe Code-Synthese mit strikten Korrektheitserfordernissen. Die 6x Premium gegenüber gpt-5.5 ist nur gerechtfertigt, wenn die nachgelagerte Fehlerkosten die Pro-Aufruf-Kosten dominieren. Für den meisten produktiven Chat-Verkehr ist es Overkill.

gpt-5.5 ist der Standard für allgemeine Chat, agentengesteuerte Workflows, Inhaltsgenerierung, die an Menschen versendet wird, und jede Aufgabe, für die Sie 2024 GPT-4 verwendet hätten. Bei $5/$30 ist es ungefähr halb so teuer wie GPT-4 aus dem späten 2024 mit wesentlich höherer Qualität.

gpt-5.4-mini ($0,75/$4,50) ist der Sweet Spot für hochvolumige strukturierte Ausgabenaufgaben: Klassifikation, Extraktion, Zusammenfassung, einfache Q&A. Die meisten Teams mit 1M+ Aufrufen pro Monat sitzen hier. gpt-5.4-nano ($0,20/$1,25) ist für eingebettete Anwendungsfälle – Autovervollständigung, Absichtserkennung, einfaches Routing – wo die Kosten in Bruchteilen eines Cent gemessen werden müssen.

Die o-Serie (o4-reasoning, o4-mini-reasoning) berechnet Reasoning-Token mit der Ausgaberate, verwenden Sie sie also nur, wenn Chain-of-Thought die Genauigkeit bei schwierigen Problemen wesentlich verbessert. Für unkomplizierte Generierung sind die Non-Reasoning-Modelle 5-10x billiger für gleichwertige Qualität. Siehe OpenAIs Reasoning-Leitfaden für die kanonische Aufschlüsselung.


Batch API: wenn 50% Rabatt tatsächlich kostenloses Geld ist

Die Batch API akzeptiert eine JSONL-Datei von Anfragen und gibt Ergebnisse innerhalb von 24 Stunden zurück, berechnet mit der Hälfte der Standard-Ein- und Ausgabepreise. Der Tradeoff ist Latenz – Sie können sie nicht für alles verwenden, auf das ein Benutzer synchron wartet. Aber für Offline-Workloads ist es eine der am meisten unterschätzten Kostenreduktionen in der API.

Kanonische Passfälle: nächtliche Zusammenfassung von gestrigen Tickets, wöchentliche Klassifikation von Marketing-Leads, monatliche Anreicherung von CRM-Kontakten, einmalige Anreicherung eines 500k-Zeilen-Datensatzes. Wenn die Aufgabe nicht innerhalb von Sekunden zurückgegeben werden muss, batchen Sie sie.

Anti-Passfälle: Live-Chat, Voice-Agents, alles in einer Checkout-Funnel, alles, bei dem Menschen die Antwort in Echtzeit lesen. Das Latenz-Fenster zerstört die Benutzererfahrung.

Praktische Mathematik: ein 1M-Aufruf gpt-5.5 Zusammenfassungsjob kostet $20.000 zum Standard-Preis. Der gleiche Job über Batch kostet $10.000. Wenn die Arbeit bis morgen warten kann, ist der Rabatt kostenlos. Bestätigen Sie aktuelle Batch-Bedingungen gegen OpenAIs Batch-Dokumentation.


Prompt-Caching: 10%-Preise auf wiederholten Präfixen

OpenAIs Prompt-Cache speichert aktuelle Prompt-Präfixe und serviert übereinstimmende Präfixe aus dem Cache statt sie erneut zu tokenisieren, berechnet den übereinstimmenden Teil mit etwa 10% der Standard-Eingaberate. Der Cache ist automatisch für die meisten SDK-Pfade; was Sie kontrollieren, ist, ob Ihre Prompts ein stabiles, wiederverwendbares Präfix wert cachen haben.

Cache-freundliche Prompt-Struktur: eine lange feste Systemmeldung (Anweisungen, Stilanleitung, Beispiele), ein stabiler mittlerer Block (Tool-Definitionen, Referenzdokumentation), dann ein kurzer variabler Schwanz (die tatsächliche Frage des Benutzers). Je länger der gecachte Teil und je öfter er sich innerhalb des Cache-Fensters wiederholt, desto größer die Einsparungen.

Praktische Mathematik: ein Chatbot mit einem 2.000-Token-System-Prompt, der Cache bei 90% der 100.000 täglichen Aufrufe trifft. Ohne Caching kosten System-Prompts allein (2.000 × 100.000 / 1.000.000) × $5 = $1.000 pro Tag auf gpt-5.5. Mit 90% Cache-Treffern bei $0,50/1M kosten die gecachten 1,8M Eingabe-Token $0,90 – eine 99,9%ige Einsparung auf dem gecachten Teil – und die restlichen 10% werden mit $1,00 berechnet, insgesamt $1,90 pro Tag für System-Prompt-Eingabe. Gleiche Workload, $998 weniger.

Caching hilft nicht, wenn Ihre Prompts bei jedem Aufruf einzigartig sind oder der variable Teil am Anfang des Prompts steht. Verschieben Sie stabilen Text nach vorne, variablen Text nach hinten, und der Cache wird den Rest übernehmen. Siehe OpenAIs Prompt-Caching-Dokumentation für das Cache-Fenster und Berechtigungsregeln.


Vision-, Audio- und Tool-Use-Zuschläge

Bildeingaben in der GPT-5.5-Familie werden basierend auf der Auflösung in Token umgewandelt. Ein 1024×1024 Bild wird mit etwa 765 Eingabe-Token auf dem Standard-Tier berechnet; ein 2048×2048 Bild mit etwa 1.445 Token. Bei $5/1M auf gpt-5.5 sind das $0,0038 und $0,0072 pro Bild – nicht unerheblich, wenn Sie Millionen von Bildern pro Monat verarbeiten.

Audio-Eingabe über die Realtime- und Audio-Endpunkte wird separat von Text und mit höheren Raten berechnet – ungefähr $40/1M Eingabe-Token und $80/1M Ausgabe-Token auf gpt-5.5-audio ab Juni 2026. Ein 1-minütiger gesprochener Austausch kostet $0,06-$0,12 abhängig von der Sprachdichte.

Tool-Calls selbst werden als Ausgabe-Token berechnet – sowohl der Funktionsname, die Argumente als auch das Tool-Ergebnis, das Sie zurück in das Modell echoen. Agenten-Schleifen mit 5-10 Tool-Calls pro Turn können die Ausgabe eines direkten Antwort-Turns 10x berechnen, weshalb Agent-Kosten fast immer ausgabedomiert sind. Wir schlüsseln die Agent-Loop-Mathematik in unserem KI-Agent-Kostenrechner auf.


Realtime API und Voice/Audio Preise – tiefgehende Analyse

Voice-Agents werden auf einer völlig anderen Preiskarte als Text-Chat berechnet, und die Lücke ist groß genug, dass Ingenieure, die mit Text-Token-Ökonomie vertraut sind, Realtime-Deployments routinemäßig um 4-6x unterbudgetieren. Ab Juni 2026 berechnet gpt-5.5-realtime – der Konversationsendpunkt, der Audio Ein und Audio Aus über einen persistenten WebSocket streamt – Audio-Eingabe mit $40,00 pro 1M Token und Audio-Ausgabe mit $80,00 pro 1M Token. Das ist 8x die Text-Eingaberate ($5,00) und ~2,7x die Text-Ausgaberate ($30,00) auf dem gleichen zugrunde liegenden Modell. Gemischte Modalitäts-Sessions werden pro Datenstrom berechnet: ein Turn, bei dem der Benutzer spricht und das Modell mit Audio plus einem Text-Payload des Tool-Aufrufs antwortet, erzeugt Audio-Eingabe-Token, Audio-Ausgabe-Token und eine kleine Text-Ausgabegebühr in der gleichen Rechnungszeile.

Audio-Token sind keine Zeichen oder Sekunden – sie sind eine diskrete fragmentierte Darstellung der Wellenform. Die aktuelle Faustregel ist ungefähr 1 Audio-Token pro 0,1 Sekunden Sprache bei der Standard-24kHz-Abtastrate, was sich auf ungefähr 600 Audio-Token pro Minute Sprache in jede Richtung ausläuft. Zum Sanity Check bei Eingaberechnungen, nehmen Sie die Sprecher-Wanduhrzeiten, multiplizieren Sie mit 600, dividieren Sie durch 1.000.000 und multiplizieren Sie mit $40. Ein 10-minütiger Kundenservice-Anruf, bei dem der Benutzer 4 Minuten spricht und der Agent 6 Minuten spricht, erzeugt ungefähr 2.400 Eingabe-Audio-Token und ungefähr 3.600 Ausgabe-Audio-Token. Das ist (2.400/1.000.000 × $40) + (3.600/1.000.000 × $80) = $0,096 + $0,288 = $0,384 pro Aufruf vor Tool-Use oder Text-Overhead.

Praktisches Beispiel – ein 5-minütiger Voice-Agent-Aufruf. Nehmen Sie eine realistische Aufteilung an: der Benutzer spricht 2 Minuten (1.200 Eingabe-Audio-Token), der Agent spricht 3 Minuten (1.800 Ausgabe-Audio-Token), und der Agent führt auch zwei Tool-Aufrufe durch, die ungefähr 400 Text-Ausgabe-Token strukturierter Argumente und ungefähr 600 Text-Eingabe-Token von Tool-Ergebnissen, die in den Kontext zurückgegeben werden, zurückgeben. Audio-Eingabe: 1.200/1M × $40 = $0,048. Audio-Ausgabe: 1.800/1M × $80 = $0,144. Text-Ausgabe (Tool-Aufrufe + abschließende Text-Fragmente): 400/1M × $30 = $0,012. Text-Eingabe (Tool-Ergebnisse + System-Prompt von ungefähr 1.500 Token): 2.100/1M × $5 = $0,0105. Gesamt: ungefähr $0,215 pro 5-Minuten-Aufruf, oder ungefähr $2,58 pro Stunde Live-Voice. Führen Sie 1.000 Anrufe pro Tag aus und die Realtime-Rechnung allein beträgt ungefähr $6.450/Monat – vor Transkription, vor Protokollierung, vor LLM-Fallback.

Whisper-3 Transkription, verwendet für asynchrone Sprache-zu-Text, bei der Sie keine gestreante Modellantwort benötigen, bleibt der billigste Audio-Einstiegspunkt bei $0,006 pro Minute Audio (berechnet in 1-Sekunden-Inkrementen, Minimum 1 Sekunde). Ein 10.000-Minuten-Transkriptions-Backlog – sagen Sie einen Monat aufgezeichneter Support-Anrufe – kostet genau $60. Der neuere whisper-3-large Endpunkt, der Diarization und Wort-Ebenen-Zeitstempel hinzufügt, wird mit $0,011 pro Minute berechnet. Für Anwendungen, die nur Post-Call-Analytik benötigen statt Live-Konversation, Transkribieren mit Whisper-3 und dann die Transkription durch gpt-5.4-mini laufen ist ungefähr 30-50x billiger als die gleiche Audio durch gpt-5.5-realtime zu routen.

Text-to-Speech sitzt auf seiner eigenen Preiskarte und wird pro Zeichen statt pro Token berechnet. Die Standard tts-1-2026 Stimme kostet $15,00 pro 1M Zeichen; die höhere Treue tts-1-hd-2026 Stimme kostet $30,00 pro 1M Zeichen. Eine 200-Wort-Antwort durchschnittlich ungefähr 1.100 Zeichen, daher kostet ein einzelnes TTS-Rendering $0,0165 auf Standard und $0,033 auf HD. Der Tradeoff gegenüber Realtime-Audio-Ausgabe ist Latenz und Interruptibilität: TTS ist nicht streaming-freundlich für Back-and-Forth-Konversation, aber ungefähr 5x billiger als gpt-5.5-realtime Audio-Ausgabe für IVR, Benachrichtigungen und vorab gerenderte Narration. Ein häufiges Produktionsmuster ist die Verwendung von gpt-5.4-mini ($0,75/$4,50 Text-Rates) zum Entwurf der Antwort, dann Route zu tts-1-2026 – Gesamtkosten auf dieser 200-Wort-Antwort ist ungefähr $0,018 Ein-/Ausgabe-Text plus $0,0165 TTS, gegen $0,10+ wenn der gleiche Inhalt als gestreamte Audio durch den Realtime-Endpunkt generiert wurde.

Prompt-Caching gilt für Realtime-Sessions, aber nur für den Text-Teil des Prompts – die Systemmeldung, Tool-Schemas und alle Text-Form-Konversationsgeschichte. Audio-Token selbst werden nicht gecacht; jedes Stück Sprache ist unterschiedlich genug, dass der Cache es nicht abgleichen kann. Die praktische Folge: strukturieren Sie Ihren Realtime-System-Prompt auf die gleiche Weise, wie Sie es für Chat würden – lange stabile Anweisungen und Tool-Definitionen vorne, dynamisch pro-Aufruf Kontext hinten – und der 90%ige Rabatt auf gecachte Eingabe gilt für diesen Text-Teil über die WebSocket-Session. Für einen Voice-Agent mit einem 3.000-Token-System-Prompt mit 1.000 Aufrufen pro Tag, Caching des System-Präfix senkt Text-Eingabekosten von $15,00/Tag auf ungefähr $1,65/Tag. Es ist ein kleiner Schnitt der Realtime-Rechnung, aber stapelt sich sauber mit allem anderen. Bestätigen Sie aktuelle Realtime-Audio-Raten gegen OpenAIs Realtime API Dokumentation vor dem Festlegen von Preisen in einen Kundenvertrag – Voice-Raten haben sich in den letzten 12 Monaten zweimal bewegt.


So senken Sie Ihre OpenAI-Rechnung diese Woche

Fünf Aktionen in typischer Reihenfolge des Einflusses. Erstens, senken Sie eine Modellstufe ab. Wenn Sie auf gpt-5.5 sind, führen Sie ein Side-by-Side-Eval gegen gpt-5.4-mini auf 100 repräsentativen Beispielen durch; viele Teams finden gleichwertige Qualität zum 1/6 des Preises. Zweitens, batch alles, das keine synchrone Antwort benötigt – historische Datensicherungen, tägliche Berichte, Klassifikationswarteschlangen – und nehmen Sie den 50% Batch-Rabatt. Drittens, strukturieren Sie Ihre Prompts so, dass stabiler Text zuerst kommt, damit Prompt-Caching einsetzt.

Viertens, Ausgabe begrenzen. Legen Sie max_tokens aggressiv fest und fordern Sie strukturiertes JSON statt Prosa an; ein 200-Token JSON-Objekt ersetzt einen 1.000-Token-Absatz für die meisten Extraktionsaufgaben. Fünftens, Monitor mit einem Per-Route-Kosten-Dashboard – die meisten Teams haben eine Route, die 60% der Ausgaben ausmacht und einen langen Schwanz billiger Routes; die Überwachung allein enthüllt normalerweise einen offensichtlichen Schnitt.

Wenn Sie prägnantere Prompts zum Starten verfassen möchten, helfen unser Code Prompt Builder und Meta-Description Generator Befehlsblöcke zu komprimieren, ohne Treue zu verlieren. Cross-Check Raten gegen Anthropic Claude Preise und der LLM-Kostenvergleichsrechner vor dem Festlegen eines Anbieters.

Frequently Asked Questions

Welches ist OpenAIs billigstes Modell 2026?

gpt-5.4-nano kostet $0,20 Eingabe / $1,25 Ausgabe pro 1M Token und ist das billigste General-Purpose-Chat-Modell. text-embedding-3-small bei $0,02/1M ist noch billiger, produziert aber nur Embeddings, keinen generierten Text. Bestätigen Sie gegen OpenAIs Preisseite.

Wie viel spart die Batch API?

50% auf Ein- und Ausgabe. Ein $20.000 gpt-5.5 Job zum Standard-Preis läuft $10.000 über Batch, im Gegenzug für ein Lieferfenster von bis zu 24 Stunden. Am besten für Offline-Workloads – siehe OpenAIs Batch-Leitfaden.

Sind gecachte Eingabe-Token wirklich 90% billiger?

Ja – gecachte Eingabe-Token werden mit etwa 10% der Standard-Eingaberate berechnet (so ist gpt-5.5 gecachte Eingabe $0,50/1M statt $5,00/1M). Das Aber ist, dass das Präfix OpenAIs Prompt-Cache innerhalb des Cache-Fensters treffen muss, was lange stabile System-Prompts und stabile Tool-Schemas am Anfang der Anfrage begünstigt.

Warum ist die Ausgabe so viel teurer als die Eingabe?

Die Generierung von Token erfordert das Ausführen des vollständigen Forward Pass für jeden Token, während Eingabe-Token in einem Batch-Pass verarbeitet werden. OpenAI berechnet normalerweise die Ausgabe mit dem 5-8-fachen der Eingabe in der gesamten Produktlinie – zum Beispiel sind $5 ein / $30 aus auf gpt-5.5 ein 6x-Verhältnis.

Zählen Reasoning-Token der o-Serie als Ausgabe?

Ja. Die Modelle o4-reasoning und o4-mini-reasoning rechnen die verborgene Chain-of-Thought mit der Ausgaberate ab, obwohl diese Token nicht an Sie zurückgegeben werden. Budgetieren Sie 5-10x die sichtbare Ausgabe-Token-Anzahl bei der Verwendung von Reasoning-Modellen.

Ist OpenAI 2026 billiger als Anthropic?

Es kommt drauf an auf die Stufe. gpt-5.5 ($5/$30) ist teurer als Claude Sonnet 4.6 ($3/$15) und Claude Opus 4.8 ($5/$25) auf der Ausgabe. gpt-5.4-mini ($0,75/$4,50) ist billiger als Claude Haiku 4.5 ($1/$5). Vergleichen Sie Side-by-Side in unserem LLM-Kostenrechner.

Wie schätze ich die Kosten, bevor ich eine Anfrage sende?

Verwenden Sie die Formel cost = (input_tokens / 1M × input_price) + (output_tokens / 1M × output_price). Schätzen Sie die Token-Anzahl als ungefähr Zeichen ÷ 4 oder Wörter ÷ 0,75. Für einen praktischen Übergang, siehe unseren KI-Prompt-Kostenrechner.

Berechnet OpenAI für fehlgeschlagene oder abgelehnte Antworten?

Ja – alle Token, die das Modell erzeugt, werden berechnet, einschließlich Ablehnungsnachrichten und Tool-Call-Versuche, die fehlschlagen. Die Ausnahme sind Anfragen, die fehlschlagen, bevor Token emittiert werden (Rate Limits, Auth-Fehler, malformatierte Eingabe).

Wie viel kostet gpt-5.5-realtime eigentlich pro Minute Voice?

Bei Juni-2026-Raten ($40/1M Audio-Eingabe, $80/1M Audio-Ausgabe und ungefähr 600 Audio-Token pro Minute Sprache) läuft ein ausgewogener 1-Minuten-Austausch – 30 Sekunden Benutzersprache und 30 Sekunden Agent-Antwort – ungefähr (300/1M × $40) + (300/1M × $80) = $0,012 + $0,024 = $0,036, vor Tool-Call-Gebühren auf der Text-Seite oder System-Prompt. Planen Sie auf $0,04-$0,08 pro Realtime-Minute ein, sobald ein typischer System-Prompt und 1-2 Tool-Aufrufe enthalten sind. Siehe OpenAIs Realtime API Dokumentation für aktuelle Raten.

Sollte ich Whisper plus ein Text-Modell verwenden oder nur gpt-5.5-realtime?

Wenn Sie ein Live-Back-and-Forth-Gespräch mit Unterbrechungsbehandlung benötigen, verwenden Sie gpt-5.5-realtime – Whisper-plus-Text fügt 1-3 Sekunden Latenz hinzu, die natürliche Turn-Taking zerstört. Wenn Sie nur Post-Call-Analytik, Zusammenfassung oder asynchrone Transkription benötigen, ist Whisper-3 bei $0,006/Min plus gpt-5.4-mini bei $0,75/$4,50 30-50x billiger als die gleiche Audio durch den Realtime-Endpunkt zu streamen. Die Trennlinie ist, ob ein Mensch in Echtzeit wartet.

Funktioniert Prompt-Caching mit der Realtime API?

Teilweise. Der Text-Teil einer Realtime-Session – System-Nachricht, Tool-Schemas, frühere Text-Form-Turns – ist für den 90%igen Rabatt auf gecachte Eingabe auf die gleiche Weise wie ein Chat-Completion berechtigt. Audio-Token selbst werden nicht gecacht. Behalten Sie stabile Text-Anweisungen am Anfang des Realtime-System-Prompts und der Caching-Rabatt gilt für diesen Teil über die WebSocket-Session, obwohl er keine Auswirkungen auf die Audio-Token-Rechnung hat.

Holen Sie sich das 2026 LLM-Preisreferenz-PDF

Eine Seite PDF mit jedem Modell in diesem Artikel, der Rabattmathematik und den Formeln – kostenlos, kein Signup-Gate erforderlich. Oder durchsuchen Sie unsere 40+ Prompt-Engineering-Tools, um prägnantere, günstigere Prompts zu verfassen.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.