Von The DDH Team · Digital Dashboard Hub

o1 / o3 Reasoning-Kostenrechner (2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

OpenAIs o-Serie Reasoning Modelle — o3, o3-mini und das veraltete o1 — berechnen anders als jedes andere Chat-Modell in der API. Bevor das Modell auch nur ein sichtbares Token erzeugt, generiert es interne Reasoning-Tokens: einen privaten Gedankenstrom-Notizblock, den das Modell zur Planung, Verifikation und Verfeinerung seiner Antwort nutzt. Diese Reasoning-Tokens werden dem Aufrufer NIE zurückgegeben. Aber sie werden berechnet wie Output, jedes einzelne. Eine 200-Token-Antwort, die 4.000 Reasoning-Tokens zum Erstellen brauchte, wird als 4.200 Output-Tokens berechnet — nicht 200.

Dieser einzelne Mechanismus ist verantwortlich für fast jede Kostenüberraschungs-Geschichte, die wir über Reasoning-Modelle hören. Ein Team schätzt Kosten, indem es die Wörter in ihrer Antwort zählt, läuft eine Woche in Produktion und erhält eine Rechnung 5-15x über Budget. Die Lösung ist nicht, Reasoning-Modelle zu vermeiden — für die richtigen Workloads (Mathematik, Code-Synthese, mehrstufige Planung, formale Verifikation) sind sie dramatisch besser als Chat. Die Lösung ist, gegen die Reasoning-Token-Form zu budgetieren, nicht gegen die sichtbare Antwort.

Stand Juni 2026, die o-Serie Staffel ist: **o3 bei $2,00 Input / $8,00 Output pro 1M Tokens**, **o3-mini bei $0,55 / $2,20**, und **o1 bei $15 / $60** (veraltet — migrieren). Der o1 zu o3 Übergang war ein 87% Preisrückgang auf dem Flagship Reasoning-Modell — einer der größten Single-Modell Preisschnitte in der API-Geschichte (VentureBeat Bericht). Reasoning ist jetzt ~7x billiger als vor einem Jahr, und die Mathematik unten spiegelt diesen Reset wider.

Darunter: die vollständige Juni-2026 Reasoning-Modell Preistabelle, die Reasoning-Token Kostenformel (die, die Sie wirklich brauchen), vier ausgearbeitete $-Mathematik Beispiele, die das Denktoken-Premium in Dollar zeigen, ein Entscheidungsbaum für wann Reasoning Chat schlägt, und eine quellengestützte FAQ. Entwerfen Sie schnell Reasoning-optimierte Prompts, die Denktoken-Aufblähung minimieren, mit unserem kostenlosen ChatGPT Prompt Generator. Schwester-Rechner: GPT-5 Kosten · OpenAI API Kosten · DeepSeek Kosten.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

OpenAI o-Serie Reasoning Modell Preise — Juni 2026

Feature	Input ($/1M)	Output ($/1M, inkl. Reasoning)	Kontextfenster
o3	$2.00	$8.00	200K
o3-mini	$0.55	$2.20	200K
o1 (veraltet — migrieren zu o3)	$15.00	$60.00	200K

Quelle, Stand Juni 2026: OpenAI Preisseite (https://developers.openai.com/api/docs/pricing). Reasoning-Tokens werden zum Output-Satz berechnet, obwohl sie dem Aufrufer nicht zurückgegeben werden. Keine veröffentlichte Cached-Input-Rabatt auf der o-Serie zu diesem Überprüfungsdatum. Das 200K Kontextfenster gilt für alle drei Zeilen. o1 bleibt auf der Preisseite für Migrations-Fenster-Kompatibilität, ist aber am Ende seines Lebens — jeder neue Build sollte auf o3 oder o3-mini abzielen.

Die Reasoning-Token Kostenformel (die, die niemand warnt)

Bei Chat-Modellen wie GPT-5.5 ist die Kostenformel unkompliziert — Sie bezahlen für die Input-Tokens, die Sie gesendet haben, und die Output-Tokens, die das Modell zurückschrieb. Bei der o-Serie gibt es einen dritten Term, der in keinem Response-Feld angezeigt wird, aber definitiv auf Ihrer Rechnung.

``` cost = (input_tokens / 1,000,000) × input_price + (reasoning_tokens / 1,000,000) × output_price ← unsichtbar für Aufrufer + (visible_output / 1,000,000) × output_price ```

Die reasoning_tokens Anzahl wird in der API-Response unter `usage.completion_tokens_details.reasoning_tokens` gemeldet. Lesen Sie sie. Loggen Sie sie. Wenn Sie dieses Feld überspringen, haben Sie keine Ahnung, was Sie pro Aufruf tatsächlich zahlen — das `content` Feld zeigt Ihnen die 200-Token-Antwort, aber das `reasoning_tokens` Feld ist, wo die 4.000-Token-Rechnung sich versteckt.

Praktische Reasoning-Token Form, die wir in produktiven Deployments sehen: einfache Mathematik / Klassifikation mit Reasoning aktiviert = 200-800 Reasoning-Tokens; mehrstufige Code-Generierung = 1.500-5.000 Reasoning-Tokens; komplexe Planung / Beweis-ähnliche Tasks = 5.000-25.000 Reasoning-Tokens; agentic Schleifen mit Selbst-Verifikation = 20.000-80.000 Reasoning-Tokens pro Query. Budgetieren Sie die vollständige Einschätzung, nicht die sichtbare Antwort.

Ausgearbeitetes Beispiel 1: der 'billige' Klassifikations-Aufruf, der nicht billig ist

Ein Team migriert eine Klassifikations-Pipeline von gpt-5.4-mini zu o3-mini, hoffend auf höhere Genauigkeit bei Grenzfällen. Input: 500 Tokens (die Rubrik + das Dokument). Sichtbarer Output: 50 Tokens (ein JSON-Label). Sieht Form-identisch zu Chat aus — also budgetieren sie gegen Chat-Mathematik.

**Chat-Schätzung (falsch)**: 0,0005 × $0,55 + 0,00005 × $2,20 = $0,000275 + $0,00011 = **$0,000385 pro Aufruf**. Bei 100k Aufrufen/Monat, $38,50.

**Realität**: o3-mini generiert ~1.200 Reasoning-Tokens, bevor jedes 50-Token-Label produziert wird. Echte Output-Rechnung = (1.200 + 50) / 1.000.000 × $2,20 = $0,00275. Gesamt: $0,000275 Input + $0,00275 Output = **$0,003 pro Aufruf** — 7,8x die Chat-Form-Schätzung. Bei 100k Aufrufen/Monat, $300, nicht $38,50.

Lektion: auch bei der 'mini' Ebene der Reasoning-Staffel dominiert der Denktoken-Schwanz. Wenn Ihre Klassifikations-Task NICHT mehrstufiges Reasoning braucht, bleiben Sie bei gpt-5.4-mini ($0,50 / $1,50 Input/Output) — gleiche Aufruf-Form landet bei $0,000125 pro Aufruf, 24x billiger als o3-mini. Das Reasoning-Premium zahlt sich nur aus, wenn Reasoning wirklich der Engpass ist. Querverweis: OpenAI API Kostenrechner für die vollständige Chat-Staffel.

Ausgearbeitetes Beispiel 2: die 200-Token-Antwort, die $0,0336 kostete

Das Helden-Beispiel. Ein Nutzer fragt o3 eine mathematik-schwere Produktfrage. Die sichtbare Antwort ist 200 Tokens sauberer Prosa. Das Modell dachte über 4.000 Reasoning-Tokens nach — durch Unit-Umrechnungen, Grenzfall-Checks und einen finalen Verifikations-Pass.

Input: 1.000 Tokens (die Frage + eine 500-Token Systemaufforderung). Output-Rechnung: (4.000 Reasoning + 200 sichtbar) / 1.000.000 × $8,00 = 4.200 / 1.000.000 × $8 = **$0,0336 nur bei Output**. Plus Input: 0,001 × $2 = $0,002. **Gesamt pro Aufruf: $0,0356.**

Vergleich zur Chat-Form-Schätzung gegen die sichtbare Antwort: 0,001 × $2 Input + 0,0002 × $8 Output = $0,002 + $0,0016 = $0,0036. **Tatsächliche Kosten sind 9,9x die sichtbare-Antwort-Schätzung.**

Vergleich zu gpt-5.5 auf demselben Input/Output: 0,001 × $5 + 0,0002 × $30 = $0,005 + $0,006 = $0,011 pro Aufruf. o3 ist 3,2x teurer als gpt-5.5 bei diesem Aufruf — aber die o3-Antwort handhabt den Mathematik-Grenzfall korrekt, und die gpt-5.5-Antwort ist subtil falsch. Ob das 3,2x Premium wert ist, ist eine Downstream-Fehlerkosten-Frage, nicht eine Token-Preis-Frage.

Ausgearbeitetes Beispiel 3: agentic Code-Synthese-Schleife auf o3

Ein Code-Agent generiert ein 150-zeiliges Python-Modul aus einer Spezifikation. Der Agent läuft in einer 4er-Schleife: planen → schreiben → selbst-überprüfen → patchen. Bei jedem Turn denkt das Modell intensiv nach, bevor sichtlicher Output produziert wird.

Pro-Turn Form: Input ~2.500 Tokens (System + Tools + wachsendes Transkript), sichtlicher Output ~400 Tokens, Reasoning ~6.000 Tokens. Pro Turn Output-Rechnung: (6.000 + 400) / 1.000.000 × $8 = **$0,0512**. Pro Turn Input: 0,0025 × $2 = $0,005. Pro Turn Gesamt: $0,0562.

**4-Turn Gesamt: ~$0,225 pro Code-Synthese-Lauf auf o3.** Vergleich zu gpt-5.5-pro auf derselben Schleife (keine Reasoning-Tokens, aber mehr sichtlicher Output ~800 Tokens/Turn): 0,0025 × $30 Input + 0,0008 × $180 Output = $0,075 + $0,144 = $0,219/Turn × 4 = $0,876. **o3 ist 3,9x billiger als gpt-5.5-pro bei dieser Workload, trotz des Reasoning-Premiums, weil pros Output-Satz so viel höher ist.**

Die Takeaway: bei Tasks, wo Reasoning das ist, was Sie kaufen, schlägt o3's $2 / $8 Staffel jeden Premium-Chat-Tier. Die Falle ist, o3 für Tasks zu nutzen, wo Reasoning nicht der Engpass ist — das ist, wo der Denktoken-Schwanz Sie dafür zahlen lässt, Compute zu zahlen, das die Antwort nicht verbessert.

Ausgearbeitetes Beispiel 4: 100.000 Reasoning-Aufrufe/Monat — die Budget-Realität

Skalieren Sie die Pro-Aufruf-Zahlen auf eine realistische monatliche Workload. Angenommen 100k Aufrufe/Monat, gemischte Form: durchschnittlich 1.200 Input-Tokens, 300 sichtlicher Output, 3.500 Reasoning-Tokens (der Produktions-Median, den wir bei realem o3 Traffic sehen).

Pro Aufruf: 0,0012 × $2 + (3.500 + 300) / 1.000.000 × $8 = $0,0024 + $0,0304 = $0,0328. **Monatlich auf o3: $3.280.**

Auf o3-mini (angenommene gleiche Form; mini typischerweise 30-50% weniger Reasoning-Tokens — sagen wir 2.000 statt 3.500): 0,0012 × $0,55 + (2.000 + 300) / 1.000.000 × $2,20 = $0,00066 + $0,00506 = $0,00572. **Monatlich auf o3-mini: $572.** o3-mini ist 5,7x billiger für dieselbe Aufruf-Form mit kleinem Genauigkeits-Delta.

Auf dem alten o1 (nur zum Vergleich — migrieren): 0,0012 × $15 + 3.800/1.000.000 × $60 = $0,018 + $0,228 = $0,246. **Monatlich auf o1: $24.600.** o3 ist 7,5x billiger als o1 für dieselbe Workload — der 87% Preisrückgang ist echt und Sie sollten ihn nutzen.

Die Hebel-Reihenfolge, um Reasoning-Kosten in Schach zu halten: (1) kappen `max_completion_tokens`, um den schlimmsten Fall zu begrenzen, (2) nutzen `reasoning_effort: 'low'`, wo die Task weniger Denken toleriert, (3) droppen zu o3-mini überall, wo Qualität hält, (4) routen Sie nur wirklich Reasoning-gebundene Queries zu o3 — lassen Sie gpt-5.4-mini den Rest handhaben. Siehe unser DeepSeek Kostenrechner für die Open-Weights Reasoning Alternative.

Der 87% o1 zu o3 Preisrückgang — und was er ändert

Als o3 bei $2 / $8 gegenüber o1's $15 / $60 startete, kündigte OpenAI eine effektive 80-87% Preisreduktion auf dem Flagship Reasoning-Modell an (VentureBeat Bericht). Bei Input ist o3 7,5x billiger als o1. Bei Output (wo Reasoning-Tokens berechnet werden), ist o3 auch 7,5x billiger. Netto-Effekt: jede o1 Workload, die zu o3 migriert wird, landet bei ~13% der vorherigen Kosten mit Qualitäts-auf-Benchmark-Verbesserungen zur gleichen Zeit.

Das ist keine marginale Preis-Anpassung — es ist eine Neubewertung der Reasoning-Kategorie. Workloads, die auf o1 unrentabel waren ($25k/Monat für 100k mittlere-Komplexität-Aufrufe), sind jetzt unter $4k/Monat auf o3. Reasoning-Modelle haben sich von 'Premium-Ausstiegsventil für schwierige Probleme' zu 'plausible Standardeinstellung für jede Task, wo Chain-of-Thought hilft' bewegt.

Was das für Ihren Migrationsplan bedeutet: wenn Sie IRGENDWELCHEN o1 Traffic noch laufen haben, ist die Migration überfällig. Code-Änderung: ersetzen Sie Modell-ID `o1` mit `o3`, lassen Sie alles andere identisch (gleiches Kontextfenster, gleiches Reasoning-Token Abrechnungsmechanismus, gleiche Response-Form). Sie werden einen 7-8x Kostenrückgang bei derselben Workload sehen, bevor irgendeine andere Optimierung.

Was das für Ihre Build-Entscheidungen bedeutet: als Sie Reasoning-Modelle vermieden, weil des $60/M Output-Satzes, überdenken Sie. Bei $8/M ist o3 konkurrenzfähig mit gpt-5.5 ($30/M Output), sobald Sie die bessere Antwort-Qualität bei Reasoning-gebundenen Tasks einrechnen. Das Dollar-Argument für Chat statt Reasoning hat sich wesentlich geschwächt.

Entscheidungsbaum: wann Reasoning-Modelle Chat schlagen

**Nutzen Sie o3 / o3-mini wenn**: (1) die Task objektiv überprüfbare Richtigkeit hat — Mathematik, Code, der läuft und Tests besteht, Logik-Rätsel, formale Extraktion mit Grund-Wahrheit; (2) die Task mehrstufige Abhängigkeiten hat, die Chat-Modelle verpassen (mehrere Constraints Scheduling, Multi-Hop Reasoning über eine Knowledge Base, Plan-dann-Execute); (3) Sie ein Eval haben, das einen echten Genauigkeits-Lift über das äquivalente Chat-Modell auf IHRER Task zeigt — nicht bei einem Benchmark.

**Bleiben Sie bei Chat-Modellen (gpt-5.4 / gpt-5.5) wenn**: (1) die Task Open-End-Generierung ist — Inhalt, Copy, Konversation, Brainstorming — wo 'Richtigkeit' Geschmack ist, nicht Wahrheit; (2) die Task einfache Extraktion / Klassifikation ist, wo Chat-Modelle bereits 95%+ Genauigkeit treffen (für einen 5-15x Reasoning-Modell bezahlen bringt Ihnen die letzten 1-3%, oft nicht wert); (3) Latenz wichtig ist und Sie nicht auf das Modell zum Denken warten können (Reasoning-Modelle fügen 5-30 Sekunden Latenz von internem Denken hinzu, bevor Output streamt).

**Nutzen Sie o3-mini speziell wenn**: (1) Sie die Reasoning-Form wollen, aber die sichtbare Antwort kurz ist und die Fehlerkosten moderat; (2) Klassifikation mit schwierigen Grenzfällen, wo Chat-Tier ~90% bekommt und Sie 96%+ brauchen; (3) Sie eine hohe-Volumen-Workload haben, wo der o3 → o3-mini Drop (4x billiger Input, 3,6x billiger Output) der Unterschied zwischen einer praktikablen und impraktikablen Deployment ist.

**Der Eval-Test**: bevor Sie eine Workload zu Reasoning-Modellen binden, laufen Sie 100 repräsentative Queries durch beide o3 und Ihr bestes Chat-Modell. Score Richtigkeit. Wenn der Genauigkeits-Lift <5% absolut ist, bleiben Sie bei Chat — das Reasoning-Premium wird sich nicht selbst zahlen. Wenn der Lift >10% ist, ist Reasoning fast sicher wert. Zwischen 5% und 10% ist eine Downstream-Fehlerkosten Urteils-Frage.

Vergleichen Sie die Open-Weights Alternative: DeepSeek-R1 kostet $0,55 / $2,19 pro 1M Tokens — fast identisch zu o3-mini's $0,55 / $2,20. Die Kosten-Lücke zwischen proprietärer Reasoning (o3-mini) und Open-Weights Reasoning (R1) hat sich vollständig geschlossen; die Differenzierung ist jetzt Qualität, Latenz und Tool-Integration, nicht Preis.

Wie man Reasoning-Token-Aufblähung kontrolliert (die Hebel, die funktionieren)

**Hebel 1 — `reasoning_effort` Parameter.** Die o-Serie akzeptiert einen `reasoning_effort` Wert von 'low', 'medium' oder 'high'. Low schneidet internes Denken um 50-70% und clippt Reasoning-Token-Rechnungen proportional. Für Tasks, wo die erste plausible Antwort des Modells normalerweise richtig ist, 'low' ist der richtige Standard. Reservieren Sie 'high' für Tasks, wo Sie messbar gesehen haben, dass 'medium' falsche Antworten produziert.

**Hebel 2 — `max_completion_tokens` Kappe.** Setzt eine Hard-Obergrenze auf (Reasoning + sichtbar) Output kombiniert. Setzen Sie dies auf Ihren worst-case annehmbaren Bill pro Aufruf. Wenn das Modell die Kappe trifft, sehen Sie `finish_reason: 'length'` — handhaben Sie es explizit (Retry mit mehr Budget oder degrade zu einem Chat-Modell Fallback).

**Hebel 3 — Bounded Scratchpad im Prompt.** Kontraintuiv, instruieren das Modell 'arbeite durch das in höchstens 3 Schritten' oder 'verifiziere nur die kritische Constraint' formt die Reasoning-Spur und reduziert Token-Anzahl, ohne messbar Genauigkeit bei den meisten Tasks zu schaden. Reasoning-Modelle respektieren Prompt-Level Reasoning-Grenzen gut.

**Hebel 4 — Pre-zerlegen Sie die Task.** Wenn Sie eine mehrstufige Reasoning-Task in 3 einfachere Chat-Modell-Aufrufe + 1 Reasoning-Modell-Aufruf brechen können (statt eines großen Reasoning-Modell-Aufrufs), werden die Chat-Aufrufe bei $0,50/M berechnet und der einzelne Reasoning-Aufruf hat einen viel kleineren Scratchpad zu handhaben. Häufiger 50-70% Ersparnisse bei agentic Workloads.

**Hebel 5 — Log `reasoning_tokens` bei jedem Aufruf.** OpenAI exponiert die Anzahl bei `usage.completion_tokens_details.reasoning_tokens`. Senden Sie sie zu Ihrem Observability Stack. Das erste Mal, wenn Sie einen 25k-Reasoning-Token Ausreißer in Produktion sehen, verstehen Sie, warum dieser Hebel mehr zählt als die anderen vier kombiniert — fangen Sie die Ausreißer, nicht den Median.

**Hebel 6 — routen Sie die Task, nicht das Modell.** Bauen Sie einen Klassifizierer vor Ihrem Reasoning-Modell: einfache Queries routen zu gpt-5.4-mini ($0,50 / $1,50), komplexe Queries routen zu o3. Eine 100k-Aufruf/Monat Workload, wo 70% zu Chat gehen können und 30% Reasoning brauchen, landet bei ~$1.200/Monat kombiniert vs $3.280, wenn alles zu o3 geht. Der Router selbst kostet fast nichts.

o3 vs o3-mini: wann der 4x billigere Tier tatsächlich ausreicht

o3-mini bei $0,55 / $2,20 ist ungefähr 4x billiger als o3 bei Input und 3,6x billiger bei Output. Es generiert typisch auch 30-50% weniger Reasoning-Tokens für dieselbe Task — das kleinere Modell konvergiert schneller zu einer Antwort. Kombinierter Effekt: o3-mini ist oft 5-6x billiger als o3 in Produktion für dieselbe Workload.

Wo o3-mini Qualität hält: strukturierte Extraktion mit schwierigen Grenzfällen, mittlere Komplexität Code-Generierung (einzelne Funktion, gut spezifiziert), Klassifikation mit 5-15 Klassen und mehrdeutige Grenzen, Multi-Hop Q&A über eine kleine Knowledge Base.

Wo o3-mini fällt und Sie brauchen volles o3: lange Horizont agentic Planung (>5 sequenzielle Reasoning Schritte), Beweis-Stil mathematische Arbeit, Code-Synthese über ~200 Zeilen, Tasks wo der Eval o3-mini bei <85% Genauigkeit zeigt.

Standard-auf-Mini Policy: versenden Sie jede neue Reasoning-Workload zuerst auf o3-mini. Laufen Sie ein 200-Sample Eval gegen o3. Wenn o3-mini innerhalb von 3 Prozentpunkten von o3-Genauigkeit ist, behalten Sie mini. Wenn Gap 3-7 Punkte ist, entscheiden Sie basierend auf Fehlerkosten. Wenn Gap >7 Punkte ist, migrieren Sie zu o3. Diese Policy hält 60-80% von typischem Reasoning Traffic auf dem billigeren Tier ohne messbare Qualitäts-Auswirkung bei der Produkt-Ebene.

Warum es keinen Cached-Input-Rabatt auf der o-Serie gibt (und was man tun kann)

Anders als die GPT-5 Chat-Familie — wo Cached-Input Preise Read Prompt-Cache Hits bei ~10% des Standard-Input-Satzes (ein 90% Rabatt) — die o-Serie VERÖFFENTLICHT KEINEN Cached-Input Rabatt, Stand Juni 2026. Jedes Input-Token auf o3 wird zum vollständigen $2/M Satz berechnet, unabhängig von Cache-Status.

Warum das wichtig: bei Chat-Modellen, Struktur Ihrem Prompt Präfix-zuerst um Cache-Hits zu maximieren, kann 30-50% von der Input-Rechnung abschneiden. Dieser Hebel ist bei Reasoning-Modellen nicht verfügbar. Jeder lange System-Prompt kostet jeden Aufruf Vollpreis.

Praktische Auswirkung: bei o-Serie Workloads, halten Sie System-Prompts KURZ. Ein 2.000-Token Reasoning-Modell System-Prompt, der auf gpt-5.5 zu $0,20/M effektiv cachen würde, kostet stattdessen Vollpreis $2/M auf o3 — dieselben Tokens, 10x teurer. Schneiden Sie unbarmherzig. Bewegen Sie stabile Kontexte zu User-Message-Präfix nur wenn es dort sein muss.

Workaround für wiederholte Reasoning-Muster: Pre-berechnen Sie den Reasoning-Schritt einmal mit o3, speichern Sie die Schlussfolgerung, und bedienen Sie nachfolgende identische-Form Queries von einem Chat-Modell + Retrieval Pipeline, die nur die gecachte Schlussfolgerung abruft. Dieses Muster (reason once, serve from cache) routen die teure Reasoning zu einem winzigen Bruchteil von Traffic. Siehe unser Code Prompt Builder für die Cache-verankerten Prompt-Muster, die bei Chat-Tiers funktionieren.

Beobachten Sie das OpenAI Changelog — wenn/wenn Caching für o-Serie versandt wird, die Kosten-Mathematik in diesem Guide verschiebt sich wesentlich. Stand 2026-06-20 es ist nicht erfolgt.

Migration weg von o1: die Checkliste

o1 ist veraltet. Preisseite bleibt zu Migrations-Fenster-Kompatibilität, aber neue Builds sollten auf o3 oder o3-mini abzielen. Die Migration ist einer der einfachsten Modell-Swaps, die OpenAI je versandt hat:

**Schritt 1**: ersetzen Sie `model: 'o1'` mit `model: 'o3'` (oder `model: 'o3-mini'`) in Ihren API-Aufrufen. Gleicher Endpoint, gleiche Request-Form, gleiche Response-Form. Der o-Serie API-Vertrag ist stabil über den o1 → o3 Übergang.

**Schritt 2**: stimmen Sie `reasoning_effort` erneut ab. o3 konvergiert schneller als o1 — Workloads, die 'high' auf o1 brauchten, landen häufig bei 'medium' auf o3 mit gleicher oder besserer Qualität. Testen Sie, bevor Sie 'high' immer noch erforderlich annehmen.

**Schritt 3**: Baseline Ihr Kosten-Budget neu. Der 7,5x Preisrückgang auf Input und Output bedeutet, Ihr monatlicher Bill sollte um ~85% für dieselbe Workload fallen. Wenn er nicht um so viel fällt, emittieren Sie wahrscheinlich mehr Reasoning-Tokens — überprüfen Sie, ob `reasoning_effort` auf dem neuen Modell höher standardisiert.

**Schritt 4**: laufen Sie Ihre Eval-Suite erneut. Qualität sollte auf jedem Benchmark gleich oder besser sein, das wir Daten haben; wenn eine spezifische Task regrediert, reichen Sie ein Problem ein und überlegen Sie, ob `reasoning_effort` oder Prompt-Struktur für das neue Modell Anpassung braucht.

**Schritt 5**: archivieren Sie o1-spezifische Code-Pfade. Je länger o1 in Ihrer Codebase ist, desto wahrscheinlicher fügt ein Engineer noch einen weiteren Aufruf dagegen hinzu. Entfernen Sie die Legacy-ID, erzwingen Sie einen Build-Break, migrieren Sie alles.

Sourcing Methodik — wie man diese Zahlen aktuell hält

Jede Preis in diesem Guide kommt von OpenAIs Live-Preisseite unter developers.openai.com/api/docs/pricing, abgeholt am 2026-06-20 und Kreuz-verifiziert gegen die Veraltungs-Mitteilungen auf o1 und die Launch-Posts für o3. Wo eine Zahl nicht gegen die offizielle Seite verifiziert werden konnte (z.B. Cached-Input-Preise für o-Serie), notieren wir es ist nicht veröffentlicht statt einen Wert zu erfinden.

OpenAI versioniert nicht ihre Preisseite mit expliziten Changelog-Einträgen — Changes verschiffen still. Die o-Serie Kategorie war besonders volatil: o3 allein hat einen großen Preisrückgang gesehen (der 87% Cut von o1) und eine stille Anpassung in Reasoning-Token Abrechnungs-Semantiken seit Launch. Re-verifizieren Sie vierteljährlich, wenn Ihr monatlicher Reasoning-Bill $1.000 überschreitet.

**Wie man vor dem Budgetieren verifiziert**: öffnen Sie developers.openai.com/api/docs/pricing in einem Inkognito-Fenster, finden Sie die o-Serie Sektion, und bestätigen Sie die vier Zahlen ($2 / $8 für o3, $0,55 / $2,20 für o3-mini) entsprechen diesem Guide. Wenn sie entsprechen, ist dieser Guide aktuell. Wenn nicht, trauen Sie der Live-Seite und pingieren Sie uns.

**Die Reasoning-Token Abrechnungs-Semantiken werden separat dokumentiert** unter platform.openai.com/docs/guides/reasoning. Diese Seite besagt explizit Reasoning-Tokens werden zum Output-Satz berechnet und unter `usage.completion_tokens_details.reasoning_tokens` gemeldet. Das strukturelle Verhalten — interner Scratchpad, nie zurückgegeben, vollständig berechnet — ist stabil seit o1 Launch und applies identisch zu o3 und o3-mini.

**Warum wir einige häufig-zitierte Zahlen auslassen**: Dritte-Partei-Guides listen manchmal o-Serie Cached-Input-Sätze oder Volumen-Rabatte, die nicht auf OpenAIs Live-Seite erscheinen. Statt möglicherweise-veraltete oder möglicherweise-erfundene Sätze zu verbreiten, lassen wir sie aus. Wenn OpenAI einen Cached-Input-Satz für o-Serie nach dieser Guide-Versand veröffentlicht, werden wir re-fetchen und aktualisieren — bis dahin, plan gegen volle Input-Sätze.

Wie man jede o-Serie Reasoning-Aufruf Kosten in 5 Schritten schätzt

1
Schätzen Sie Ihre Input-Tokens
Gleiche Chat-Modell-Regel: Zeichen ÷ 4 oder Wörter ÷ 0,75. Halten Sie System-Prompts kurz auf o-Serie (kein Cached-Input-Rabatt bedeutet jedes Token wird bei vollständigem Satz jedem Aufruf berechnet).
→ Open the ChatGPT Prompt Generator (Reasoning-optimiert)
2
Schätzen Sie Ihre SICHTBAREN Output-Tokens
Schätzen Sie die User-facing Antwort-Länge auf die gleiche Weise — Wörter ÷ 0,75. Das ist die Spitze des Eisbergs bei Reasoning-Modellen; der Reasoning-Token-Schwanz darunter dominiert normalerweise die Rechnung.
3
Schätzen Sie Ihre REASONING Tokens (der versteckte Term)
Produktions-Mediane, die wir sehen: einfache Mathematik/Klassifikation 200-800; mehrstufiger Code 1.500-5.000; komplexe Planung 5.000-25.000; agentic Selbst-Verifikation Schleifen 20.000-80.000. Für einen ersten Build, budgetieren Sie 3.000-5.000 Reasoning-Tokens pro Aufruf und verfeinern Sie gegen echte `usage.completion_tokens_details.reasoning_tokens` aus Logs.
4
Wenden Sie die Reasoning-Kostenformel an
Kosten = (Input_Tokens / 1M) × Input_Preis + ((Reasoning_Tokens + sichtbar_Output) / 1M) × Output_Preis. Beispiel o3 Aufruf: 1.000 Input + 4.000 Reasoning + 200 sichtbar = 0,001 × $2 + 0,0042 × $8 = $0,002 + $0,0336 = $0,0356 pro Aufruf. Das $0,0356 ist ~10x, was die sichtbare-Output-nur-Schätzung hätte zeigen sollen.
5
Stimmen Sie reasoning_effort + max_completion_tokens ab
Standard zu `reasoning_effort: 'low'` und heben Sie nur wenn ein Eval Qualitäts-Gewinne zeigt. Setzen Sie immer `max_completion_tokens`, so ein einzelner ausgerissener Scratchpad nicht 80k Output-Tokens berechnen kann — das ist $0,64 auf o3 von einer schlechten Query.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

ChatGPT Prompt Generator (Reasoning-optimiert)→GPT-5 Kostenrechner→OpenAI API Kostenrechner (vollständige Staffel)→DeepSeek Kostenrechner (R1 vs o3-mini)→

Frequently Asked Questions

Wie viel kostet o3 pro 1M Tokens 2026?

Stand Juni 2026, berechnet OpenAIs o3 $2,00 pro 1M Input-Tokens und $8,00 pro 1M Output-Tokens — mit der kritischen Einschränkung, dass interne Reasoning-Tokens zum Output-Satz berechnet werden, obwohl sie dem Aufrufer nicht zurückgegeben werden. Ein typischer o3 Aufruf, der 3.500 Reasoning-Tokens + 300 sichtbare Output-Tokens generiert, berechnet 3.800 Tokens gegen den $8/M Output-Satz ($0,0304), plus Input. Bezogen von OpenAIs Live-Preisseite.

Was sind Reasoning-Tokens und warum kosten sie extra?

Reasoning-Tokens sind interne Chain-of-Thought Scratchpad-Tokens, die o-Serie Modelle vor Produktion der User-sichtbaren Antwort generieren. Sie sind, wie das Modell plant, verifiziert und seine Antwort verfeinert. Sie werden dem Aufrufer nie zurückgegeben (das `content` Feld zeigt nur die sichtbare Antwort), aber sie werden zum vollständigen Output-Satz berechnet. Eine 200-Token-Antwort, die 4.000 Reasoning-Tokens zum Erstellen brauchte, berechnet 4.200 Output-Tokens — nicht 200. Das ist der einzelne Mechanismus, der Reasoning-Modelle bei identischen-looking Workloads 5-15x teurer macht als Chat-Modelle.

Werden Reasoning-Tokens zur Output-Abrechnung gezählt?

Ja. Jedes Reasoning-Token wird zum Modells Output-Satz berechnet, identisch zu sichtbaren Output-Tokens. Die API-Response meldet die Anzahl unter `usage.completion_tokens_details.reasoning_tokens` — loggen Sie dieses Feld bei jedem Aufruf oder Sie haben keine Sichtbarkeit in Ihre echte Kosten-Form. Das `total_tokens` Feld enthält Reasoning-Tokens in der Output-Summe.

Ist o3 billiger als o1?

Ja — dramatisch. o3 preist bei $2 Input / $8 Output pro 1M Tokens; o1 (jetzt veraltet) war $15 / $60. Das ist eine 7,5x Reduktion bei Input und Output, oder ungefähr 87% ab. Dieselbe Workload, die $24.600/Monat auf o1 kostete, landet bei ~$3.280/Monat auf o3 mit Qualität at Parität oder besser. Jede o1 Workload sollte zu o3 migriert werden. Siehe: https://venturebeat.com/ai/openai-announces-80-price-drop-for-o3-its-most-powerful-reasoning-model

o3 vs o3-mini Preise — wann ist mini ausreichend?

o3-mini bei $0,55 / $2,20 pro 1M Tokens ist ungefähr 4x billiger bei Input und 3,6x billiger bei Output als o3. Es generiert auch 30-50% weniger Reasoning-Tokens für typische Tasks. Standard Policy: versenden Sie jede neue Reasoning-Workload zuerst auf o3-mini, laufen Sie ein 200-Sample Eval gegen o3, behalten Sie mini wenn Genauigkeit innerhalb 3 Punkte ist. Mini handhabt strukturierte Extraktion, mittlere Komplexität Code, Klassifikation mit schwierigen Grenzen. Migrieren Sie zu vollständiger o3 für lange Horizont agentic Planung, Beweis-Stil-Mathematik, oder 200+ Zeile Code-Synthese.

Wie kann ich meine o3 API-Kosten reduzieren?

Sechs Hebel: (1) setzen Sie `reasoning_effort: 'low'` als Standard und heben Sie nur wenn nötig; (2) cappen Sie `max_completion_tokens`, damit ein ausgerissener Scratchpad nicht 80k Tokens berechnen kann; (3) droppen Sie zu o3-mini überall wo das Eval allows; (4) pre-zerlegen Sie mehrstufige Tasks in Chat-Modell + einen Reasoning-Modell-Aufruf; (5) halten Sie System-Prompts kurz (kein Cached-Input-Rabatt auf o-Serie — jedes Token wird jedem Aufruf Vollpreis berechnet); (6) bauen Sie einen Router, der nur wirklich Reasoning-gebundene Queries zu o3 schickt und routen Sie den Rest zu gpt-5.4-mini bei $0,50 / $1,50.

o3 vs DeepSeek R1 Kosten — welche ist billiger?

Fast identisch beim Schlagzeilensatz. DeepSeek-R1 ist $0,55 / $2,19 pro 1M Tokens — im Wesentlichen das gleiche wie o3-mini's $0,55 / $2,20. Der Gap zum vollständigen o3 ($2 / $8) ist ungefähr 4x zu DeepSeeks Gunsten. DeepSeek-R1 bietet auch einen veröffentlichten 90% Cache-Hit Input-Rabatt, den o-Serie nicht tut. Für reinen Kosten bei schwerer Reasoning Workload, gewinnt R1; für Tool-Use, Function-Calling Tiefe und OpenAI-Ökosystem Integration, gewinnt o3 oder o3-mini immer noch. Siehe unser DeepSeek Kostenrechner für das vollständige Open-Weights Kosten-Bild.

Warum gibt es keinen Cached-Input-Rabatt auf der o-Serie?

Stand Juni 2026 hat OpenAI keine Cached-Input-Preise für die o-Serie veröffentlicht. Jedes Input-Token auf o3 wird zum vollständigen $2/M Satz berechnet, unabhängig von Cache-Status — es gibt keine $0,20/M Cached-Ebene wie auf gpt-5.5. Der strukturelle Workaround: halten Sie System-Prompts kurz auf Reasoning-Modellen (jedes Token kostet jeden Aufruf Vollpreis) und ziehen Sie eine 'reason once, serve from cache' Architektur in Betracht, wo Sie den Reasoning-Schritt mit o3 pre-berechnen und nachfolgende identische-form Queries von einem Chat-Modell + Retrieval Pipeline bedienen. Beobachten Sie das OpenAI Changelog — wenn Cached-Input für o-Serie versandt wird, verschiebt sich die Kosten-Mathematik wesentlich.

Hören Sie auf, zu viel bei Reasoning-Tokens zu bezahlen.

o-Serie berechnet 5-15x Chat-Modelle bei identischen Token-Volumen. Unser AI Prompt Generator schreibt Reasoning-optimierte Prompts, die Denktoken-Aufblähung minimieren — basierend auf IHREM Business + Task. 14-Tage kostenlos, keine Karte.

Browse all prompt tools →