Von The DDH Team · Digital Dashboard Hub

Kosten pro Token für alle großen KI-Modelle (2026)

Input- und Output-Preise pro Million Tokens für alle großen OpenAI-, Anthropic- und Google-Modelle, plus die Caching-, Batch- und Context-Window-Mechaniken, die Ihre reale Monatsrechnung bestimmen — aktuell Juni 2026.

By DDH Research Team at Digital Dashboard Hub·Updated June 15, 2026

Browse all 40+ free prompt tools

Im Juni 2026 werden KI-Modell-Preise pro Million Tokens (MTok) angeboten und in einen günstigeren Input- und einen teureren Output-Tarif aufgeteilt. Die günstigsten frontier-class Modelle — gpt-5.4 mit $2,50 Input / $15,00 Output, Claude Sonnet 4.6 mit $3 / $15 und Gemini 2.5 Pro mit $1,25 / $10 — liegen eng beieinander, während die Top-Tier-Reasoning-Modelle (gpt-5.5-pro mit $30 / $180, Claude Fable 5 mit $10 / $50) 5-12x teurer sind. Die folgenden Preise stammen von den Live-Pricing-Seiten der einzelnen Anbieter und sollten dort vor der Budgetplanung erneut überprüft werden.

Token-Preise allein prognostizieren niemals Ihre Rechnung. Prompt Caching, Batch-Rabatte und die Menge an Context, die Sie in jeden Aufruf packen, verschieben die realen Kosten um das 2-10fache. Dieser Leitfaden listet jeden aktuellen Preis auf und zeigt dann die Mechaniken, die den Preis wirklich beeinflussen — und Sie können Ihre eigenen Volumen in unseren KI-Prompt-Kostenrechner eintragen (so funktioniert er), um eine Monatsfigur zu schätzen.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Per-Token-Preise, alle großen Modelle (pro 1M Tokens, Juni 2026)

Feature	Input ($/MTok)	Output ($/MTok)	Tier
OpenAI gpt-5.5	5.00	30.00	Frontier
OpenAI gpt-5.5-pro	30.00	180.00	Premium Reasoning
OpenAI gpt-5.4	2.50	15.00	Workhorse
OpenAI gpt-5.4-mini	0.75	4.50	Effizient
OpenAI gpt-5.4-nano	0.20	1.25	Massen / Billig
OpenAI gpt-5.3-codex	1.75	14.00	Coding
Claude Opus 4.8	5.00	25.00	Frontier
Claude Sonnet 4.6	3.00	15.00	Workhorse
Claude Haiku 4.5	1.00	5.00	Effizient
Claude Fable 5	10.00	50.00	Premium
Gemini 3.5 Flash	1.50	9.00	Workhorse
Gemini 3.1 Pro (Preview)	2.00	12.00	Frontier (≤200k)
Gemini 3.1 Flash-Lite	0.25	1.50	Massen / Billig
Gemini 2.5 Pro	1.25	10.00	Workhorse
Gemini 2.5 Flash	0.30	2.50	Effizient
Gemini 2.5 Flash-Lite	0.10	0.40	Billigste

Preise Juni 2026, pro [OpenAI](https://developers.openai.com/api/docs/pricing), [Anthropic](https://claude.com/pricing) ([API-Detail](https://platform.claude.com/docs/en/about-claude/pricing)) und [Google Gemini](https://ai.google.dev/gemini-api/docs/pricing). Änderungen vorbehalten; bestätigen Sie auf den Live-Seiten.

Was in diesem Leitfaden enthalten ist

Dies ist eine Referenzseite. Überfliegen Sie die Tabelle, die Sie brauchen:

1. Wie Per-Token-Preise wirklich funktionieren (Input vs Output, warum Output teurer ist).

2. OpenAI API-Preise — die komplette gpt-5.5 und gpt-5.4 Familie plus Codex und Media-Modelle.

3. Anthropic / Claude API-Preise — Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5.

4. Google Gemini API-Preise — Gemini 3.5, 3.1 und 2.5 Tiers.

5. Die All-Models-Vergleichstabelle auf einen Blick.

6. Prompt Caching — wie Cache-Lesevorgänge Input-Kosten um bis zu 90% reduzieren.

7. Batch-Rabatte — 50% Rabatt, wenn Latenz keine Rolle spielt.

8. Context-Window-Preise — warum längere Context die Rechnung stillschweigend verdoppeln kann.

9. So schätzen Sie Ihre realen monatlichen Kosten.

10. Quellen und weiterführendes Material.

Wie Per-Token-Preise funktionieren

Alle großen APIs messen die Nutzung in Tokens, nicht in Wörtern oder Zeichen. Ein Token ist ein Sub-Wort-Chunk; auf Englisch etwa 1 Token ≈ 4 Zeichen ≈ 0,75 Wörter (nach Anthropic und OpenAI Tokenisierungsdokumentation). Eine 500-Wort-E-Mail sind etwa 670 Tokens; ein 10-seitiges Dokument etwa 5.000-6.000 Tokens.

Preise werden fast immer in zwei Tarife aufgeteilt. Input-Tokens (Ihr Prompt, Systemmeldung und beliebiger angehängter Context) werden mit einem Tarif abgerechnet; Output-Tokens (das, was das Modell generiert) werden mit einem höheren Tarif abgerechnet — typischerweise 4-6x der Input-Rate. Diese Asymmetrie ist der Grund, warum Zusammenfassungen (lange Input, kurze Output) billig und Generierung (kurze Input, lange Output) relativ teuer sind.

Tarife werden pro 1.000.000 Tokens (1M, geschrieben MTok) angeboten. Also gpt-5.4 bei $2,50 / $15,00 bedeutet $2,50 pro Million Input-Tokens und $15,00 pro Million Output-Tokens. Eine einzelne Anfrage mit 4.000 Input + 1.000 Output Tokens auf gpt-5.4 kostet (4.000/1.000.000 × $2,50) + (1.000/1.000.000 × $15,00) = $0,01 + $0,015 = $0,025.

Drei Modifikatoren ändern diese Basis-Mathematik: Prompt Caching (günstigere wiederholte Input), Batch-Verarbeitung (günstigere nicht-dringende Jobs) und Context-Window-Tier-Preise (einige Modelle berechnen mehr über einem Context-Schwellwert). Alle drei werden unten behandelt. Um Token-Zählungen ohne manuelles Rechnen in Dollar umzuwandeln, verwenden Sie den KI-Prompt-Kostenrechner. Führen Sie die Zahlen mit unserem KI-Prompt-Kostenrechner durch.

OpenAI API-Preise (Juni 2026)

OpenAIs gpt-5.5 Familie ist die Frontier-Tier; die gpt-5.4 Familie ist die kostengünstige Workhorse-Linie mit Mini- und Nano-Varianten für hochvolumiges, niedriges Risiko-Work. Das gpt-5.3-codex Modell ist für Coding-Agenten optimiert. Alle Zahlen unten sind pro 1M Tokens und stammen von der OpenAI API-Preisseite; bestätigen Sie dort vor der Budgetplanung.

``` Modell Input ($/MTok) Output ($/MTok) gpt-5.5 5.00 30.00 gpt-5.5-pro 30.00 180.00 gpt-5.4 2.50 15.00 gpt-5.4-mini 0.75 4.50 gpt-5.4-nano 0.20 1.25 gpt-5.3-codex 1.75 14.00 ```

Media wird separat berechnet: gpt-image-2 kostet $8,00 Input / $30,00 Output pro 1M Tokens und Sora-2 Video wird nach Sekunde berechnet — $0,10/Sek. bei 720p und $0,50/Sek. bei 1024p.

Auswahl innerhalb der Familie: gpt-5.4-nano bei $0,20 / $1,25 ist etwa 25x billiger bei Input als gpt-5.5 und ist der richtige Standard für Klassifizierung, Tagging und Routing. Reservieren Sie gpt-5.5-pro für echte schwierige Reasoning — bei $180/MTok Output ist es der teuerste Output-Token aller Modelle in diesem Leitfaden.

Anthropic / Claude API-Preise (Juni 2026)

Anthropics Claude-Linie umfasst Haiku (schnellster, günstigster), Sonnet (ausgeglichen), Opus (fähigstes allgemeines Modell) und Fable 5 (Premium-Tier). Bemerkenswert ist, dass die Opus- und Sonnet 4.6+ Generationen einen festen Preis unabhängig von der aufgerufenen Point-Release tragen. Zahlen sind pro 1M Tokens von der Claude-Preisseite und der API-Preisdetail.

``` Modell Input ($/MTok) Output ($/MTok) Claude Opus 4.8 5 25 Claude Opus 4.5 / 4.6 / 4.7 5 25 Claude Sonnet 4.6 / 4.5 3 15 Claude Haiku 4.5 1 5 Claude Fable 5 10 50 ```

Zwei strukturelle Vorteile stechen hervor. Erstens passt Claude Opus 4.8 den Input-Preis von gpt-5.5 an ($5), unterschreitet aber seine Output um $5/MTok ($25 vs $30) — und ist dramatisch billiger als gpt-5.5-pro. Zweitens kosten Cache-Lesevorgänge auf Opus 4.8 nur $0,50/MTok (10% des Basis-Input), was wiederholte Context-Workloads viel billiger macht als der Headline-Preis suggeriert (siehe Caching unten).

Anthropic berechnet auch Server-seitige Tools separat: das Web-Search-Tool kostet $10 pro 1.000 Suchen. Wenn Sie einen Research-Agenten bauen, der bei jedem Turn sucht, kann dieser Posten Ihre Token-Ausgaben konkurrieren, also messen Sie es explizit.

Google Gemini API-Preise (Juni 2026)

Googles Gemini-Linie ist generell die günstigste der drei Anbieter bei vergleichbaren Capability-Tiers, besonders die Flash-Lite-Varianten für hochvolumiges Work. Einige Tiers (Gemini 3.1 Pro Preview) zitieren den Tarif bei oder unter einem Context-Schwellwert. Zahlen sind pro 1M Tokens von der Gemini API-Preisseite.

``` Modell Input ($/MTok) Output ($/MTok) Gemini 3.5 Flash 1.50 9.00 Gemini 3.1 Pro (Preview) 2.00 12.00 (≤200k context) Gemini 3.1 Flash-Lite 0.25 1.50 Gemini 2.5 Pro 1.25 10.00 Gemini 2.5 Flash 0.30 2.50 Gemini 2.5 Flash-Lite 0.10 0.40 ```

Gemini 2.5 Flash-Lite bei $0,10 / $0,40 ist das günstigste Modell in diesem gesamten Leitfaden — halb die Input-Kosten von gpt-5.4-nano und ein Viertel der Output-Rate von Gemini 3.1 Flash-Lite. Für Extraktion, Klassifizierung und andere Massen-Low-Stakes-Aufgaben, bei denen Sie keine Frontier-Reasoning benötigen, legt es die Preisuntergrenze fest.

Beachten Sie die Context-Anmerkung des 3.1 Pro Preview: sein $2,00 / $12,00 Tarif wird bei oder unter 200k Tokens zitiert. Wie bei jedem Anbieter können Large-Context-Aufrufe in einen anderen Preistier wechseln, überprüfen Sie daher die Live-Seite auf die genauen Schwellwerte, bevor Sie sehr große Prompts senden.

Alle großen Modelle auf einen Blick

Die untenstehende Tabelle bricht jedes Modell in einen einzigen Vergleich zusammen, sodass Sie sehen können, wo jedes landet. Der Output-Preis ist die Zahl, die normalerweise reale Rechnungen dominiert, da die Generierung tendenziell mehr Tokens produziert als Sie erwarten würden. Das Tier "billiger Workhorse" (gpt-5.4, Sonnet 4.6, Gemini 2.5 Pro) ist, wo die meisten Produktions-Traffic landen sollte, außer wenn eine Aufgabe wirklich das Frontier-Tier benötigt.

Prompt Caching: der größte Hebel bei Input-Kosten

Prompt Caching ermöglicht es Ihnen, einen großen, stabilen Input-Chunk — einen langen Systemprompt, eine Knowledge Base, ein Dokument — über viele Anfragen hinweg mit steilem Rabatt wiederzuverwenden. Statt bei jedem Aufruf den vollen Input-Preis zu zahlen, zahlen Sie einmalige Write-Kosten und dann winzige Read-Kosten bei jedem Cache-Hit.

Bei Anthropics API sind die Mechaniken explizit (Preisdetail): ein 5-Minuten-Cache-Write kostet das 1,25fache des Basis-Input-Tarifs, ein 1-Stunden-Write kostet 2x und ein Cache-Read (Hit) kostet nur 0,1x Basis-Input — d.h. 10% des Input-Preises. Für Claude Opus 4.8 bedeutet das Cache-Lesevorgänge bei $0,50/MTok statt $5,00/MTok, eine 90% Ersparnisse auf dem gepufferten Portion.

Die Mathematik: Angenommen, Sie fügen eine 50.000-Token Knowledge Base an 1.000 Opus 4.8-Anfragen an. Ohne Caching sind das 50M Input-Tokens bei $5 = $250 nur für den wiederholten Context. Mit Caching zahlen Sie einen Write (~50.000 Tokens × 1,25x = ungefähr $0,31) plus 999 Reads bei 10% (≈49,95M × $0,50/MTok ≈ $25). Sie reduzieren die wiederholten Context-Kosten von $250 auf etwa $25 — ungefähr 90% Rabatt.

Caching zahlt sich aus, wenn derselbe große Prefix über viele Aufrufe innerhalb des Cache-Fensters erscheint. Es hilft nicht bei einmaligen Prompts oder Prompts, bei denen der Großteil des Input jedes Mal wechselt. OpenAI und Google bieten auch Caching an; überprüfen Sie die Preisseite jedes Anbieters auf aktuelle Rabattsätze und Mindestwerte.

Batch-Rabatte: 50% Rabatt, wenn Latenz keine Rolle spielt

Wenn ein Job keine sofortige Antwort benötigt — nächtliche Zusammenfassung eines Backlogs, Massen-Klassifizierung, Dataset-Labeling — tauschen Batch-APIs Latenz gegen einen Rabatt ein. Anthropics Batch API ist 50% auf Input und Output (Preise); OpenAI und Google bieten vergleichbare Batch-Tiers (überprüfen Sie ihre Preisseiten auf genaue Prozentsätze und Bearbeitungsfenster).

Stacking ist wichtig: Batch und Caching können sich kombinieren. Ein nächtlicher Job, der einen festen Systemprompt über Tausende von Datensätzen hinweg erneut nutzt, kann den Cache-Read-Rabatt auf das Präfix und den Batch-Rabatt auf den Rest erhalten. Für einen Workload, der sowohl wiederholend als auch nicht-dringend ist, kann der effektive Tarif weit unter der Hälfte des Headline-Preises landen.

Der Trade-Off ist Bearbeitungszeit — Batch-Jobs lösen sich normalerweise in einem Fenster auf (oft bis zu 24 Stunden) statt in Sekunden. Verwenden Sie Batch für Pipelines, nicht für alles, worauf ein Benutzer wartet.

Context-Window-Preise: der stille Rechnungsmultiplikator

Moderne Modelle akzeptieren enorme Context-Fenster — Anthropic enthält ein 1M-Token Context-Fenster zum Standardpreis auf Opus 4.6+, Sonnet 4.6 und Fable 5. Diese Fähigkeit ist ein zweischneidiges Schwert: jedes Token, das Sie in Context platzieren, wird bei jedem Aufruf zum Input-Tarif abgerechnet.

Die Falle ist RAG und Long-Conversation-Apps, die fortlaufend anhängen. Wenn Sie ein Gespräch auf 100.000 Tokens Context vergrößern und 20 weitere Turns machen, zahlen Sie diese 100.000 Input-Tokens bei jedem der 20 Turns erneut — 2M Input-Tokens nur für Context-Replay vor dem Zählen eines neuen Inhalts. Bei Opus 4.8 sind das $10 reine Context-Replay-Kosten für ein einzelnes Gespräch.

Zwei Möglichkeiten: (1) cache den stabilen Portion des Context, sodass das Replay bei 10% statt 100% abgerechnet wird; (2) fassen Sie alte Turns zusammen oder kürzen Sie sie, sodass das Fenster nicht grenzenlos wächst. Einige Anbieter stufen Preise auch über einem Context-Schwellwert ab (z.B. Gemini 3.1 Pro Preview zitiert seinen Tarif bei ≤200k) — überprüfen Sie den Schwellwert auf der Live-Preisseite, bevor Sie sehr große Prompts senden.

So schätzen Sie Ihre realen monatlichen Kosten

Headline Per-Token-Tarife sind der Startpunkt, nicht die Antwort. Um eine reale Monatsrechnung zu schätzen, arbeiten Sie fünf Zahlen durch: (1) Anfragen pro Monat, (2) durchschnittliche Input-Tokens pro Anfrage, (3) durchschnittliche Output-Tokens pro Anfrage, (4) welches Modell und (5) welcher Anteil des Input ist cachierbar oder batchierbar.

Durchgerechnetes Beispiel. Angenommen, ein Support-Assistant verarbeitet 100.000 Anfragen/Monat auf Claude Sonnet 4.6 ($3 / $15), durchschnittlich 3.000 Input + 500 Output Tokens, mit einem 2.000-Token Systemprompt, der cachierbar ist. Basis-Input: 100k × 3.000 = 300M Tokens; davon sind ~200M der wiederholte cachierbare Prompt. Gecacht: ~200M × $0,30/MTok (10% von $3) = $60; nicht-cachierbar Input ~100M × $3 = $300; Output 100k × 500 = 50M × $15 = $750. Gesamtbetrag ≈ $1.110/Monat — versus ungefähr $1.650 ohne Caching.

Die zwei größten Schätzfehler sind das Unterschätzen von Output-Tokens (Modelle sind wortreicher als Leute erwarten) und das Ignorieren von Context-Replay in Multi-Turn-Apps. Bauen Sie ein kleines Spreadsheet auf, oder überspringen Sie die Arithmetik und geben Sie Ihre Volumen in den KI-Prompt-Kostenrechner ein — siehe wie der Rechner funktioniert für die Methodologie. Validieren Sie dann gegen Ihre erste echte Woche der API-Abrechnung; Schätzungen sind direktional, bis tatsächlich gemessene Nutzung sie bestätigt.

Kostenkontroll-Checkliste: routen Sie einfache Aufgaben zum günstigsten fähigen Modell (Gemini 2.5 Flash-Lite, gpt-5.4-nano, Haiku 4.5); cachieren Sie stabile Präfixe; batchieren Sie alles Nicht-Dringende; begrenzen Sie Output-Länge; und trimmen Sie Context aggressiv. Diese fünf Hebel reduzieren eine Rechnung routinemäßig um die Hälfte oder mehr — weit mehr als Anbieter für einen Bruchteil des Tarifunterschieds zu wechseln.

Quellen und weiterführendes Material

Alle Preise in diesem Leitfaden werden zum Juni 2026 zitiert und können sich ändern — bestätigen Sie immer auf den Live-Seiten unten, bevor Sie ein Budget festlegen.

OpenAI API-Preise: https://developers.openai.com/api/docs/pricing

Anthropic / Claude Preise: https://claude.com/pricing

Claude API-Preisdetail (Caching, Batch, Tools): https://platform.claude.com/docs/en/about-claude/pricing

Google Gemini API-Preise: https://ai.google.dev/gemini-api/docs/pricing

Token-zu-Text Faustregel (1 Token ≈ 4 Zeichen ≈ 0,75 Wörter): pro Anthropic und OpenAI Tokenisierungsdokumentation.

Schätzen Sie Ihre eigenen Ausgaben mit dem KI-Prompt-Kostenrechner und lesen Sie die Rechner-Methodologie.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related prompt tools

Code-Prompt-Builder→ChatGPT Prompt Generator→Business-E-Mail-Generator→Blog-Beitrag-Gliederungs-Generator→SEO-Meta-Generator→

Frequently Asked Questions

Welches KI-Modell hat 2026 die niedrigsten Kosten pro Token?

Im Juni 2026 ist Gemini 2.5 Flash-Lite mit $0,10 Input / $0,40 Output pro 1M Tokens das günstigste, pro Gemini-Preisseite. Unter vergleichbaren billigen Tiers sind gpt-5.4-nano ($0,20 / $1,25) und Claude Haiku 4.5 ($1 / $5) die OpenAI und Anthropic Äquivalente. Diese sind beste für hochvolumige, niedriges Risiko-Aufgaben wie Klassifizierung und Extraktion, nicht für Frontier Reasoning.

Warum ist Output teurer als Input?

Token-Generierung ist Compute-intensiver als Lesen — jedes Output-Token erfordert einen vollständigen Forward-Pass durch das Modell, während Input effizienter verarbeitet werden kann. Über Anbieter hinweg laufen Output-Tarife ungefähr 4-6x den Input-Tarif. Dies ist der Grund, warum Zusammenfassung (lange Input, kurze Output) billig und offene Generierung (kurze Input, lange Output) relativ teuer ist. Siehe die Preisseite jedes Anbieters für genaue Verhältnisse.

Wie viel spart Prompt Caching wirklich?

Bei Anthropics API kostet ein Cache-Read 10% des Basis-Input-Tarifs, daher spart die Wiederverwendung eines großen stabilen Prefix ungefähr 90% auf diesem Portion (Preisdetail). Für Claude Opus 4.8 sinken gepufferte Inputs von $5,00 auf $0,50 pro 1M Tokens. Der Haken: Caching hilft nur, wenn derselbe große Prefix über viele Aufrufe im Cache-Fenster wiederholt wird. Es hilft nicht bei einmaligen Prompts.

Was ist der Batch-API-Rabatt?

Anthropics Batch API ist 50% auf Input und Output für Jobs, die keine sofortige Antwort benötigen (Preise). OpenAI und Google bieten vergleichbare Batch-Tiers — überprüfen Sie ihre Preisseiten auf genaue Prozentsätze und Bearbeitungsfenster. Batch und Caching können stapeln, sodass eine wiederholte nicht-dringende Pipeline weit unter dem Headline-Tarif laufen kann.

Kostet ein größeres Context-Fenster mehr?

Das Fenster selbst wird oft zum Standardtarif eingeschlossen — Anthropic enthält 1M-Token Context zum Standardtarif bei Opus 4.6+, Sonnet 4.6 und Fable 5. Aber Sie zahlen den Input-Tarif für jeden Token, den Sie tatsächlich in Context platzieren, bei jedem Aufruf. Multi-Turn-Apps, die fortlaufend anhängen, zahlen den gesamten Context bei jedem Turn erneut, was die Rechnung stillschweigend multipliziert. Cache des stabilen Portionen und Trimmen alter Turns sind die wichtigsten Möglichkeiten.

Wie schätze ich meine reale monatliche KI-Rechnung?

Multiplizieren Sie Anfragen/Monat mit durchschnittlichen Input- und Output-Tokens pro Anfrage, wenden Sie die Per-Token-Tarife des Modells an, dann diskontieren Sie jeden cachier- oder batchier-baren Portion. Output-Tokens und Multi-Turn Context-Replay sind die zwei am meisten unterschätzten Kosten. Der schnellste Weg ist, die Arithmetik zu überspringen und den KI-Prompt-Kostenrechner (Methodologie hier) zu verwenden, dann gegen Ihre erste echte Woche der API-Abrechnung validieren.

Schätzen Sie Ihre reale KI-Rechnung, bevor Sie sich festlegen.

Geben Sie Ihre Volumen in den kostenlosen KI-Prompt-Kostenrechner ein — keine Anmeldung erforderlich, Teil von über 40 kostenlosen Prompt-Tools von Digital Dashboard Hub.

Browse all prompt tools →