Von The DDH Team · Digital Dashboard Hub

Claude API Kostenrechner (2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Anthropic berechnet Claude pro Token, angeboten pro 1.000.000 Token. Jeder Aufruf hat zwei abgerechnete Streams: Input (Ihr Prompt + Systemnachricht + bisherige Turns + Tools) und Output (alles, was das Modell zurückschreibt). Die Juni-2026-Linie umfasst eine 50x Spanne von Haiku 4.5 ($1 Input / $5 Output pro 1M) bis Fable 5 ($10 / $50). Opus 4.8 liegt bei $5 / $25 und Sonnet 4.6 bei $3 / $15 — die Workhorses für Production Traffic.

Anthropics charakteristisches Preis-Feature ist Prompt Caching mit zwei TTLs: 5-Minuten-Cache-Writes (berechnet 1,25x Base Input) und 1-Stunden-Cache-Writes (2x Base Input). Cache Reads kosten immer 10% des Base Input — ein 90% Rabatt auf den gecachten Teil. Die 1-Stunden-TTL ist der High-EV Hebel für Production: zahlen Sie 2x einmal beim Prefix Write, dann lesen Sie zu 10% bei jedem nachfolgenden Aufruf innerhalb der Stunde. Die Batch API nimmt auch 50% von Input und Output für asynchrone Jobs.

Unten: die vollständige Juni-2026-Preistabelle verifiziert gegen Anthropics Live-Preisseite, die kanonische Kostenformel mit Cache-Write-Mathematik, vier durchgerechnete Beispiele (einzelner Aufruf, 100k Aufrufe, 1M Aufrufe, eine 5-Turn-Agent-Schleife), der Modellauswahl-Entscheidungsbaum und eine quellengestützte FAQ. Erstellen Sie schnell Claude-optimierte Prompts (XML Tags, Cache-verankert) mit unserem kostenlosen Claude Prompt Generator. Schwester-Rechner: OpenAI API Kosten · Embeddings Kosten · Migrations-Tutorial.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Claude API Preis pro 1M Token — Juni 2026

Feature	Input ($/1M)	5-min Cache Write ($/1M)	1-Std Cache Write ($/1M)	Cache Read ($/1M)	Output ($/1M)
Claude Fable 5	$10.00	$12.50	$20.00	$1.00	$50.00
Claude Opus 4.8	$5.00	$6.25	$10.00	$0.50	$25.00
Claude Opus 4.7	$5.00	$6.25	$10.00	$0.50	$25.00
Claude Sonnet 4.6	$3.00	$3.75	$6.00	$0.30	$15.00
Claude Haiku 4.5	$1.00	$1.25	$2.00	$0.10	$5.00

Quelle, Stand Juni 2026: Anthropic API Preisgestaltung (https://docs.anthropic.com/en/docs/about-claude/pricing) und die Anthropic Console Preisseite (https://www.anthropic.com/pricing). Batch API: 50% Rabatt auf Input und Output für asynchrone Jobs (https://docs.anthropic.com/en/docs/build-with-claude/batch-processing). Web Search Tool: $10 pro 1.000 Suchen wenn aktiviert. Opus 4.7+ verwenden einen neuen Tokenizer, der für den gleichen Text etwa 35% mehr Token produziert — berücksichtigen Sie dies bei modellübergreifenden Vergleichen.

Die Kostenformel mit Cache-Write/Read-Mathematik

Claude-Preisgestaltung hat drei Input-Sätze statt zwei: Standard Input, Cache-Write Input (Premium), Cache-Read Input (90% Rabatt). Für einen einzelnen Aufruf ohne Cache entspricht die Formel OpenAIs:

``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```

Wenn Caching aktiviert ist, wird das Präfix, das Sie als cachebar markieren, beim ersten Aufruf zum Cache-Write-Satz berechnet (1,25x für 5-min TTL oder 2x für 1-Stunden-TTL), dann zum Cache-Read-Satz (10% der Base) bei jedem nachfolgenden Aufruf bis die TTL abläuft. Die amortisierten Kosten über N Aufrufe im gleichen TTL-Fenster:

``` amortized_cost = (cache_write_cost + (N-1) × cache_read_cost + N × non_cached_input_cost + N × output_cost) ```

Break-Even beim 1-Stunden-Cache-Write (2x Premium) geschieht nach 2 Cache Hits. Danach ist jeder zusätzliche Hit reine Einsparungen. Für einen stabilen 2.000-Token System Prompt + Tools auf Sonnet 4.6 gelesen über 100 Aufrufe in einer Stunde: Cache Write = 2000 × $6/1M = $0,012 einmal, Cache Reads = 99 × 2000 × $0,30/1M = $0,0594 — vs das gleiche Präfix 100x zum Standard Input lesen = 100 × 2000 × $3/1M = $0,60. Das ist eine **88% Einsparung auf dem Präfix-Teil**.

Die Batch API stapelt sich auf allem anderen: 50% Rabatt auf Input und Output für asynchrone Jobs.

Durchgerechnetes Beispiel 1: ein einzelner 1.000-In / 500-Out Aufruf

Gleicher kanonischer Aufruf wie unser OpenAI Rechner: ein 1.000-Token Prompt, der eine 500-Token Antwort zurückgibt, ohne Caching. Zu Standard-Raten:

Claude Fable 5: (1000/1.000.000) × $10 + (500/1.000.000) × $50 = $0,010 + $0,025 = **$0,035 pro Aufruf**.

Claude Opus 4.8: 0,001 × $5 + 0,0005 × $25 = $0,005 + $0,0125 = **$0,0175 pro Aufruf**.

Claude Sonnet 4.6: 0,001 × $3 + 0,0005 × $15 = $0,003 + $0,0075 = **$0,0105 pro Aufruf**.

Claude Haiku 4.5: 0,001 × $1 + 0,0005 × $5 = $0,001 + $0,0025 = **$0,0035 pro Aufruf**.

Beachten Sie, dass Sonnet 4.6 ($0,0105) fast identisch mit OpenAIs gpt-5.4 ($0,010) beim gleichen Aufruf ist. Die Wahl zwischen ihnen ist bei diesem Volumen selten eine Frage des Preises; es geht um Qualität bei der spezifischen Aufgabe. Für hochvolumiges Traffic ist die 10x Spanne zwischen Fable 5 und Haiku 4.5 der echte Hebel.

Durchgerechnetes Beispiel 2: 100.000 Aufrufe mit Prompt Caching auf Sonnet 4.6

Gleiche Form pro Aufruf — 1.000 In / 500 Out — bei 100.000 Aufrufen/Monat mit einem 700-Token cachedbaren System Prompt, der 90% der Zeit auf der 1-Stunden-TTL Cache trifft:

Basis-Pfad (kein Cache): 100.000 × $0,0105 = **$1.050/Monat** auf Sonnet 4.6.

Gecachter Pfad: Cache Writes ≈ 10.000 × (700/1M × $6) = $42. Cache Reads ≈ 90.000 × (700/1M × $0,30) = $18,90. Non-cached Input (die anderen 300 Token × 100.000) = 30.000.000 / 1M × $3 = $90. Output = 100.000 × (500/1M × $15) = $750. Gesamt = **$900,90/Monat** — eine 14% Einsparung bei dieser Workload.

Cache gewinnt Verbindungen bei höherem Präfix-Anteil. Wenn 1.800 von jedem 2.000 Input Token cachebar sind und 90% der Zeit treffen, fällt die gleiche 100k Workload von $1.050 auf etwa $810 — eine 23% Einsparung. Strukturieren Sie Prompts so, dass so viel des Präfix wie möglich stabil ist, und der Cache macht den Rest.

Durchgerechnetes Beispiel 3: Skalierung auf 1.000.000 Aufrufe auf Haiku 4.5

Production High-Volume Workloads (Klassifizierung, Zusammenfassung, Intent-Erkennung) leben routinemäßig auf Haiku 4.5. Bei 1M Aufrufe × 1.000-In / 500-Out:

Basis-Pfad: 1.000.000 × $0,0035 = **$3.500/Monat**.

Mit Batch API bei den 60% der Workload, die asynchron sind: 0,6 × $3.500 × 0,5 + 0,4 × $3.500 = $1.050 + $1.400 = **$2.450/Monat** (30% Einsparung).

Schichten Sie Prompt Caching auf dem System Präfix an (nehmen Sie an 800 von 1.000 Input Token cachen 80% der Zeit): sparen Sie weitere ~$280. Gesamt: **~$2.170/Monat** für 1M Haiku Aufrufe — etwa $0,00217 pro Aufruf. Dies ist die Preisgrenze für seriösen Production Claude Traffic.

Vergleichen Sie gpt-5.4-mini bei $3.000/Monat Standard für die gleiche Workload — Claude Haiku 4.5 ist bei der Skalierung günstiger, sobald Sie batch + cache verwenden.

Durchgerechnetes Beispiel 4: eine 5-Turn Agent-Schleife auf Opus 4.8

Agent-Schleifen auf Claude folgen der gleichen Form wie OpenAI: das Modell spielt das vollständige Transkript jeden Turn ab. Nehmen Sie eine 5-Turn-Schleife mit einem 2.500-Token System Prompt + Tools, wachsender Kontext 600 Token pro Turn:

Turn 1: 3.100 In / 250 Out. Turn 2: 3.250 In / 250 Out. Turn 3: 3.400 In / 250 Out. Turn 4: 3.550 In / 250 Out. Turn 5: 3.700 In / 250 Out. Gesamt: 17.000 Input + 1.250 Output. Auf Opus 4.8: 0,017 × $5 + 0,00125 × $25 = $0,085 + $0,03125 = **$0,117 pro Abfrage** ungecacht.

Jetzt wenden Sie 1-Stunden-Cache auf das 2.500-Token System + Tools Präfix an. Cache Write Turn 1: 2500 × $10/1M = $0,025. Cache Reads Turns 2-5: 4 × 2500 × $0,50/1M = $0,005. Non-cached Input (die wachsende Transkript-Portion) ≈ 5.000 × $5/1M = $0,025. Output: $0,03125. Gesamt: **$0,086 pro Abfrage** — eine 26% Einsparung und der Cache hält eine Stunde, sodass sitzungsübergreifende Wiederverwendung mehr hinzufügt.

Wenn Ihr Agent 10k Abfragen/Stunde bedient, amortisieren sich die Cache Writes über Tausende von Reads — die Pro-Abfrage-Kosten landen näher bei $0,060.

Wann man Fable 5 vs Opus 4.8 vs Sonnet 4.6 vs Haiku 4.5 wählt

**Claude Fable 5** ($10 / $50): das neue Frontier-Modell. Beste für hochkomplexe Reasoning, wo Opus 4.8 seine Qualitätsgrenze erreicht — mehrstufiges agentengestütztes Planen, dichtes wissenschaftliches Reasoning, großkontextuelle Literatursyntheseize. 2x der Preis von Opus 4.8; greifen Sie danach nur, wenn die marginale Qualitätsverbesserung die Premium verdient.

**Claude Opus 4.8** ($5 / $25): hochgradig kritisches Reasoning und kreatives Schreiben. Stark in langformatiger Kohärenz, rechtlicher Entwurfsgütung, komplexer Code-Synthese. Das Premium über Sonnet 4.6 wert, wenn Korrektheit mehr kostet als Durchsatz.

**Claude Sonnet 4.6** ($3 / $15): der Production Default. Bestes General-Purpose-Modell für Chat, agentengestützte Workflows, Inhaltsgenerierung. Sweet Spot zwischen Qualität + Preis für die meisten Teams — und das natürliche Paar zu gpt-5.5 für modellübergreifende A/B Tests.

**Claude Haiku 4.5** ($1 / $5): hochvolumige Aufgaben, bei denen Geschwindigkeit und Preis Reasoning-Tiefe schlagen — Klassifizierung, Extraktion, Zusammenfassung, Routing, einfache Q&A. Günstiger als gpt-5.4-mini bei der Skalierung sobald Sie cachen. Für den vollständigen anbieterübergreifenden Vergleich siehe unseren GPT vs Claude vs Gemini Rechner.

Prompt Caching auf Claude: die 5-min vs 1-Stunden-Entscheidung

Anthropics zwei Cache TTLs decken unterschiedliche Traffic-Formen ab. Der 5-Minuten-Cache-Write kostet 1,25x Base Input — Break-Even nach etwa 0,25 Cache Hits, also fast immer positiver EV für jeden Präfix-Reread innerhalb von Minuten. Der 1-Stunden-Cache-Write kostet 2x Base Input — Break-Even nach 2 Hits, was trivial für jeden Production Agent ist, der mehrere Benutzer pro Stunde bedient.

Faustregel: verwenden Sie 1-Stunde für System Prompts + Tool Definitionen + Few-Shot Beispiele (alles Stabile über eine Sitzung oder Benutzer hinweg). Verwenden Sie 5-Minuten für Pro-Konversation Kontext, der lange nicht überlebt. Markieren Sie Cache Breakpoints explizit im Messages Array mit `cache_control: { type: 'ephemeral' }`.

Der größte Fehler, den wir sehen: Caching der falschen Schicht. Caching nur des System Prompts und das Verlassen von 3.000-Token Tool Definitionen ungecacht misst den größten Cache Win. Alles Stabile einschließlich des Tools Arrays zu cachen ist der richtige Default. Siehe Anthropics Prompt Caching Docs für Breakpoint Platzierung.

Batch API auf Claude: 50% Rabatt, gleiche 24-Stunden-Grenze

Anthropics Batch API spiegelt OpenAIs: 50% Rabatt auf Input und Output für asynchrone Jobs, die innerhalb von 24 Stunden abgeschlossen sind. Reichen Sie eine JSONL-Datei von Message-Creation-Anfragen ein; Poll oder Webhook auf Abschluss.

Workloads, die passen: nächtliche Klassifizierung, Evaluierungsläufe, Training-Set Generation, wöchentliche Digests, Embedding-äquivalente dichte-Abruf-Precompute, automatisierte Content Moderation über gestrige Daten, Exception Reporting. Wenn der Consumer der Ausgabe asynchron ist, batch es.

Batch + Cache stapeln sich wie OpenAIs — multiplikativ. Ein batcheter Sonnet 4.6 Aufruf, der einen 1-Stunden-Cache für 80% des Input trifft, landet bei etwa $0,0036 pro 1.000-In / 500-Out Aufruf, vs $0,0105 Standard. Das ist eine 66% gemischte Einsparung über die Workload.

Claude API vs Claude.ai Consumer Preisgestaltung: verwechseln Sie sie nicht

Anthropic führt zwei parallele Abrechnungsbeziehungen. Die **API** (berechnet pro-Token in der Tabelle oben, zugänglich über console.anthropic.com / docs.anthropic.com) ist für Entwickler, die auf Claude bauen. Das **Claude.ai Consumer** Abonnement (Claude Free, Claude Pro bei $20/Monat, Claude Max bei $40/Monat) ist für End-User, die mit Claude in einer UI chatten. Sie teilen Infrastruktur, aber die Abrechnung ist separate.

Was dies für Builder bedeutet: ein $20/Monat Claude Pro Abonnement beinhaltet **nicht** API Kredite. Wenn Sie eine Anwendung auf Claude bauen, richten Sie API Abrechnung unabhängig unter console.anthropic.com ein — gleich wie OpenAIs Consumer Pläne keine API Kredite enthalten.

Claude Max ($40/Monat, gestartet 2025) ist der Consumer Power-User Tier mit höheren Message Caps auf Opus und Sonnet, längeren Context Fenstern in der UI, Prioritätszugang während Hochlast-Perioden und (seit Mitte-2026) inbegriffen Computer Use Beta Zugang. Es ist die grobe Claude Äquivalent von ChatGPT Pro Positionierung aber bei einem niedrigeren Preis. Heavy User, die täglich mit Claude chatten über Multi-Stunden-Sitzungen hinweg, sind die Zielgruppe.

Für Teams: Anthropic bietet Claude Team bei $25/Seat/Monat jährlich (ähnlich ChatGPT Team) mit gemeinsamen Workspace, Admin Steuerungen und SSO/SCIM bei höheren Tiers. Unterschiedlich von der API — Team ist ein Claude.ai Abonnement, die API ist das Pro-Token Developer Produkt.

Web Search Tool: $10 pro 1.000 Suchen

Claudes Web Search Tool — aktiviert über die `web_search` Tool Definition in einem Messages Aufruf — berechnet $10 pro 1.000 Suchen zusätzlich zu Standard Token Gebühren. Jede Search Anruf gibt Top Results zurück, die zu Ihrer Input Token Bill im nächsten Turn zählen.

Für Research-Heavy Assistants ist das Search Add-On eine saubere Pro-Call Surcharge: Budget $0,01 pro Suche, plus die Input Kosten der Results (typisch 500-2.000 Token jede, abhängig davon, wie viele Quellen Claude zieht). Bei Sonnet 4.6 Input Raten kostet ein 1.500-Token Search Result $0,0045 extra oben drauf die $0,01 Search Fee — nennen Sie es $0,015 all-in pro searched Turn.

Verwenden Sie Suche wenn die Antwort Post-Training Daten benötigt (aktuelle Events, Live Pricing, aktuelle Papers). Deaktivieren Sie sie bei Workloads, die von Model Weights allein laufen können — jede Suche fügt $0,01-$0,02 zur Bill hinzu ohne offsettierende Input Einsparungen.

Sourcing Methodologie und wie man diese Zahlen aktuell hält

Jeder Claude Preis in diesem Guide kommt von Anthropics Live Preisseite unter docs.anthropic.com/en/docs/about-claude/pricing und der Anthropic Console Preisfläche unter anthropic.com/pricing, gelesen am 2026-06-20. Zahlen wurden gegen drei unabhängige Quellen verifiziert (Community Preis Aggregatoren, Integration Commits im anthropic-sdk-python und anthropic-sdk-typescript Repos und das öffentlich Anthropic Cookbook).

Anthropic veröffentlicht ein sauberes Preis Changelog als die meisten Provider — materielle Preisänderungen erscheinen typischerweise in ihren Docs Release Notes innerhalb von 48 Stunden. Die aktuellen Preise haben sich durch 2026 stabil gehalten: Sonnet 4.6 bei $3/$15, Haiku 4.5 bei $1/$5, Opus 4.8 bei $5/$25, Fable 5 bei $10/$50. Der 1-Stunden-Cache-Write Tier ist die neueste Ergänzung (ausgerollt in späten 2025) und bleibt der höchste-EV Kostenhebel für Production Traffic.

**Wie man verifiziert vor Sie Budget**: öffnen Sie docs.anthropic.com/en/docs/about-claude/pricing in einem beliebigen Browser (keine Auth erforderlich), kopieren Sie die vollständige Reihe Ihres Zielmodells (Input / Cache Write 5-min / Cache Write 1-Std / Cache Read / Output) in ein Spreadsheet. Vergleichen Sie gegen die Tabelle oben. Der Opus 4.7 → Opus 4.8 Übergang in frühe 2026 hielt die Preisgestaltung unverändert, aber der Tokenizer Shift bedeutet Token Counts bewegten sich ~35% höher für den gleichen English Text. Re-Budget wenn Sie von einem alten Claude 3 Baseline portiert sind.

**Reproduzierbare Methodologie**: das GEO Playbook, das diesen Guide treibt (2026-06-19), benötigt jeden $ Wert, der von der Live Provider Seite zu sourced ist. Jede Reihe in der Tabelle oben hat eine Citation; jedes durchgerechnete Beispiel referenziert jene Reihen; die FAQs reflektieren sie. Wenn Sie einen Unterschied mit der Live Seite finden, ist die Live Seite kanonisch.

Wie man jegliche Claude API Call Kosten in 5 Schritten schätzt

1
Schätzen Sie Ihre Input Token
Faustregel: 1 Token ≈ 4 Zeichen ≈ 0,75 English Wörter. Beachten Sie, dass Opus 4.7+ einen neuen Tokenizer verwenden, der ~35% mehr Token für den gleichen Text produziert als ältere Claude Modelle — berücksichtigen Sie dies beim Portieren von Prompts von Claude 3.x.
→ Open the Claude-bewusster Prompt Generator
2
Schätzen Sie Ihre Output Token
Wörter ÷ 0,75. Output ist 5x Input auf jedem Claude Modell, also fahren Output Volumen die meisten der Bill. Cap Output mit `max_tokens` überall wo Sie Consumption Form kontrollieren.
3
Suchen Sie die Input + Cache + Output Preise auf
Aus der Tabelle oben: Sonnet 4.6 $3 / $15, Opus 4.8 $5 / $25, Haiku 4.5 $1 / $5, Fable 5 $10 / $50 pro 1M. Cache Reads berechnen bei 10% von Input. Cache Writes berechnen 1,25x (5-min) oder 2x (1-Std).
4
Entscheiden Sie welches Präfix zu cachen
Markieren Sie stabile Präfix Layer mit `cache_control: { type: 'ephemeral' }`: System Prompt, Tool Definitionen, Few-Shot Beispiele. Alles das nicht zwischen Aufrufen innerhalb von Minuten ändert (5-min Cache) oder innerhalb einer Stunde (1-Std Cache) gehört hinter einen Cache Breakpoint.
5
Wenden Sie Batch API für async Workloads an
Wenn die Ausgabe asynchron konsumiert wird, batch sie. 50% Rabatt auf Input + Output, stapelt mit Caching. Reichen Sie JSONL ein; Poll für Results innerhalb von 24 Stunden. Live Docs: docs.anthropic.com/en/docs/build-with-claude/batch-processing.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Claude-optimierter Prompt Generator→Code Prompt Builder (Cache-verankert)→OpenAI API Kostenrechner→OpenAI → Claude Migrations Guide→

Frequently Asked Questions

Wie viel kostet Claude Opus 4.8 pro 1 Million Token in 2026?

Stand Juni 2026 kostet Claude Opus 4.8 $5,00 pro 1M Input Token und $25,00 pro 1M Output Token über die Anthropic API. Der 1-Stunden-Cache-Write Satz ist $10/1M; Cache Reads berechnen $0,50/1M (10% von Input). Quelle: Anthropics Live API Preisseite.

Wie viel kostet Claude Sonnet 4.6 pro Aufruf?

Ein 1.000-In / 500-Out Aufruf auf Sonnet 4.6 kostet (1000 / 1.000.000) × $3 + (500 / 1.000.000) × $15 = $0,003 + $0,0075 = $0,0105 pro Aufruf. Der gleiche Aufruf auf Opus 4.8 ist $0,0175, auf Haiku 4.5 ist $0,0035, auf Fable 5 ist $0,035.

Wie funktioniert Claude Prompt Caching Preisgestaltung?

Anthropic bietet zwei Cache TTLs. Der 5-Minuten-Cache-Write berechnet 1,25x Base Input; der 1-Stunden-Cache-Write berechnet 2x Base Input. Cache Reads berechnen immer 10% des Base Input — ein 90% Rabatt. Break-Even auf dem 1-Stunden-Cache-Write ist 2 Hits; alles danach ist reine Einsparungen. Auf Sonnet 4.6 spart ein 2.000-Token gecachtes Präfix, das 100x in einer Stunde gelesen wird, ~88% auf dem Präfix-Teil dieser Aufrufe.

Ist Claude günstiger als OpenAI GPT-5?

Auf einem Like-for-Like 1.000-In / 500-Out Aufruf: Sonnet 4.6 ist $0,0105 vs gpt-5.4 bei $0,010 — im Wesentlichen identisch. Haiku 4.5 ist $0,0035 vs gpt-5.4-mini bei $0,003 — auch ein Wash. Claude gewinnt entscheidend bei der Skalierung wenn Sie Prompt Caching effektiv verwenden (Anthropics 1-Stunden-TTL mit expliziten Breakpoints schlägt oft OpenAIs gelegentlichen Präfix Cache). Für Premium Tier ist Opus 4.8 ($5/$25) wesentlich günstiger als gpt-5.5-pro ($30/$180).

Was ist der Claude Batch API Rabatt?

Die Anthropic Batch API nimmt 50% von Input und Output Token Preisen für asynchrone Jobs ab, die innerhalb von 24 Stunden abgeschlossen sind. Reichen Sie eine JSONL Datei von Message-Creation Anfragen über den Batches Endpunkt ein; Poll oder Webhook auf Abschluss. Stapelt mit Prompt Caching.

Wie viel kostet Claudes Web Search Tool?

$10 pro 1.000 Suchen, zusätzlich zu Standard Input/Output Token Gebühren. Search Results, die Claude zieht, zählen zu Ihrer Input Token Bill im nächsten Turn — typisch 500-2.000 Token pro Result. Budget ~$0,015 all-in pro searched Turn auf Sonnet 4.6.

Kosten Opus 4.7+ Token mehr wegen des neuen Tokenizers?

Gleicher Pro-Token Satz, aber Opus 4.7 und Opus 4.8 verwenden einen neuen Tokenizer, der ~35% mehr Token für den gleichen English Text vs Claude 3.x Modelle produziert. Wenn Sie von einer alten Claude 3 Baseline budgetierend, multiplizieren Sie Token Counts um 1,35 vor Anwendung der neuen Sätze. Neuer Code, der auf Opus 4.7+ startet, benötigt nicht anzupassen — Token Schätzungen von Tiktoken-äquivalenten Biblioteken nutzen bereits den neuen Tokenizer.

Kann ich Claude Tool Definitionen cachen?

Ja — und Sie sollten. Tool Definitionen sind oft der größte Teil des Input bei Agent Workloads. Platzieren Sie den `cache_control` Breakpoint nach dem Tools Array, nicht nur nach dem System Prompt. Der größte verbreitete Caching Fehler, den wir auf Claude sehen, ist nur den System Prompt zu cachen und Multi-Tausend-Token Tool Definitionen auf jedem Call ungecacht zu verlassen.

Führen Sie Claude Prompts aus, die tatsächlich cachen.

Unser AI Prompt Generator schreibt Opus/Sonnet/Haiku/Fable Prompts mit dem Cache-Anker oben und XML Tags, die Claude bevorzugt — basierend auf IHREM Business + Aufgabe. 14-Tage kostenlos, keine Karte.

Browse all prompt tools →