Von The DDH Team · Digital Dashboard Hub

Anthropic Claude Pricing 2026: Opus, Sonnet, Haiku, Fable Kostenaufschlüsselung

By DDH Research Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Anthropic verrechnet Token über vier Claude-Stufen im Jahr 2026: Opus 4.8 mit $5,00 Input / $25,00 Output pro 1M Token, Sonnet 4.6 mit $3,00 / $15,00, Haiku 4.5 mit $1,00 / $5,00 und das neue Fable 5 Reasoning-Modell mit $10,00 / $50,00. Der Output wird über alle Stufen hinweg 5x des Input berechnet, was die restliche Branche widerspiegelt.

Zwei Kostenhebel sind einzigartig für Claude und es lohnt sich, sie gut zu verstehen. Prompt Caching liest gecachte Präfixe mit 0,1x des Basis-Input-Tarifs ab (eine 90%-Ersparnis für den gecachten Teil), und die Batch API reduziert Input und Output um 50% für Jobs, die warten können. Nachfolgend finden Sie die vollständige Tabelle, die Caching-Formeln und Kostenbeispiele für 1.000, 100.000 und 1-Million-Call-Workloads. Bestätigen Sie die Tarife auf Anthropics Preisseite vor der Budgetierung. Um Prompts zu verfassen, die mit einem günstigeren Tier funktionieren, probieren Sie unseren ChatGPT Prompt Generator, oder laden Sie das kostenlose 2026 LLM Pricing Cheat Sheet PDF herunter.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Claude API Preis pro 1M Token — Juni 2026

Feature	Input ($/1M)	Cache write 5m ($/1M)	Cache write 1h ($/1M)	Cache read ($/1M)	Output ($/1M)
Claude Fable 5	$10.00	$12.50	$20.00	$1.00	$50.00
Claude Opus 4.8	$5.00	$6.25	$10.00	$0.50	$25.00
Claude Sonnet 4.6	$3.00	$3.75	$6.00	$0.30	$15.00
Claude Haiku 4.5	$1.00	$1.25	$2.00	$0.10	$5.00

Quellen, Stand Juni 2026: Anthropic Preisgestaltung (https://claude.com/pricing) und Anthropic API Preisdetails (https://platform.claude.com/docs/en/about-claude/pricing). Cache write kostet 1,25x Basis-Input für eine 5-Minuten TTL und 2x Basis-Input für eine 1-Stunden TTL; Cache read (ein Hit) kostet 0,1x Basis-Input. Die Batch API wendet einen zusätzlichen 50%-Rabatt auf jeden oben genannten Tarif an. Preise ändern sich häufig — bestätigen Sie auf der Live-Preisseite.

Das Claude Preismodell in 90 Sekunden

Drei Positionen auf jeder Claude Rechnung: Basis-Input, Basis-Output und Prompt-Cache-Aktivität (aufgeteilt in Cache-Schreibvorgänge und Cache-Lesevorgänge). Batch API Anfragen erhalten einen pauschalen 50%-Rabatt auf die Position, die sie treffen.

Basis-Formel:

``` cost = (input_tokens / 1,000,000) * input_price_per_M + (output_tokens / 1,000,000) * output_price_per_M ```

Mit Caching teilt sich die Input-Position. Einige Ihrer Input-Token sind Cache-Lesevorgänge (Hits), die mit 0,1x Basis-Input berechnet werden. Einige sind Cache-Schreibvorgänge — die erste Anfrage, um ein neues Präfix zu befüllen — berechnet mit 1,25x Basis-Input für die Standard-5-Minuten TTL oder 2x für die 1-Stunden TTL. Der Rest wird mit Basis-Input berechnet.

Caching lohnt sich, wenn der gecachte Teil groß genug ist und sich oft genug wiederholt, um die Schreibkosten zu amortisieren. Eine nützliche Regel: Wenn Sie erwarten, dass das gleiche Präfix mindestens 10 Mal innerhalb des Cache-Fensters gelesen wird, ist Caching fast sicher netto-positiv. Unter 3 Lesevorgängen ist es normalerweise nicht der Fall. Siehe Anthropics Caching-Dokumentation für die genauen Anspruchsvoraussetzungen.

Arbeitsbeispiel 1: Ein 1.000 Input / 500 Output Call auf jeder Stufe

Nehmen Sie den Standard-Referenz-Call — 1.000 Input-Token, 500 Output-Token — und berechnen Sie die Kosten pro Call mit Standard-Tarife auf jedem Claude Modell:

Claude Fable 5: (0,001 × $10) + (0,0005 × $50) = $0,010 + $0,025 = $0,035 pro Call. Claude Opus 4.8: (0,001 × $5) + (0,0005 × $25) = $0,005 + $0,0125 = $0,0175 pro Call. Claude Sonnet 4.6: $0,003 + $0,0075 = $0,0105 pro Call. Claude Haiku 4.5: $0,001 + $0,0025 = $0,0035 pro Call.

Haiku 4.5 ist 10x günstiger als Fable 5 für denselben Call und ungefähr 5x günstiger als Opus 4.8. Für die meisten hochvolumigen strukturierten Output-Aufgaben — Klassifizierung, Extraktion, Zusammenfassung, einfache Q&A — ist Haiku 4.5 der richtige Startpunkt. Wechseln Sie zu Sonnet 4.6, wenn die Genauigkeit die Qualität zu begrenzen beginnt, nicht vorher.

Wenn Sie Prompts straff genug schreiben möchten, dass Haiku die Sonnet-Qualität erreicht, helfen unser Code Prompt Builder und Meta Description Generator dabei, Anweisungen zu komprimieren, ohne Signal zu verlieren.

Arbeitsbeispiel 2: Skalierung auf 100.000 und 1.000.000 Calls

Multiplizieren Sie die Pro-Call-Zahlen mit 100.000 (typischer Batch-Job) und 1.000.000 (vollständige Production-Workload):

100.000 Calls — Fable 5: $3.500. Opus 4.8: $1.750. Sonnet 4.6: $1.050. Haiku 4.5: $350.

1M Calls — Fable 5: $35.000. Opus 4.8: $17.500. Sonnet 4.6: $10.500. Haiku 4.5: $3.500.

Wenden Sie den Batch API Rabatt (-50%) auf die Sonnet 4.6 Zeile bei 1M Calls an: $10.500 werden zu $5.250. Wenden Sie Prompt Caching an, wobei 800 von 1.000 Input-Token ein stabiles System-Präfix sind, das 90% der Zeit aus dem Cache gelesen wird und einmal pro Million Calls geschrieben wird. Von den 1B Input-Token sind 720M Cache-Lesevorgänge mit $0,30/1M = $216, 80M sind Cache-Schreibvorgänge mit $3,75/1M = $300 und 200M sind unkachelter Basis-Input mit $3/1M = $600. Der Input sinkt von $3.000 auf $1.116 — eine 63%-Ersparnis nur beim Input, oder etwa 18% auf die gesamte $10.500 Rechnung. Kombiniert mit Batch läuft die gleiche Workload mit ungefähr $4.200.

Nutzen Sie beide Rabatte wenn möglich. Die Mathematik verstärkt sich schnell bei Workloads mit stabilen System-Prompts.

Wann Opus, Sonnet, Haiku oder Fable wählen

Claude Opus 4.8 ($5/$25) ist für schwierige Probleme gedacht — mehrstufiges Reasoning über langen Context, komplexe Code-Synthese, Agent-Schleifen, die mehr als einen Schritt vorausplanen müssen. Die 5x Prämie gegenüber Sonnet 4.6 lohnt sich, wenn eine einzelne falsche Antwort mehr kostet als der Preisunterschied über die gesamte Workload. Die meisten Teams nutzen Opus selektiv, nicht als Standard.

Claude Sonnet 4.6 ($3/$15) ist das Arbeitspferd für Production Chat, Content-Generierung, längere Texte und die meisten Agent-Schleifen. Sonnet stimmt oder schlägt die Opus-Qualität aus dem späten 2024 auf einem Drittel der Kosten, weshalb viele Teams, die 2024 auf Opus setzten, ihren Bulk-Traffic bis 2026 auf Sonnet verlagert haben.

Claude Haiku 4.5 ($1/$5) verarbeitet strukturierte Output-Aufgaben, die kein tiefes Reasoning erfordern — Klassifizierung, Extraktion, Sentiment-Analyse, einfache Q&A. Mit $0,0035 pro 1.000/500 Call ist es die Stufe mit dem höchsten Volumen in den meisten Production-Deployments. Nutzen Sie es zunächst; wechseln Sie nur zu Sonnet, wenn die Genauigkeit es verlangt.

Claude Fable 5 ($10/$50) ist das neue Reasoning-intensive Modell, das Anfang 2026 eingeführt wurde. Es verbirgt Chain-of-Thought-Token hinter dem Output-Tarif, ähnlich wie OpenAIs o-Serie, daher sollten Sie mit 3-5x der sichtbaren Output-Token-Rechnung bei schwierigen Aufgaben rechnen. Nutzen Sie es nur, wenn die Aufgabe aktiv von erweitertem Reasoning profitiert — Agent-Planning, Math-schwere Verifizierung, komplexe Code-Refaktoren. Für direkte Generierung ist Sonnet 4.6 günstiger und ausreichend gut.

Prompt Caching: Der Hebel, den die meisten Teams unternutzen

Der Anthropic Prompt Cache ermöglicht es Ihnen, Teile einer Anfrage als cachebar zu markieren; nachfolgende Anfragen innerhalb der Cache-TTL, die das gleiche Präfix teilen, werden diese Token mit 0,1x Basis-Input berechnet. Die Kosten für einen Cache-Schreibvorgang betragen 1,25x Basis-Input (5-Minuten TTL) oder 2x Basis-Input (1-Stunden TTL).

Zwei Prompt-Formen profitieren am meisten vom Caching. Erstens eine lange feste System-Nachricht — Anweisungen, Stilanleitung, Beispiele, Taxonomie — wiederholt über Tausende von Benutzer-Turns. Zweitens ein stabiles Referenzdokument — ein Vertrag, eine Produktspezifikation, ein Knowledge-Base-Chunk — das Sie wiederholt abfragen. Verschieben Sie den stabilen Text an den Anfang des Prompts, markieren Sie ihn als cache-eligel, und der Cache macht den Rest.

Break-Even-Mathematik: Bei Sonnet 4.6 kostet ein 10.000-Token System-Prompt $0,03 zum unkachelten Lesen, $0,0375 zum Schreiben in einen 5-Minuten-Cache und $0,003 zum Lesen aus dem Cache. Wenn dieses Präfix 3 Mal innerhalb von 5 Minuten wiederverwendet wird, sparen Sie (3 × $0,03) - ($0,0375 + 3 × $0,003) = $0,0375 — bereits netto-positiv nach 3 Lesevorgängen. Bei 100 Lesevorgängen pro Cache-Lebensdauer sparen Sie $2,96 pro Schreibzyklus.

Caching hilft nicht, wenn Ihr Präfix bei jedem Call einzigartig ist, wenn der variable Teil am Anfang des Prompts sitzt oder wenn Sie das gleiche Präfix weniger als 2-3 Mal pro Cache-Fenster aufrufen. Überprüfen Sie Ihre Prompt-Formen, bevor Sie es aktivieren. Siehe Anthropics Prompt-Caching-Dokumentation für die genauen Platzierungsregeln.

Batch API: 50% Rabatt, 24-Stunden-Lieferung

Die Anthropic Batch API akzeptiert eine JSONL-Datei von Anfragen und gibt Ergebnisse innerhalb von 24 Stunden zum halben Input- und Output-Tarif zurück. Der Rabatt gilt zusätzlich zu jeder Caching-Aktivität, daher stapeln sich die beiden sauber.

Kanonische Anwendungsfälle: nächtliche Zusammenfassungen von gestrigen Tickets, wöchentliche Klassifizierung eingehender Leads, monatliche Anreicherung von CRM-Kontakten, einmalige Anreicherungsdurchläufe über historische Daten, periodische Content-Audits, große Eval-Durchläufe über die Modell-Zeile. Alles, das nicht innerhalb von Sekunden zurückkehren muss, ist ein Kandidat.

Arbeits-Mathematik: Ein 1M-Call Sonnet 4.6 Zusammenfassungs-Job mit Standard-Tarife kostet $10.500. Über Batch eingereicht, kostet der gleiche Job $5.250 — eine $5.250 Kostenreduktion für die Akzeptanz einer 24-Stunden SLA. Wenn die Arbeit bereits auf einem nächtlichen Cron läuft, ist der Rabatt kostenloses Geld.

Anti-Anwendungsfälle: Live Chat, Voice Agents, alles in einem Checkout-Funnel, alles, wo ein Mensch auf die Antwort in Echtzeit wartet. Das 24-Stunden-Fenster zerstört die Benutzererfahrung dort. Bestätigen Sie aktuelle Batch-Bedingungen gegen Anthropics Batch-Dokumentation.

Wie Claude Pricing mit OpenAI und Gemini verglichen wird

Sonnet 4.6 ($3/$15) liegt unter gpt-5.5 ($5/$30) bei Input und Output, was es zur günstigeren Wahl für allgemeine Chat-Workloads gleicher Qualität macht. Opus 4.8 ($5/$25) entspricht gpt-5.5 beim Input, ist aber beim Output günstiger, was wichtig ist, da Output die meisten Rechnungen dominiert.

Haiku 4.5 ($1/$5) ist teurer als gpt-5.4-mini ($0,75/$4,50) und erheblich teurer als Gemini 2.5 Flash ($0,30/$2,50). Für hochvolumige günstige Tier-Workloads ist Gemini 2.5 Flash der Preis-Leader; Haiku 4.5 gewinnt bei Qualität pro Dollar in vielen echten Evals. Die richtige Wahl hängt davon ab, welche Dimension für Ihre Workload wichtiger ist — führen Sie einen Side-by-Side-Eval durch, bevor Sie sich verpflichten.

Fable 5 ($10/$50) überlappt sich mit dem OpenAI o4-Reasoning-Tier ($15/$60) am oberen Ende des Reasoning-Marktes — moderat günstiger, mit längerem effektiven Context und stärkerer Langdokument-Rückruf in veröffentlichten Evals. Siehe unseren vollständigen Vergleich im GPT vs Claude vs Gemini Kostenrechner und auf individuellen Provider-Seiten für OpenAI und der kommenden Gemini Preisseite.

Tool Use, Vision und die Dinge, die man budgetieren vergisst

Tool Calls werden als Output-Token berechnet — der Funktionsname, die Argumente und das Tool-Ergebnis, das Sie in der nächsten Turn zurückzahlen. Eine Agent-Schleife mit 6 Tool Calls vor der endgültigen Antwort kann 8-10x das Output eines einfachen direkten Answer-Turn in Rechnung stellen. Wenn Ihr Agent 1.000 Loops pro Tag auf Sonnet 4.6 mit durchschnittlich 200 Token pro 6 Tool Calls ausführt, sind das 1,2M zusätzliche Output-Token pro Tag, oder etwa $18 pro Tag über den Base-Traffic hinaus.

Vision-Inputs werden mit dem Standard-Input-Tarif berechnet, wobei Bilder nach Auflösung in Token umgewandelt werden. Ein 1024×1024 Bild wird auf Claude mit ungefähr 1.600 Input-Token berechnet — etwa $0,005 bei Sonnet 4.6, $0,008 bei Opus 4.8. PDFs werden pro Seite als Text- und Visual-Token berechnet, daher kann ein 10-seitiger Vertrag 8.000-15.000 Input-Token je nach Dichte laufen.

Erweiterter Context (über 200k Token) trägt einen kleinen Pro-Token-Zuschlag auf einigen Stufen; überprüfen Sie die Live-Preisseite, bevor Sie einen Million-Token-Workflow entwerfen. Für Agent-Loop-Ökonomie im Detail, siehe unseren AI Agent Kostenrechner.

Claude auf AWS Bedrock gegen Google Vertex AI gegen die direkte Anthropic API

Claude läuft 2026 auf drei First-Party-Oberflächen: Anthropics direkte API auf claude.com, AWS Bedrock und Google Cloud Vertex AI. Die Pro-Token-List-Raten sind im Wesentlichen identisch auf allen drei Plattformen — Sonnet 4.6 ist $3 Input / $15 Output auf jeder Plattform, Opus 4.8 ist $5 / $25, Haiku 4.5 ist $1 / $5, Fable 5 ist $10 / $50. Wo sie sich unterscheiden, ist alles um das Meter herum: welche Credits Sie ausgeben können, wie schnell neue Modelle ankommen, welche Regionen Traffic bedienen, wie Authentifizierung funktioniert und welche Rabatt-Hebel tatsächlich funktionieren.

Abrechnung ist der wichtigste Unterschied für die meisten Finance-Teams. Bedrock-Nutzung fließt durch Ihre AWS-Rechnung — berechtigt für AWS Activate Startup Credits (bis zu $100k), Enterprise Discount Program (EDP) Commitments und den AWS Marketplace Private-Offer-Mechanismus. Vertex AI-Nutzung fließt durch Ihre GCP-Rechnung — berechtigt für das Google for Startups Cloud Program ($200k-$350k Stufen), Committed Use Discounts (CUDs) und BigQuery-nahe Credits. Die direkte Anthropic API wird direkt durch Anthropic abgerechnet — berechtigt für das Anthropic Startup Program (bis zu $100k in Claude Credits über Y Combinator, Techstars und ähnliche Partner-Programme), aber nicht auf AWS oder GCP Rechnungen portierbar. Ein Startup mit $80k ungenutzten AWS Credits, die in 6 Monaten ablaufen, hat eine klare Antwort: leite Claude durch Bedrock und verbrauche die Credits, bevor sie verdampfen.

Arbeitsbeispiel. Nehmen Sie ein Series A Startup, das $25.000/Monat auf Claude Sonnet 4.6 für eine Production Agent-Workload ausgibt — etwa 1,4B Input-Token und 600M Output-Token monatlich mit Standard-Tarife. Bei der direkten API sind das $25.000 Cash aus der Tür. Bei Bedrock mit $80.000 AWS Activate Credits zieht die gleiche $25.000 Rechnung Credits mit 100% Nennwert ab — netto-Barkosten $0 bis die Credits in Monat 3,2 aufgebraucht sind, eine effektive ~30%-Ersparnis über einen 12-Monats-Horizont, wenn die restlichen 8,8 Monate mit Liste berechnet werden. Bei Vertex mit einem ähnlichen GCP-Credit-Saldo ist die Mathematik identisch. Die Lektion: leite Claude dahin, wo Deine ruhenden Cloud-Credits sind. Führen Sie `aws ce get-cost-and-usage` oder die GCP Billing Console aus, um zu sehen, was tatsächlich abläuft.

Modell-Verfügbarkeitsverzögerungen variieren. Neue Claude-Modelle landen fast immer zuerst auf der direkten API. Bedrock folgt normalerweise 2-6 Wochen später, manchmal länger für die größten Stufen — Opus 4.8 landete in der direkten API im Februar 2026 und landete erst Ende März in Bedrock us-east-1. Vertex AI verfolgt Bedrocks Rhythmus innerhalb von ein oder zwei Wochen auf beiden Seiten. Wenn Ihr Produkt-Roadmap auf Tag-Null-Zugang zu einer neuen Claude-Veröffentlichung angewiesen ist, ist die direkte API die einzige sichere Wette; Bedrock und Vertex AI sind für Production-Workloads geeignet, die eine einstündige Verzögerung bei dem neuesten Modell absorbieren können. Regionale Verfügbarkeit unterscheidet sich auch — Bedrock bedient Claude jetzt von us-east-1, us-west-2, eu-central-1, eu-west-3, ap-northeast-1 und ap-southeast-2; Vertex deckt us-central1, us-east5, europe-west4 und asia-northeast1 ab; die direkte API bedient global von Anthropics eigenem Edge ohne Regions-Auswahl.

Prompt Caching und Batch API Support sind nicht auf Parität. Die direkte Anthropic API hat die ausgereifteste Caching-Implementierung — beide 5-Minuten- und 1-Stunden-TTLs, volle Unterstützung über alle vier Stufen hinweg und die saubersten Preis-Semantiken (1,25x Schreiben, 0,1x Lesen). Bedrock unterstützt Prompt Caching seit Q1 2026, aber mit Einschränkungen: 5-Minuten TTL nur auf den meisten Regionen, keine 1-Stunden TTL auf Haiku 4.5 bis Q3 2026 und eine minimale cachbare Präfix-Größe von 1.024 Token versus 512 auf der direkten API. Vertex AI unterstützt Caching mit ähnlichen Vorbehalten. Die Batch API existiert auf allen drei, aber nur die direkte API bietet den vollständigen 50%-Rabatt auf jede Stufe — Bedrock wendet den Rabatt durch seine eigenen Bedrock Batch Inference Jobs an (ähnliche Mechanik, gelegentlich kleinerer Rabatt auf Fable 5), und Vertex nutzt seine Batch Prediction Surface. Wenn Ihre Workload stark vom Caching eines 600-Token System-Prompts abhängt oder Caching + Batch für zusammengesetzte Rabatte kombiniert, gewinnt die direkte API immer noch bei rohen Kosten um 8-15%.

Access Control ist die letzte Achse. Bedrock steckt in AWS IAM — Sie können ein Service Account auf einen spezifischen Modell-ARN begrenzen, SCPs auf AWS Organization Ebene anhängen und jeden Invoke durch CloudTrail überprüfen. Vertex steckt äquivalent in GCP IAM mit Cloud Audit Logs. Die direkte Anthropic API nutzt Workspace-Scoped API Keys mit Pro-Key-Spend-Limits und Nutzungs-Dashboards, aber es fehlt die Policy-Engine-Tiefe, die Enterprise Security Teams erwarten — kein SCP-Äquivalent, kein ABAC, kein natives SSO-gebundenes Key Rotation auf dem Standard-Tier. Für regulierte Workloads (HIPAA auf AWS, FedRAMP-nahe auf GCP, SOC 2 Audit Trails) gewinnen die Cloud-Provider-Oberflächen normalerweise auf Compliance-Lage, selbst wenn sie bei reinem Preis verlieren. Das pragmatische Muster, das bei den meisten skalierten Teams entstanden ist: Production-Traffic läuft durch Bedrock oder Vertex aus Billing- und Compliance-Gründen, während Entwicklung, Evaluation und Prompt-Iteration durch die direkte API aus Geschwindigkeits- und Feature-Frische-Gründen laufen.

Fünf Moves, um diese Woche Ihre Claude-Rechnung zu senken

Senken Sie eine Stufe. Wenn Sie auf Opus 4.8 sind, führen Sie einen Eval gegen Sonnet 4.6 auf 100 repräsentativen Samples durch. Viele Teams entdecken, dass Sonnet bei 80%+ Ihrer Workload die Qualität erreicht, zu einem Drittel der Kosten.

Cachen Sie Ihren System-Prompt. Verschieben Sie alle stabilen Anweisungen an den Anfang jeder Anfrage und markieren Sie sie als cache-eligible. Für wiederholte Workloads spart dies allein 60-80% bei der Input-Abrechnung.

Batch die Offline-Arbeit. Alles, das auf einem Cron läuft, alles, das einen statischen Datensatz anreichert, alles, das nicht benutzer-sichtbar ist — schieben Sie es durch die Batch API für 50% Rabatt.

Limitieren Sie Output. Setzen Sie max_tokens hart, fordern Sie strukturiertes JSON statt Prosa an und nutzen Sie Stop-Sequenzen. Eine 200-Token JSON-Antwort ersetzt einen 1.000-Token Absatz bei den meisten Extraktions-Aufgaben — eine 5x Output-Reduktion.

Überprüfen Sie Ihre teuerste Route. Die meisten Teams haben eine Route, die 50-70% des Gesamtausgaben verbraucht; der Audit zeigt normalerweise eine offensichtliche Modell-Tier-Herabstufung oder eine Prompt-Umstrukturierung, die die Rechnung um 30-50% senkt.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

OpenAI API Pricing 2026→GPT vs Claude vs Gemini Cost Calculator→LLM Context Window Comparison 2026→AI Prompt Cost Calculator→

Frequently Asked Questions

Welches Claude Modell ist 2026 am günstigsten?

Claude Haiku 4.5 mit $1 Input / $5 Output pro 1M Token ist die günstigste Stufe in der Zeile. Sie ist ungefähr 5x günstiger als Opus 4.8 und 3x günstiger als Sonnet 4.6 beim Output. Bestätigen Sie gegen Anthropics Preisseite.

Wie viel spart Prompt Caching bei Claude?

Cache-Lesevorgänge (Hits) werden mit 0,1x Basis-Input berechnet — eine 90%-Ersparnis beim gecachten Teil. Cache-Schreibvorgänge kosten 1,25x Basis-Input für eine 5-Minuten TTL oder 2x für eine 1-Stunden TTL, daher ist Caching netto-positiv, wenn ein Präfix mindestens 2-3 Mal innerhalb des Cache-Fensters wiederverwendet wird.

Kann die Batch API mit Prompt Caching kombiniert werden?

Ja — der 50% Batch-Rabatt gilt zusätzlich zu Cache-Lese- und Cache-Schreibtarife. Ein Sonnet 4.6 Cache-Lesevorgang durch Batch kostet $0,15/1M statt $0,30/1M. Bestätigen Sie aktuelles Verhalten in Anthropics Batch-Dokumentation.

Ist Claude 2026 günstiger als OpenAI?

Sonnet 4.6 ($3/$15) ist günstiger als gpt-5.5 ($5/$30) bei Input und Output. Opus 4.8 ($5/$25) entspricht gpt-5.5 beim Input, ist aber günstiger beim Output. Haiku 4.5 ($1/$5) ist etwas teurer als gpt-5.4-mini ($0,75/$4,50). Siehe den vollständigen Vergleich in unserem GPT vs Claude vs Gemini Rechner.

Warum ist Claude Output 5x teurer als Input?

Die Generierung von Token erfordert einen vollständigen Forward Pass pro Token, während Input-Token in einem einzigen Batch-Pass verarbeitet werden. Anthropic berechnet Output mit 5x Input über alle Claude Stufen hinweg, etwas straffer als das 6x-Verhältnis, das in der OpenAI Zeile üblich ist.

Wofür ist Claude Fable 5?

Fable 5 ($10/$50) ist die Reasoning-intensive Stufe, die Anfang 2026 eingeführt wurde. Sie generiert verborgene Chain-of-Thought Token, die zum Output-Tarif berechnet werden, ähnlich wie OpenAIs o-Serie. Nutzen Sie es für schwierige Reasoning-Aufgaben (Planung, Mathematik, komplexer Code), wo Chain-of-Thought die Genauigkeit erheblich verbessert; Sonnet 4.6 ist günstiger für direkte Generierung.

Wie viel kosten Vision- und PDF-Inputs?

Bild-Inputs werden zum Standard-Input-Tarif berechnet, wobei ein 1024×1024 Bild in ungefähr 1.600 Token umgewandelt wird — etwa $0,005 bei Sonnet 4.6. PDFs werden pro Seite als Text- und Visual-Token berechnet, normalerweise 800-1.500 Token pro Seite je nach Dichte.

Wie kann ich Claude-Kosten vor dem Senden einer Anfrage schätzen?

Nutzen Sie Kosten = (Input-Token / 1M × Input-Preis) + (Output-Token / 1M × Output-Preis). Schätzen Sie die Token-Anzahl als Zeichen ÷ 4 oder Wörter ÷ 0,75. Für ein detailliertes Walkthrough mit aktuellen Claude-Preisen, siehe unseren AI Prompt Kostenrechner.

Ist Claude günstiger auf AWS Bedrock oder der direkten Anthropic API?

Pro-Token-List-Raten sind identisch — Sonnet 4.6 ist $3 Input / $15 Output auf beiden. Der praktische Unterschied ist, welche Credits Sie verwenden können. Wenn Sie ungenutzten AWS Activate Credits oder einen EDP Commitment haben, ist Bedrock effektiv günstiger, weil der Aufwand Credit-Salden mit Nennwert zieht. Wenn Sie Anthropic Startup Program Credits oder keine Cloud-Provider-Credits haben, gewinnt die direkte API bei Caching-Tiefe (1-Stunden TTL, 512-Token minimales Präfix) und Tag-Null-Modell-Zugang. Neue Claude-Veröffentlichungen erreichen normalerweise Bedrock 2-6 Wochen nach der direkten API.

Unterstützt Claude auf Vertex AI Prompt Caching und die Batch API?

Ja — beide sind 2026 auf Vertex AI verfügbar, aber mit Vorbehalten relativ zur direkten Anthropic API. Vertex Caching ist 5-Minuten TTL nur auf den meisten Regionen mit einem 1.024-Token minimalen Präfix versus 512 auf der direkten API. Batch läuft durch Vertex Batch Prediction mit ähnlichen 50% Rabatt-Mechaniken. Die zwei stapeln sich sauber. Für maximales Rabatt-Stacking — Caching + Batch auf jeder Stufe — hat die direkte API immer noch einen 8-15% Rohpreis-Vorteil, obwohl dieser oft durch GCP-Credit-Verfügbarkeit für Teams, die bereits auf Google Cloud sind, überwogen wird.

Welche Claude-Oberfläche nutze ich für HIPAA oder SOC 2 Workloads?

AWS Bedrock und Google Vertex AI erben beide die Compliance-Lage ihres Parent Cloud — HIPAA-berechtigt bei Bedrock mit einer unterzeichneten AWS BAA, HIPAA-berechtigt bei Vertex mit einer unterzeichneten GCP BAA, mit CloudTrail und Cloud Audit Logs, die den Request-Level Audit Trails bereitstellen, die die meisten Auditors erwarten. Die direkte Anthropic API bietet eine HIPAA BAA auf dem Enterprise-Tier, aber mit einer dünneren Policy-Engine-Oberfläche (kein SCP-Äquivalent, kein ABAC). Für regulierte Production-Traffic leiten die meisten skalierten Teams durch Bedrock oder Vertex; für Entwicklung und Evaluation ist die direkte API in Ordnung.

Holen Sie sich das 2026 LLM Pricing Cheat Sheet

One-Page PDF mit jeder Claude-Stufe, der Cache + Batch Mathematik und den Formeln — kostenlos, keine Signup-Schranke. Oder durchsuchen Sie unsere 40+ Prompt-Engineering Tools, um günstigere, schlanker Prompts zu verfassen.

Browse all prompt tools →