Claude läuft 2026 auf drei First-Party-Oberflächen: Anthropics direkte API auf claude.com, AWS Bedrock und Google Cloud Vertex AI. Die Pro-Token-List-Raten sind im Wesentlichen identisch auf allen drei Plattformen — Sonnet 4.6 ist $3 Input / $15 Output auf jeder Plattform, Opus 4.8 ist $5 / $25, Haiku 4.5 ist $1 / $5, Fable 5 ist $10 / $50. Wo sie sich unterscheiden, ist alles um das Meter herum: welche Credits Sie ausgeben können, wie schnell neue Modelle ankommen, welche Regionen Traffic bedienen, wie Authentifizierung funktioniert und welche Rabatt-Hebel tatsächlich funktionieren.
Abrechnung ist der wichtigste Unterschied für die meisten Finance-Teams. Bedrock-Nutzung fließt durch Ihre AWS-Rechnung — berechtigt für AWS Activate Startup Credits (bis zu $100k), Enterprise Discount Program (EDP) Commitments und den AWS Marketplace Private-Offer-Mechanismus. Vertex AI-Nutzung fließt durch Ihre GCP-Rechnung — berechtigt für das Google for Startups Cloud Program ($200k-$350k Stufen), Committed Use Discounts (CUDs) und BigQuery-nahe Credits. Die direkte Anthropic API wird direkt durch Anthropic abgerechnet — berechtigt für das Anthropic Startup Program (bis zu $100k in Claude Credits über Y Combinator, Techstars und ähnliche Partner-Programme), aber nicht auf AWS oder GCP Rechnungen portierbar. Ein Startup mit $80k ungenutzten AWS Credits, die in 6 Monaten ablaufen, hat eine klare Antwort: leite Claude durch Bedrock und verbrauche die Credits, bevor sie verdampfen.
Arbeitsbeispiel. Nehmen Sie ein Series A Startup, das $25.000/Monat auf Claude Sonnet 4.6 für eine Production Agent-Workload ausgibt — etwa 1,4B Input-Token und 600M Output-Token monatlich mit Standard-Tarife. Bei der direkten API sind das $25.000 Cash aus der Tür. Bei Bedrock mit $80.000 AWS Activate Credits zieht die gleiche $25.000 Rechnung Credits mit 100% Nennwert ab — netto-Barkosten $0 bis die Credits in Monat 3,2 aufgebraucht sind, eine effektive ~30%-Ersparnis über einen 12-Monats-Horizont, wenn die restlichen 8,8 Monate mit Liste berechnet werden. Bei Vertex mit einem ähnlichen GCP-Credit-Saldo ist die Mathematik identisch. Die Lektion: leite Claude dahin, wo Deine ruhenden Cloud-Credits sind. Führen Sie `aws ce get-cost-and-usage` oder die GCP Billing Console aus, um zu sehen, was tatsächlich abläuft.
Modell-Verfügbarkeitsverzögerungen variieren. Neue Claude-Modelle landen fast immer zuerst auf der direkten API. Bedrock folgt normalerweise 2-6 Wochen später, manchmal länger für die größten Stufen — Opus 4.8 landete in der direkten API im Februar 2026 und landete erst Ende März in Bedrock us-east-1. Vertex AI verfolgt Bedrocks Rhythmus innerhalb von ein oder zwei Wochen auf beiden Seiten. Wenn Ihr Produkt-Roadmap auf Tag-Null-Zugang zu einer neuen Claude-Veröffentlichung angewiesen ist, ist die direkte API die einzige sichere Wette; Bedrock und Vertex AI sind für Production-Workloads geeignet, die eine einstündige Verzögerung bei dem neuesten Modell absorbieren können. Regionale Verfügbarkeit unterscheidet sich auch — Bedrock bedient Claude jetzt von us-east-1, us-west-2, eu-central-1, eu-west-3, ap-northeast-1 und ap-southeast-2; Vertex deckt us-central1, us-east5, europe-west4 und asia-northeast1 ab; die direkte API bedient global von Anthropics eigenem Edge ohne Regions-Auswahl.
Prompt Caching und Batch API Support sind nicht auf Parität. Die direkte Anthropic API hat die ausgereifteste Caching-Implementierung — beide 5-Minuten- und 1-Stunden-TTLs, volle Unterstützung über alle vier Stufen hinweg und die saubersten Preis-Semantiken (1,25x Schreiben, 0,1x Lesen). Bedrock unterstützt Prompt Caching seit Q1 2026, aber mit Einschränkungen: 5-Minuten TTL nur auf den meisten Regionen, keine 1-Stunden TTL auf Haiku 4.5 bis Q3 2026 und eine minimale cachbare Präfix-Größe von 1.024 Token versus 512 auf der direkten API. Vertex AI unterstützt Caching mit ähnlichen Vorbehalten. Die Batch API existiert auf allen drei, aber nur die direkte API bietet den vollständigen 50%-Rabatt auf jede Stufe — Bedrock wendet den Rabatt durch seine eigenen Bedrock Batch Inference Jobs an (ähnliche Mechanik, gelegentlich kleinerer Rabatt auf Fable 5), und Vertex nutzt seine Batch Prediction Surface. Wenn Ihre Workload stark vom Caching eines 600-Token System-Prompts abhängt oder Caching + Batch für zusammengesetzte Rabatte kombiniert, gewinnt die direkte API immer noch bei rohen Kosten um 8-15%.
Access Control ist die letzte Achse. Bedrock steckt in AWS IAM — Sie können ein Service Account auf einen spezifischen Modell-ARN begrenzen, SCPs auf AWS Organization Ebene anhängen und jeden Invoke durch CloudTrail überprüfen. Vertex steckt äquivalent in GCP IAM mit Cloud Audit Logs. Die direkte Anthropic API nutzt Workspace-Scoped API Keys mit Pro-Key-Spend-Limits und Nutzungs-Dashboards, aber es fehlt die Policy-Engine-Tiefe, die Enterprise Security Teams erwarten — kein SCP-Äquivalent, kein ABAC, kein natives SSO-gebundenes Key Rotation auf dem Standard-Tier. Für regulierte Workloads (HIPAA auf AWS, FedRAMP-nahe auf GCP, SOC 2 Audit Trails) gewinnen die Cloud-Provider-Oberflächen normalerweise auf Compliance-Lage, selbst wenn sie bei reinem Preis verlieren. Das pragmatische Muster, das bei den meisten skalierten Teams entstanden ist: Production-Traffic läuft durch Bedrock oder Vertex aus Billing- und Compliance-Gründen, während Entwicklung, Evaluation und Prompt-Iteration durch die direkte API aus Geschwindigkeits- und Feature-Frische-Gründen laufen.