Claude s'exécute sur trois surfaces de première partie en 2026 : l'API directe d'Anthropic à claude.com, AWS Bedrock et Google Cloud Vertex AI. Les tarifs de liste par jeton sont essentiellement identiques sur les trois — Sonnet 4.6 est $3 entrée / $15 sortie sur chaque plateforme, Opus 4.8 est $5 / $25, Haiku 4.5 est $1 / $5, Fable 5 est $10 / $50. Où ils divergent, c'est tout autour du compteur : quels crédits vous pouvez dépenser, à quelle vitesse les nouveaux modèles arrivent, quelles régions servent le trafic, comment fonctionne l'authentification et quels leviers de réduction fonctionnent réellement.
La facturation est la différence la plus importante pour la plupart des équipes finance. L'utilisation de Bedrock s'ajoute à votre facture AWS — éligible aux crédits AWS Activate de startup (jusqu'à $100 k), aux engagements Enterprise Discount Program (EDP) et au mécanisme d'offre privée AWS Marketplace. L'utilisation de Vertex AI s'ajoute à votre facture GCP — éligible au Google for Startups Cloud Program (niveaux $200 k-$350 k), aux remises d'utilisation engagée (CUD) et aux crédits adjacents BigQuery. L'API Anthropic directe facture via Anthropic directement — éligible au programme de démarrage Anthropic (jusqu'à $100 k de crédits Claude via Y Combinator, Techstars et programmes partenaires similaires) mais non transférable aux factures AWS ou GCP. Une startup assise sur $80 k de crédits AWS inutilisés qui expirent dans 6 mois a une réponse claire : acheminez Claude via Bedrock et utilisez les crédits avant qu'ils ne s'évaporent.
Exemple concis. Prenez une startup de série A dépensant $25 000/mois sur Claude Sonnet 4.6 pour une charge de travail d'agent de production — environ 1,4 milliards de jetons d'entrée et 600 millions de jetons de sortie mensuels aux tarifs standards. Sur l'API directe, c'est $25 000 en trésorerie sortante. Sur Bedrock avec $80 000 de crédits AWS Activate, la même facture de $25 000 utilise des crédits à 100% de valeur nominale — coût net en trésorerie $0 jusqu'à ce que les crédits s'épuisent au mois 3,2, une économie effective ~30% sur un horizon de 12 mois si les 8,8 mois restants facturent à la liste. Sur Vertex avec un solde de crédit GCP similaire, les mathématiques sont identiques. La leçon : acheminez Claude vers l'endroit où vivent vos crédits cloud dormants. Exécutez `aws ce get-cost-and-usage` ou la console de facturation GCP pour voir ce qui s'expirer réellement.
Les délais de disponibilité des modèles varient. Les nouveaux modèles Claude atterrissent presque toujours sur l'API directe d'abord. Bedrock suit généralement 2-6 semaines plus tard, parfois plus longtemps pour les plus grands niveaux — Opus 4.8 a atteint l'API directe en février 2026 et n'a atterri dans Bedrock us-east-1 qu'en fin mars. La disponibilité de Vertex AI suit celle de Bedrock à une semaine ou deux d'un côté ou de l'autre. Si votre feuille de route produit dépend d'un accès jour zéro à une nouvelle version de Claude, l'API directe est la seule option sûre ; Bedrock et Vertex conviennent aux charges de production qui peuvent absorber un délai d'un mois sur le dernier modèle. La disponibilité régionale varie également — Bedrock sert maintenant Claude depuis us-east-1, us-west-2, eu-central-1, eu-west-3, ap-northeast-1 et ap-southeast-2 ; Vertex couvre us-central1, us-east5, europe-west4 et asia-northeast1 ; l'API directe sert globalement depuis les limites d'Anthropic sans sélection de région.
Le support du cache d'invite et de l'API Batch ne sont pas à parité. L'API Anthropic directe a l'implémentation de mise en cache la plus mûre — TTL de 5 minutes et 1 heure, support complet sur les quatre niveaux et la sémantique tarifaire la plus claire (1,25× écriture, 0,1× lecture). Bedrock supporte la mise en cache d'invite depuis Q1 2026 mais avec des restrictions : TTL de 5 minutes uniquement sur la plupart des régions, pas de TTL d'une heure sur Haiku 4.5 jusqu'à Q3 2026, et une taille de préfixe cacheable minimale de 1 024 jetons par rapport à 512 sur l'API directe. Vertex AI supporte la mise en cache avec des avertissements similaires. L'API Batch existe sur les trois, mais seule l'API directe offre la réduction complète de 50% sur chaque niveau — Bedrock applique la réduction via ses propres travaux Bedrock Batch Inference (mécaniques similaires, parfois réduction plus petite sur Fable 5) et Vertex utilise sa surface Batch Prediction. Si votre charge dépend fortement de la mise en cache d'un préfixe système de 600 jetons ou de l'empilement de mise en cache + batch pour des réductions composées, l'API directe gagne toujours sur les économies brutes de 8-15%.
Le contrôle d'accès est le dernier axe. Bedrock se branche sur AWS IAM — vous pouvez limiter un compte de service à un ARN de modèle spécifique, attacher des SCP au niveau de l'Organisation AWS et auditer chaque invocation via CloudTrail. Vertex se branche sur GCP IAM de manière équivalente avec Cloud Audit Logs. L'API Anthropic directe utilise des clés API limitées par espace de travail avec des limites de dépenses par clé et des tableaux de bord d'utilisation, mais manque de la profondeur du moteur de politique qu'attendent les équipes de sécurité d'entreprise — pas d'équivalent SCP, pas d'ABAC, pas de rotation de clé native liée à SSO au niveau standard. Pour les charges réglementées (HIPAA sur AWS, adjacent à FedRAMP sur GCP, pistes d'audit SOC 2) les surfaces du fournisseur cloud gagnent généralement sur la posture de conformité même quand elles perdent sur le prix brut. Le modèle pragmatique qui a émergé chez la plupart des équipes mises à l'échelle : le trafic de production s'exécute via Bedrock ou Vertex pour les raisons de facturation et de conformité, tandis que le développement, l'évaluation et l'itération d'invite s'exécutent via l'API directe pour la vitesse et la fraîcheur des fonctionnalités.