Par l'équipe DDH · Digital Dashboard Hub

Tarification Claude Anthropic 2026 : détail des coûts Opus, Sonnet, Haiku, Fable

By DDH Research Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Anthropic facture au token sur quatre niveaux Claude en 2026 : Opus 4.8 à $5.00 entrée / $25.00 sortie par 1M tokens, Sonnet 4.6 à $3.00 / $15.00, Haiku 4.5 à $1.00 / $5.00, et le nouveau modèle de raisonnement Fable 5 à $10.00 / $50.00. La sortie est facturée 5× l'entrée sur tous les niveaux, conformément au reste du secteur.

Deux leviers de coût sont uniques à Claude et méritent d'être maîtrisés. Le cache d'invite facture les préfixes mis en cache à 0,1× le tarif d'entrée de base (une économie de 90% sur la portion en cache), et l'API Batch réduit de 50% l'entrée et la sortie pour les travaux qui peuvent attendre. Voici le tableau complet, les formules de mise en cache et les calculs en dollars pour 1 k, 100 k et 1 M appels. Confirmez les tarifs sur la page de tarification d'Anthropic avant de budgétiser. Pour rédiger des invites qui fonctionnent sur un niveau moins cher, essayez notre générateur d'invite ChatGPT, ou téléchargez le PDF gratuit des tarifications LLM 2026.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Tarif Claude par 1M tokens — juin 2026

Feature	Entrée ($/1M)	Écriture cache 5min ($/1M)	Écriture cache 1h ($/1M)	Lecture cache ($/1M)	Sortie ($/1M)
Claude Fable 5	$10.00	$12.50	$20.00	$1.00	$50.00
Claude Opus 4.8	$5.00	$6.25	$10.00	$0.50	$25.00
Claude Sonnet 4.6	$3.00	$3.75	$6.00	$0.30	$15.00
Claude Haiku 4.5	$1.00	$1.25	$2.00	$0.10	$5.00

Sources, en juin 2026 : tarification Anthropic (https://claude.com/pricing) et détail de la tarification API Anthropic (https://platform.claude.com/docs/en/about-claude/pricing). L'écriture en cache coûte 1,25× l'entrée de base pour une TTL de 5 minutes et 2× pour une TTL d'une heure ; la lecture en cache (un succès) coûte 0,1× l'entrée de base. L'API Batch applique une réduction supplémentaire de 50% en plus de tout tarif ci-dessus. Les tarifs changent fréquemment — confirmez sur la page de tarification en direct.

Le modèle de tarification Claude en 90 secondes

Trois lignes sur chaque facture Claude : entrée de base, sortie de base et activité du cache d'invite (divisée en écritures et lectures de cache). Les demandes de l'API Batch appliquent une réduction forfaitaire de 50% en plus de la ligne qu'elles ciblent.

Formule de base :

``` coût = (jetons_entrée / 1 000 000) × tarif_entrée_par_M + (jetons_sortie / 1 000 000) × tarif_sortie_par_M ```

Avec la mise en cache, la ligne d'entrée se divise. Certains de vos jetons d'entrée sont des lectures de cache (succès), facturés à 0,1× l'entrée de base. Certains sont des écritures de cache — la première demande pour remplir un nouveau préfixe — facturés à 1,25× l'entrée de base pour la TTL de 5 minutes par défaut ou 2× pour la TTL d'une heure. Le reste est facturé à l'entrée de base.

La mise en cache est rentable lorsque la portion en cache est suffisamment grande et répétée suffisamment de fois pour amortir le coût d'écriture. Une règle utile : si vous prévoyez 10+ lectures du même préfixe dans la fenêtre de cache, la mise en cache est presque certainement positive. En dessous de 3 lectures, ce n'est généralement pas le cas. Consultez la documentation de cache d'Anthropic pour les règles d'éligibilité exactes.

Exemple concret 1 : un appel 1 000 entrée / 500 sortie sur chaque niveau

Prenez l'appel de référence standard — 1 000 jetons d'entrée, 500 jetons de sortie — et calculez le coût par appel aux tarifs standards sur chaque modèle Claude :

Claude Fable 5 : (0,001 × $10) + (0,0005 × $50) = $0,010 + $0,025 = $0,035 par appel. Claude Opus 4.8 : (0,001 × $5) + (0,0005 × $25) = $0,005 + $0,0125 = $0,0175 par appel. Claude Sonnet 4.6 : $0,003 + $0,0075 = $0,0105 par appel. Claude Haiku 4.5 : $0,001 + $0,0025 = $0,0035 par appel.

Haiku 4.5 est 10× moins cher que Fable 5 sur le même appel et environ 5× moins cher qu'Opus 4.8. Pour la plupart des tâches structurées haute volume — classification, extraction, résumé, Q&A simple — Haiku 4.5 est le bon point de départ. Passez à Sonnet 4.6 lorsque la précision commence à limiter la qualité, pas avant.

Si vous voulez rédiger des invites assez serrées pour que Haiku égale la qualité de Sonnet, notre générateur d'invite de code et générateur de méta-description aident à compresser les instructions sans perdre le signal.

Exemple concret 2 : passage à l'échelle à 100 000 et 1 000 000 appels

Multipliez les nombres par appel par 100 000 (travail batch typique) et 1 000 000 (charge de production complète) :

100 k appels — Fable 5 : $3 500. Opus 4.8 : $1 750. Sonnet 4.6 : $1 050. Haiku 4.5 : $350.

1 M appels — Fable 5 : $35 000. Opus 4.8 : $17 500. Sonnet 4.6 : $10 500. Haiku 4.5 : $3 500.

Appliquez la réduction API Batch (-50%) à la ligne Sonnet 4.6 à 1 M appels : $10 500 devient $5 250. Appliquez la mise en cache d'invite où 800 des 1 000 jetons d'entrée sont un préfixe système stable qui touche le cache 90% du temps et vous l'écrivez une fois par million d'appels. Sur 1 milliard de jetons d'entrée, 720 M sont des lectures de cache à $0,30/1M = $216, 80 M sont des écritures de cache à $3,75/1M = $300, et 200 M sont des entrées de base non cachées à $3/1M = $600. Le total d'entrée baisse de $3 000 à $1 116 — une économie de 63% sur l'entrée seule, ou environ 18% sur la facture complète de $10 500. Combinez avec Batch et la même charge s'exécute à environ $4 200.

Activez les deux réductions quand vous pouvez. Les mathématiques se composent rapidement sur les charges avec des invites système stables.

Quand choisir Opus, Sonnet, Haiku ou Fable

Claude Opus 4.8 ($5/$25) est construit pour les problèmes difficiles — raisonnement multitâche sur contexte long, synthèse de code complexe, boucles d'agent qui doivent planifier plus d'une étape. La prime de 5× sur Sonnet 4.6 vaut le coup lorsqu'une seule mauvaise réponse coûte plus que la différence de prix sur la charge entière. La plupart des équipes utilisent Opus de manière sélective, pas par défaut.

Claude Sonnet 4.6 ($3/$15) est le cheval de trait pour le chat de production, la génération de contenu, la rédaction longue et la plupart des boucles d'agent. Sonnet égale ou surpasse la qualité d'Opus fin 2024 au tiers du coût, ce qui explique pourquoi de nombreuses équipes qui utilisaient Opus par défaut en 2024 ont basculé leur trafic principal à Sonnet en 2026.

Claude Haiku 4.5 ($1/$5) gère les tâches de sortie structurées qui ne nécessitent pas de raisonnement profond — classification, extraction, analyse de sentiment, Q&A simple. À $0,0035 par appel 1 000/500, c'est le niveau le plus haut volume dans la plupart des déploiements de production. Utilisez-le comme première tentative ; passez à Sonnet seulement si la précision l'exige.

Claude Fable 5 ($10/$50) est le nouveau modèle intensif en raisonnement introduit début 2026. Il cache les jetons de chaîne de pensée derrière le tarif de sortie comme le font les séries o d'OpenAI, attendez-vous donc à un compte de jetons de sortie visible 3-5× plus important sur les problèmes difficiles. Utilisez-le seulement quand la tâche bénéficie activement du raisonnement étendu — planification d'agent, vérification lourde en math, refactorisations de code complexe. Pour la génération pure, Sonnet 4.6 est moins cher et suffisant.

Mise en cache d'invite : le levier que la plupart des équipes sous-utilisent

Le cache d'invite Anthropic vous permet de marquer des portions d'une demande comme cacheable ; les demandes ultérieures dans la TTL de cache qui partagent le même préfixe obtiennent ces jetons facturés à 0,1× l'entrée de base. Le prix d'une écriture de cache est 1,25× l'entrée de base (TTL de 5 minutes) ou 2× l'entrée de base (TTL d'une heure).

Deux formes d'invite bénéficient le plus de la mise en cache. D'abord, un long message système fixe — instructions, guide de style, exemples, taxonomie — répété sur des milliers de tours utilisateur. Deuxièmement, un document de référence stable — un contrat, une spécification de produit, un bloc de base de connaissance — que vous interrogez à plusieurs reprises. Déplacez le texte stable au début de l'invite, marquez-le comme éligible au cache, et le cache fera le reste.

Mathématique du seuil de rentabilité : sur Sonnet 4.6, un message système de 10 000 jetons coûte $0,03 à lire non-caché, $0,0375 à écrire sur un cache de 5 minutes, et $0,003 à lire depuis le cache. Si ce préfixe est réutilisé 3 fois dans les 5 minutes, vous économisez (3 × $0,03) - ($0,0375 + 3 × $0,003) = $0,0375 — déjà positif après 3 lectures. À 100 lectures par cycle de cache, vous économisez $2,96 par cycle d'écriture.

La mise en cache ne fonctionne pas si votre préfixe est unique à chaque appel, si la portion variable se trouve au début de l'invite, ou si vous appelez le même préfixe moins de 2-3 fois par fenêtre de cache. Auditez vos formes d'invite avant de l'activer. Consultez la documentation de cache d'invite d'Anthropic pour les règles de placement exactes.

API Batch : -50%, livraison en 24 heures

L'API Batch Anthropic accepte un fichier JSONL de demandes et retourne les résultats dans les 24 heures aux tarifs d'entrée et de sortie réduits de moitié. La réduction s'ajoute à toute activité de mise en cache, les deux s'empilent donc proprement.

Cas canoniques : résumé nuit des tickets d'hier, classification hebdomadaire des prospects entrants, enrichissement mensuel des contacts CRM, passages d'enrichissement uniques sur les données historiques, audits de contenu périodiques, grandes séries d'éval sur la gamme de modèles. N'importe quoi qui n'a pas besoin de retourner en quelques secondes est candidat.

Mathématique concise : un travail de résumé Sonnet 4.6 de 1 M appels au tarif standard coûte $10 500. Soumis via Batch, le même travail coûte $5 250 — une réduction de $5 250 pour accepter un SLA de 24 heures. Si le travail s'exécute déjà sur une tâche cron nuit, la réduction est de l'argent gratuit.

Anti-cas : chat en direct, agents vocaux, n'importe quoi dans un entonnoir de paiement, n'importe quoi où un humain attend la réponse en temps réel. La fenêtre de 24 heures tue l'expérience utilisateur là. Confirmez les conditions actuelles de Batch contre la documentation batch d'Anthropic.

Comment la tarification Claude se compare à OpenAI et Gemini

Sonnet 4.6 ($3/$15) se situe en dessous de gpt-5.5 ($5/$30) sur l'entrée et la sortie, ce qui en fait le choix moins cher pour les charges de chat général de qualité équivalente. Opus 4.8 ($5/$25) s'aligne sur gpt-5.5 sur l'entrée mais est moins cher sur la sortie, ce qui compte car la sortie domine la plupart des factures.

Haiku 4.5 ($1/$5) est plus cher que gpt-5.4-mini ($0,75/$4,50) et considérablement plus cher que Gemini 2.5 Flash ($0,30/$2,50). Pour les charges haut volume en niveau bon marché, Gemini 2.5 Flash est le leader tarifaire ; Haiku 4.5 gagne en qualité par dollar dans de nombreuses evals réels. Le bon choix dépend de la dimension qui importe le plus à votre charge — exécutez une éval côte à côte avant de vous engager.

Fable 5 ($10/$50) chevauche le niveau de raisonnement OpenAI o4 ($15/$60) sur le haut du marché du raisonnement — modestement moins cher, avec contexte effectif plus long et meilleur rappel de long document dans les evals publiés. Consultez notre comparaison complet côte à côte à la calculatrice de coûts GPT vs Claude vs Gemini et sur les pages de fournisseurs individuels pour OpenAI et la page de tarification Gemini à venir.

Utilisation d'outils, vision et les choses qu'on oublie de budgétiser

Les appels d'outils facturent comme jetons de sortie — le nom de la fonction, les arguments et le résultat de l'outil que vous rejouez au prochain tour. Une boucle d'agent avec 6 appels d'outils avant la réponse finale peut facturer 8-10× la sortie d'un tour de réponse directe. Si votre agent exécute 1 000 boucles par jour sur Sonnet 4.6 avec 6 appels d'outils en moyenne de 200 jetons, c'est 1,2 M jetons de sortie supplémentaires par jour, soit environ $18 par jour en plus du trafic de base.

Les entrées de vision facturent au tarif d'entrée standard, les images étant converties en jetons par résolution. Une image 1024×1024 facture environ 1 600 jetons d'entrée sur Claude — environ $0,005 sur Sonnet 4.6, $0,008 sur Opus 4.8. Les PDF sont facturés par page en tant que jetons texte et visuels, donc un contrat de 10 pages peut fonctionner 8 000-15 000 jetons d'entrée selon la densité.

Le contexte étendu (au-dessus de 200 k jetons) comporte un léger supplément par jeton sur certains niveaux ; vérifiez la page de tarification en direct avant de concevoir un flux de travail d'un million de jetons. Pour l'économie des boucles d'agent en détail, consultez notre calculatrice de coût d'agent IA.

Claude sur AWS Bedrock vs Google Vertex AI vs l'API Anthropic directe

Claude s'exécute sur trois surfaces de première partie en 2026 : l'API directe d'Anthropic à claude.com, AWS Bedrock et Google Cloud Vertex AI. Les tarifs de liste par jeton sont essentiellement identiques sur les trois — Sonnet 4.6 est $3 entrée / $15 sortie sur chaque plateforme, Opus 4.8 est $5 / $25, Haiku 4.5 est $1 / $5, Fable 5 est $10 / $50. Où ils divergent, c'est tout autour du compteur : quels crédits vous pouvez dépenser, à quelle vitesse les nouveaux modèles arrivent, quelles régions servent le trafic, comment fonctionne l'authentification et quels leviers de réduction fonctionnent réellement.

La facturation est la différence la plus importante pour la plupart des équipes finance. L'utilisation de Bedrock s'ajoute à votre facture AWS — éligible aux crédits AWS Activate de startup (jusqu'à $100 k), aux engagements Enterprise Discount Program (EDP) et au mécanisme d'offre privée AWS Marketplace. L'utilisation de Vertex AI s'ajoute à votre facture GCP — éligible au Google for Startups Cloud Program (niveaux $200 k-$350 k), aux remises d'utilisation engagée (CUD) et aux crédits adjacents BigQuery. L'API Anthropic directe facture via Anthropic directement — éligible au programme de démarrage Anthropic (jusqu'à $100 k de crédits Claude via Y Combinator, Techstars et programmes partenaires similaires) mais non transférable aux factures AWS ou GCP. Une startup assise sur $80 k de crédits AWS inutilisés qui expirent dans 6 mois a une réponse claire : acheminez Claude via Bedrock et utilisez les crédits avant qu'ils ne s'évaporent.

Exemple concis. Prenez une startup de série A dépensant $25 000/mois sur Claude Sonnet 4.6 pour une charge de travail d'agent de production — environ 1,4 milliards de jetons d'entrée et 600 millions de jetons de sortie mensuels aux tarifs standards. Sur l'API directe, c'est $25 000 en trésorerie sortante. Sur Bedrock avec $80 000 de crédits AWS Activate, la même facture de $25 000 utilise des crédits à 100% de valeur nominale — coût net en trésorerie $0 jusqu'à ce que les crédits s'épuisent au mois 3,2, une économie effective ~30% sur un horizon de 12 mois si les 8,8 mois restants facturent à la liste. Sur Vertex avec un solde de crédit GCP similaire, les mathématiques sont identiques. La leçon : acheminez Claude vers l'endroit où vivent vos crédits cloud dormants. Exécutez `aws ce get-cost-and-usage` ou la console de facturation GCP pour voir ce qui s'expirer réellement.

Les délais de disponibilité des modèles varient. Les nouveaux modèles Claude atterrissent presque toujours sur l'API directe d'abord. Bedrock suit généralement 2-6 semaines plus tard, parfois plus longtemps pour les plus grands niveaux — Opus 4.8 a atteint l'API directe en février 2026 et n'a atterri dans Bedrock us-east-1 qu'en fin mars. La disponibilité de Vertex AI suit celle de Bedrock à une semaine ou deux d'un côté ou de l'autre. Si votre feuille de route produit dépend d'un accès jour zéro à une nouvelle version de Claude, l'API directe est la seule option sûre ; Bedrock et Vertex conviennent aux charges de production qui peuvent absorber un délai d'un mois sur le dernier modèle. La disponibilité régionale varie également — Bedrock sert maintenant Claude depuis us-east-1, us-west-2, eu-central-1, eu-west-3, ap-northeast-1 et ap-southeast-2 ; Vertex couvre us-central1, us-east5, europe-west4 et asia-northeast1 ; l'API directe sert globalement depuis les limites d'Anthropic sans sélection de région.

Le support du cache d'invite et de l'API Batch ne sont pas à parité. L'API Anthropic directe a l'implémentation de mise en cache la plus mûre — TTL de 5 minutes et 1 heure, support complet sur les quatre niveaux et la sémantique tarifaire la plus claire (1,25× écriture, 0,1× lecture). Bedrock supporte la mise en cache d'invite depuis Q1 2026 mais avec des restrictions : TTL de 5 minutes uniquement sur la plupart des régions, pas de TTL d'une heure sur Haiku 4.5 jusqu'à Q3 2026, et une taille de préfixe cacheable minimale de 1 024 jetons par rapport à 512 sur l'API directe. Vertex AI supporte la mise en cache avec des avertissements similaires. L'API Batch existe sur les trois, mais seule l'API directe offre la réduction complète de 50% sur chaque niveau — Bedrock applique la réduction via ses propres travaux Bedrock Batch Inference (mécaniques similaires, parfois réduction plus petite sur Fable 5) et Vertex utilise sa surface Batch Prediction. Si votre charge dépend fortement de la mise en cache d'un préfixe système de 600 jetons ou de l'empilement de mise en cache + batch pour des réductions composées, l'API directe gagne toujours sur les économies brutes de 8-15%.

Le contrôle d'accès est le dernier axe. Bedrock se branche sur AWS IAM — vous pouvez limiter un compte de service à un ARN de modèle spécifique, attacher des SCP au niveau de l'Organisation AWS et auditer chaque invocation via CloudTrail. Vertex se branche sur GCP IAM de manière équivalente avec Cloud Audit Logs. L'API Anthropic directe utilise des clés API limitées par espace de travail avec des limites de dépenses par clé et des tableaux de bord d'utilisation, mais manque de la profondeur du moteur de politique qu'attendent les équipes de sécurité d'entreprise — pas d'équivalent SCP, pas d'ABAC, pas de rotation de clé native liée à SSO au niveau standard. Pour les charges réglementées (HIPAA sur AWS, adjacent à FedRAMP sur GCP, pistes d'audit SOC 2) les surfaces du fournisseur cloud gagnent généralement sur la posture de conformité même quand elles perdent sur le prix brut. Le modèle pragmatique qui a émergé chez la plupart des équipes mises à l'échelle : le trafic de production s'exécute via Bedrock ou Vertex pour les raisons de facturation et de conformité, tandis que le développement, l'évaluation et l'itération d'invite s'exécutent via l'API directe pour la vitesse et la fraîcheur des fonctionnalités.

Cinq mouvements pour réduire votre facture Claude cette semaine

Baissez un niveau. Si vous êtes sur Opus 4.8, lancez une éval contre Sonnet 4.6 sur 100 échantillons représentatifs. De nombreuses équipes découvrent que Sonnet égale la qualité sur 80%+ de leur charge au tiers du coût.

Mettez en cache votre invite système. Déplacez toutes les instructions stables au début de chaque demande et marquez-les comme éligibles au cache. Pour les charges répétées, cela seul économise 60-80% sur la facturation d'entrée.

Groupez le travail hors ligne. N'importe quoi s'exécutant sur une tâche cron, n'importe quoi enrichissant un ensemble de données statique, n'importe quoi ne faisant pas face à l'utilisateur — poussez-le via l'API Batch pour 50% de réduction.

Limitez la sortie. Définissez max_tokens dur, demandez du JSON structuré au lieu de prose, et utilisez des séquences d'arrêt. Une réponse JSON de 200 jetons remplace un paragraphe de 1 000 jetons sur la plupart des tâches d'extraction — une réduction de sortie 5×.

Auditez votre route la plus chère. La plupart des équipes ont une route consommant 50-70% de la dépense totale ; l'audit révèle généralement une réduction évidente de niveau de modèle ou une restructuration d'invite qui réduit la facture de 30-50%.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Tarification API OpenAI 2026→Calculatrice de coûts GPT vs Claude vs Gemini→Comparaison de fenêtre de contexte LLM 2026→Calculatrice de coût d'invite IA→

Frequently Asked Questions

Quel modèle Claude est le moins cher en 2026 ?

Claude Haiku 4.5 à $1 entrée / $5 sortie par 1M tokens est le niveau le moins cher de la gamme. C'est environ 5× moins cher qu'Opus 4.8 et 3× moins cher que Sonnet 4.6 sur la sortie. Confirmez contre la page de tarification d'Anthropic.

Combien le cache d'invite économise-t-il sur Claude ?

Les lectures de cache (succès) facturent à 0,1× l'entrée de base — une économie de 90% sur la portion en cache. Les écritures de cache coûtent 1,25× l'entrée de base pour une TTL de 5 minutes ou 2× pour une TTL d'une heure, donc la mise en cache est positive quand un préfixe est réutilisé au moins 2-3 fois dans la fenêtre de cache.

L'API Batch s'empile-t-elle avec le cache d'invite ?

Oui — la réduction Batch de 50% s'applique en plus des tarifs de lecture et d'écriture de cache. Une lecture de cache Sonnet 4.6 via Batch coûte $0,15/1M au lieu de $0,30/1M. Confirmez le comportement actuel sur la documentation batch d'Anthropic.

Claude est-il moins cher qu'OpenAI en 2026 ?

Sonnet 4.6 ($3/$15) est moins cher que gpt-5.5 ($5/$30) sur l'entrée et la sortie. Opus 4.8 ($5/$25) égale gpt-5.5 sur l'entrée mais est moins cher sur la sortie. Haiku 4.5 ($1/$5) est légèrement plus cher que gpt-5.4-mini ($0,75/$4,50). Consultez la comparaison complète à notre calculatrice GPT vs Claude vs Gemini.

Pourquoi la sortie Claude est-elle 5× plus chère que l'entrée ?

La génération de jetons nécessite une passe avant complète par jeton tandis que les jetons d'entrée sont traités en une seule passe groupée. Anthropic facture la sortie à 5× l'entrée sur tous les niveaux Claude, légèrement plus serrée que le ratio 6× courant sur la gamme OpenAI.

À quoi sert Claude Fable 5 ?

Fable 5 ($10/$50) est le niveau intensif en raisonnement introduit début 2026. Il génère des jetons cachés de chaîne de pensée facturés au tarif de sortie, similaire à la série o d'OpenAI. Utilisez-le pour les tâches difficiles en raisonnement (planification, math, code complexe) où la chaîne de pensée améliore matériellement la précision ; Sonnet 4.6 est moins cher pour la génération directe.

Combien coûtent les entrées de vision et PDF ?

Les entrées d'image facturent au tarif d'entrée standard, une image 1024×1024 étant convertie en environ 1 600 jetons — environ $0,005 sur Sonnet 4.6. Les PDF facturent par page en tant que jetons texte et visuels, généralement 800-1 500 jetons par page selon la densité.

Comment estimer le coût Claude avant d'envoyer une demande ?

Utilisez coût = (jetons_entrée / 1M × prix_entrée) + (jetons_sortie / 1M × prix_sortie). Estimez le nombre de jetons comme caractères ÷ 4 ou mots ÷ 0,75. Pour une explication complète avec les tarifs Claude actuels, consultez notre calculatrice de coût d'invite IA.

Claude est-il moins cher sur AWS Bedrock ou l'API Anthropic directe ?

Les tarifs de liste par jeton sont identiques — Sonnet 4.6 est $3 entrée / $15 sortie sur les deux. La différence pratique est quels crédits vous pouvez appliquer. Si vous avez des crédits AWS Activate inutilisés ou un engagement EDP, Bedrock est effectivement moins cher car les dépenses utilisent des soldes de crédit à valeur nominale. Si vous avez des crédits du programme de démarrage Anthropic ou pas de crédits de fournisseur cloud du tout, l'API directe gagne sur la profondeur de mise en cache (TTL d'une heure, préfixe minimum de 512 jetons) et l'accès jour zéro aux modèles. Les nouvelles versions Claude arrivent généralement sur Bedrock 2-6 semaines après l'API directe.

Vertex AI supporte-t-il le cache d'invite et l'API Batch ?

Oui — les deux sont disponibles sur Vertex AI en 2026, mais avec des avertissements par rapport à l'API Anthropic directe. La mise en cache Vertex est TTL de 5 minutes uniquement sur la plupart des régions avec un préfixe minimum de 1 024 jetons par rapport à 512 sur l'API directe. Batch s'exécute via Vertex Batch Prediction avec une mécanique de réduction de 50% similaire. Les deux s'empilent proprement. Pour l'empilement de réduction maximum — mise en cache + batch sur chaque niveau — l'API directe a toujours un avantage de prix brut de 8-15%, bien qu'il soit souvent surpondéré par la disponibilité de crédits GCP pour les équipes déjà sur Google Cloud.

Quelle surface Claude j'utilise pour les charges HIPAA ou SOC 2 ?

AWS Bedrock et Google Vertex AI héritent tous deux de la posture de conformité de leur cloud parent — éligible HIPAA sur Bedrock avec un BAA AWS signé, éligible HIPAA sur Vertex avec un BAA GCP signé, avec CloudTrail et Cloud Audit Logs fournissant les pistes d'audit au niveau de la demande que la plupart des auditeurs attendent. L'API Anthropic directe offre un BAA HIPAA au niveau Entreprise mais avec une surface de moteur de politique plus fine (pas d'équivalent SCP, pas d'ABAC). Pour le trafic de production réglementé, la plupart des équipes mises à l'échelle acheminent via Bedrock ou Vertex ; pour le développement et l'évaluation, l'API directe convient.

Téléchargez l'aide-mémoire tarifaire LLM 2026

PDF d'une page avec chaque niveau Claude, la mathématique du cache + batch et les formules — gratuit, sans barrière d'inscription. Ou explorez nos 40+ outils d'ingénierie d'invite pour rédiger des invites moins chères et plus épurées.

Browse all prompt tools →