Par The DDH Team · Digital Dashboard Hub

Calculateur de coût Claude API (2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Anthropic facture Claude par token, au tarif cité pour 1 000 000 de tokens. Chaque appel comprend deux flux tarifés : l'entrée (votre prompt + message système + tours précédents + outils) et la sortie (tout ce que le modèle écrit en retour). La gamme de juin 2026 couvre une plage de 50x : de Haiku 4.5 ($1 entrée / $5 sortie par 1M) jusqu'à Fable 5 ($10 / $50). Opus 4.8 est à $5 / $25 et Sonnet 4.6 à $3 / $15 — les chevaux de bataille pour le trafic en production.

La caractéristique distinctive du tarif Claude est le cache dynamique avec deux TTL : écritures de cache 5 minutes (tarifées 1,25x l'entrée de base) et écritures de cache 1 heure (2x l'entrée de base). Les lectures de cache coûtent toujours 10% de l'entrée de base — une réduction de 90% sur la portion en cache. Le TTL 1 heure est le levier à fort ROI en production : payez 2x une fois sur l'écriture du préfixe, puis lisez à 10% à chaque appel suivant dans l'heure. L'API Batch applique également 50% de réduction sur l'entrée et la sortie pour les tâches asynchrones.

Ci-dessous : le tableau complet des tarifs de juin 2026 vérifié contre la page de tarification en direct d'Anthropic, la formule de coût canonique avec la mathématique du cache, quatre exemples travaillés (appel unique, 100k appels, 1M appels, une boucle agent 5 tours), l'arbre de décision de sélection de modèle, et une FAQ sourcée. Rédigez rapidement des prompts adaptés à Claude (balises XML, ancrés sur le cache) avec notre générateur de prompt ChatGPT gratuit. Calculateurs associés : coût de l'API OpenAI · coût des embeddings · tutoriel de migration.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Tarif de l'API Claude par 1M de tokens — juin 2026

Feature	Entrée ($/1M)	Écriture cache 5 min ($/1M)	Écriture cache 1 h ($/1M)	Lecture cache ($/1M)	Sortie ($/1M)
Claude Fable 5	$10.00	$12.50	$20.00	$1.00	$50.00
Claude Opus 4.8	$5.00	$6.25	$10.00	$0.50	$25.00
Claude Opus 4.7	$5.00	$6.25	$10.00	$0.50	$25.00
Claude Sonnet 4.6	$3.00	$3.75	$6.00	$0.30	$15.00
Claude Haiku 4.5	$1.00	$1.25	$2.00	$0.10	$5.00

Source, au 2 juin 2026 : tarification API Anthropic (https://docs.anthropic.com/en/docs/about-claude/pricing) et la page de tarification de la console Anthropic (https://www.anthropic.com/pricing). API Batch : 50% de réduction sur l'entrée et la sortie pour les tâches asynchrones (https://docs.anthropic.com/en/docs/build-with-claude/batch-processing). Outil de recherche web : $10 par 1 000 recherches lorsqu'il est activé. Opus 4.7+ utilise un nouveau tokenizer qui produit environ 35% plus de tokens pour le même texte — factoriser dans les comparaisons entre modèles.

La formule de coût avec la mathématique du cache dynamique

Le tarif Claude a trois taux d'entrée au lieu de deux : entrée standard, entrée cache-write (premium), entrée cache-read (réduction 90%). Pour un appel unique sans cache, la formule correspond à celle d'OpenAI :

``` coût = (tokens_entrée / 1 000 000) × tarif_entrée_par_M + (tokens_sortie / 1 000 000) × tarif_sortie_par_M ```

Lorsque le cache est activé, le préfixe que vous marquez comme cacheable est facturé au tarif cache-write au premier appel (1,25x pour TTL 5 min ou 2x pour TTL 1 heure), puis facturé au tarif cache-read (10% de la base) à chaque appel suivant jusqu'à expiration du TTL. Le coût amorti sur N appels dans la même fenêtre TTL :

``` coût_amorti = (coût_cache_write + (N-1) × coût_cache_read + N × coût_entrée_non_mise_en_cache + N × coût_sortie) ```

Le seuil de rentabilité sur l'écriture cache 1 heure (premium 2x) est atteint après 2 lectures en cache. Après cela, chaque lecture supplémentaire est pure économie. Pour un prompt système stable de 2 000 tokens + outils sur Sonnet 4.6 lu sur 100 appels en une heure : écriture cache = 2000 × $6/1M = $0,012 une fois, lectures cache = 99 × 2000 × $0,30/1M = $0,0594 — vs lecture du même préfixe 100x en entrée standard = 100 × 2000 × $3/1M = $0,60. C'est une **économie de 88% sur la portion du préfixe**.

L'API Batch s'ajoute à tout le reste : 50% de réduction sur l'entrée et la sortie pour les tâches asynchrones.

Exemple travaillé 1 : un seul appel 1 000 en entrée / 500 en sortie

Même appel canonique que notre calculateur OpenAI : un prompt de 1 000 tokens qui retourne une réponse de 500 tokens, sans cache. Aux tarifs standards :

Claude Fable 5 : (1000/1 000 000) × $10 + (500/1 000 000) × $50 = $0,010 + $0,025 = **$0,035 par appel**.

Claude Opus 4.8 : 0,001 × $5 + 0,0005 × $25 = $0,005 + $0,0125 = **$0,0175 par appel**.

Claude Sonnet 4.6 : 0,001 × $3 + 0,0005 × $15 = $0,003 + $0,0075 = **$0,0105 par appel**.

Claude Haiku 4.5 : 0,001 × $1 + 0,0005 × $5 = $0,001 + $0,0025 = **$0,0035 par appel**.

Notez que Sonnet 4.6 ($0,0105) atterrit quasiment identique au gpt-5.4 d'OpenAI ($0,010) sur le même appel. Le choix entre eux porte rarement sur le prix à ce volume ; il s'agit de qualité sur la tâche spécifique. Pour le trafic à haut volume, l'écart 10x entre Fable 5 et Haiku 4.5 est le vrai levier.

Exemple travaillé 2 : 100 000 appels avec cache dynamique sur Sonnet 4.6

Même forme par appel — 1 000 en entrée / 500 en sortie — sur 100 000 appels/mois avec un prompt système cacheable de 700 tokens qui touche le cache 90% du temps sur le TTL 1 heure :

Chemin de base (sans cache) : 100 000 × $0,0105 = **$1 050/mois** sur Sonnet 4.6.

Chemin avec cache : écritures cache ≈ 10 000 × (700/1M × $6) = $42. Lectures cache ≈ 90 000 × (700/1M × $0,30) = $18,90. Entrée non mise en cache (les 300 tokens autres × 100 000) = 30 000 000 / 1M × $3 = $90. Sortie = 100 000 × (500/1M × $15) = $750. Total = **$900,90/mois** — une économie de 14% sur cette charge de travail.

Le cache gagne composé à plus grande part du préfixe. Si 1 800 de chaque 2 000 tokens d'entrée sont cacheable et touchent 90% du temps, la même charge de travail 100k chute de $1 050 à environ $810 — une économie de 23%. Restructurez les prompts pour que autant du préfixe que possible soit stable, et le cache fait le reste.

Exemple travaillé 3 : montée en échelle à 1 000 000 appels sur Haiku 4.5

Les charges de travail en production à haut volume (classification, résumé, détection d'intention) vivent régulièrement sur Haiku 4.5. À 1M appels × 1 000 en entrée / 500 en sortie :

Chemin de base : 1 000 000 × $0,0035 = **$3 500/mois**.

Avec l'API Batch sur les 60% de la charge de travail qui sont asynchrones : 0,6 × $3 500 × 0,5 + 0,4 × $3 500 = $1 050 + $1 400 = **$2 450/mois** (économie de 30%).

Ajoutez le cache dynamique sur le préfixe du système (supposez 800 de 1 000 tokens d'entrée en cache 80% du temps) : économise environ $280 de plus. Total : **~$2 170/mois** pour 1M appels Haiku — environ $0,00217 par appel. C'est le plancher des prix pour le trafic Claude en production sérieuse.

Comparez gpt-5.4-mini à $3 000/mois standard pour la même charge de travail — Claude Haiku 4.5 est moins cher à l'échelle une fois que vous battez + mettez en cache.

Exemple travaillé 4 : une boucle agent 5 tours sur Opus 4.8

Les boucles agent sur Claude suivent la même forme qu'OpenAI : le modèle rejoue la transcription complète à chaque tour. Prenez une boucle 5 tours avec un prompt système de 2 500 tokens + outils, contexte croissant de 600 tokens par tour :

Tour 1 : 3 100 en entrée / 250 en sortie. Tour 2 : 3 250 en entrée / 250 en sortie. Tour 3 : 3 400 en entrée / 250 en sortie. Tour 4 : 3 550 en entrée / 250 en sortie. Tour 5 : 3 700 en entrée / 250 en sortie. Total : 17 000 entrée + 1 250 sortie. Sur Opus 4.8 : 0,017 × $5 + 0,00125 × $25 = $0,085 + $0,03125 = **$0,117 par requête** sans cache.

Appliquez maintenant le cache 1 heure sur le préfixe du système de 2 500 tokens + outils. Écriture cache tour 1 : 2500 × $10/1M = $0,025. Lectures cache tours 2-5 : 4 × 2500 × $0,50/1M = $0,005. Entrée non mise en cache (la portion de transcription croissante) ≈ 5 000 × $5/1M = $0,025. Sortie : $0,03125. Total : **$0,086 par requête** — une économie de 26% et le cache dure une heure, donc la réutilisation inter-sessions ajoute plus.

Si votre agent sert 10k requêtes/heure, les écritures cache s'amortissent sur des milliers de lectures — le coût par requête atterrit plus proche de $0,060.

Quand choisir Fable 5 vs Opus 4.8 vs Sonnet 4.6 vs Haiku 4.5

**Claude Fable 5** ($10 / $50) : le modèle de nouvelle frontière. Idéal pour le raisonnement hautement complexe où Opus 4.8 atteint son plafond de qualité — planification d'agent multi-étapes, raisonnement scientifique dense, synthèse littéraire contexte important. 2x le prix d'Opus 4.8 ; n'allez le chercher que lorsque le gain de qualité marginal justifie la prime.

**Claude Opus 4.8** ($5 / $25) : raisonnement enjeux élevés et écriture créative. Fort sur la cohérence long-forme, rédaction niveau légal, synthèse de code complexe. Vaut la prime sur Sonnet 4.6 quand la correction coûte plus que le débit.

**Claude Sonnet 4.6** ($3 / $15) : la valeur par défaut en production. Meilleur modèle polyvalent pour le chat, flux d'agent, génération de contenu. Point doux qualité + prix pour la plupart des équipes — et l'appariement naturel à gpt-5.5 pour les tests A/B inter-fournisseurs.

**Claude Haiku 4.5** ($1 / $5) : tâches haut volume où vitesse et prix battent profondeur de raisonnement — classification, extraction, résumé, routage, Q&A simple. Moins cher que gpt-5.4-mini à l'échelle une fois que vous mettez en cache. Pour la comparaison inter-fournisseur complète voir notre calculateur GPT vs Claude vs Gemini.

Cache dynamique sur Claude : la décision 5 min vs 1 heure

Les deux TTL de cache d'Anthropic couvrent différentes formes de trafic. L'écriture cache 5 minutes coûte 1,25x l'entrée de base — seuil de rentabilité après environ 0,25 lectures en cache, donc presque toujours ROI positif pour toute relecture du préfixe en quelques minutes. L'écriture cache 1 heure coûte 2x l'entrée de base — seuil de rentabilité après 2 lectures, ce qui est trivial pour tout agent en production servant plusieurs utilisateurs par heure.

Règle d'or : utilisez 1 heure pour les prompts système + définitions d'outils + exemples few-shot (anything stable sur une session ou entre utilisateurs). Utilisez 5 minutes pour le contexte par conversation qui ne survit pas longtemps. Marquez explicitement les points de rupture de cache dans le tableau de messages avec `cache_control: { type: 'ephemeral' }`.

La plus grosse erreur qu'on voit : mettre en cache la mauvaise couche. Cacher seulement le prompt système et laisser 3 000 tokens de définitions d'outils sans cache manque la plus grande victoire de cache. Cacher tout ce qui est stable jusqu'à et y compris le tableau des outils est la valeur par défaut correcte. Voir la documentation du cache dynamique d'Anthropic pour le placement des points de rupture.

API Batch sur Claude : 50% de réduction, même plafond 24 heures

L'API Batch d'Anthropic est un miroir de celle d'OpenAI : 50% de réduction sur l'entrée et la sortie pour les tâches asynchrones complétées dans les 24 heures. Soumettez un fichier JSONL de requêtes de création de message ; interrogez ou webhook pour la complétion.

Les charges de travail qui conviennent : classification nocturne, exécutions d'évaluation, génération d'ensemble d'entraînement, digests hebdomadaires, pré-calcul retrieval dense équivalent embedding, modération de contenu automatisée sur les données d'hier, rapports d'exception. Si le consommateur de la sortie est asynchrone, passez-le par batch.

Batch + cache s'empilent comme ceux d'OpenAI — multiplicativement. Un appel Sonnet 4.6 par batch qui touche un cache 1 heure pour 80% de l'entrée atterrit à environ $0,0036 par appel 1 000 en entrée / 500 en sortie, vs $0,0105 standard. C'est une économie fusionnée de 66% sur la charge de travail.

API Claude vs tarification consommateur Claude.ai : ne les confondez pas

Anthropic gère deux relations de facturation parallèles. L'**API** (tarifiée par token dans le tableau ci-dessus, accédée via console.anthropic.com / docs.anthropic.com) est pour les développeurs construisant sur Claude. L'abonnement consommateur **Claude.ai** (Claude Gratuit, Claude Pro à $20/mois, Claude Max à $40/mois) est pour les utilisateurs finaux chattant avec Claude dans une UI. Ils partagent l'infrastructure mais la facturation est séparée.

Ce que cela signifie pour les constructeurs : un abonnement Claude Pro à $20/mois ne comprend **pas** de crédit API. Si vous construisez une application sur Claude, vous configurez la facturation API indépendamment sur console.anthropic.com — de la même manière que les plans consommateur d'OpenAI ne comprennent pas de crédit API.

Claude Max ($40/mois, lancé en 2025) est la couche utilisateur puissance consommateur avec plafonds de message plus élevés sur Opus et Sonnet, fenêtres de contexte plus longues dans l'UI, accès prioritaire pendant les périodes de forte demande, et (à partir de mi-2026) accès bêta Computer Use inclus. C'est le positionnement équivalent Claude à ChatGPT Pro mais à un point de prix plus bas. Les utilisateurs intensifs qui chattent avec Claude quotidiennement sur des sessions multi-heures sont le public cible.

Pour les équipes : Anthropic propose Claude Team à $25/siège/mois annuels (similaire à ChatGPT Team) avec espace de travail partagé, contrôles admin, et SSO/SCIM à niveaux supérieurs. Distinct de l'API — Team est un abonnement Claude.ai, l'API est le produit développeur par token.

Outil de recherche web : $10 par 1 000 recherches

L'outil de recherche web de Claude — activé via la définition d'outil `web_search` dans un appel de messages — facture $10 par 1 000 recherches en plus des frais de token standards. Chaque invocation de recherche retourne les résultats supérieurs qui comptent vers votre facturation de token d'entrée au tour suivant.

Pour les assistants intensifs en recherche, le module complémentaire de recherche est une surcharge par appel nette : budgétez $0,01 par recherche, plus le coût d'entrée des résultats (généralement 500-2 000 tokens chacun, selon le nombre de sources que Claude récupère). Aux tarifs d'entrée Sonnet 4.6, un résultat de recherche de 1 500 tokens coûte $0,0045 supplémentaires en plus des frais de recherche de $0,01 — appelez-le $0,015 tout compris par tour recherché.

Utilisez la recherche quand la réponse nécessite des données post-entraînement (événements actuels, tarification en direct, articles récents). Désactivez-la sur les charges de travail qui peuvent fonctionner à partir des poids du modèle seuls — chaque recherche ajoute $0,01-$0,02 à la facture sans économies d'entrée compensatoires.

Méthodologie d'approvisionnement et comment garder ces chiffres à jour

Chaque prix Claude de ce guide provient de la page de tarification en direct d'Anthropic sur docs.anthropic.com/en/docs/about-claude/pricing et de la surface de tarification de la console Anthropic sur anthropic.com/pricing, récupéré le 2026-06-20. Les chiffres ont été vérifiés contre trois sources de corroboration indépendantes (agrégateurs de tarification communautaires, commits d'intégration dans les repos anthropic-sdk-python et anthropic-sdk-typescript, et le cookbook public d'Anthropic).

Anthropic publie un journal de tarification plus propre que la plupart des fournisseurs — les changements de prix matériels apparaissent généralement dans leurs notes de version de docs dans les 48 heures. Les prix actuels sont stables tout au long de 2026 : Sonnet 4.6 à $3/$15, Haiku 4.5 à $1/$5, Opus 4.8 à $5/$25, Fable 5 à $10/$50. Le niveau d'écriture cache 1 heure est l'ajout le plus récent (déployé en fin 2025) et reste le levier de coût au plus fort ROI pour le trafic en production.

**Comment vérifier avant de budgétiser** : ouvrez docs.anthropic.com/en/docs/about-claude/pricing dans n'importe quel navigateur (aucune auth requise), copiez la ligne complète de votre modèle cible (entrée / écriture cache 5-min / écriture cache 1-h / lecture cache / sortie) dans une feuille de calcul. Comparez au tableau ci-dessus. La transition Opus 4.7 → Opus 4.8 en début 2026 a conservé la tarification inchangée, mais le changement de tokenizer signifie que les décomptes de tokens ont bougé ~35% plus élevés pour le même texte anglais. Re-budgétisez si vous avez porté depuis les prompts Claude 3 ère.

**Méthodologie reproductible** : le GEO Playbook conduisant ce guide (2026-06-19) exige que chaque valeur en $ soit sourcée depuis la page du fournisseur en direct. Chaque ligne du tableau ci-dessus a une citation ; chaque exemple travaillé les référence ; les FAQ les reflètent. Si vous trouvez une discordance avec la page en direct, la page en direct est canonique.

Comment estimer le coût de n'importe quel appel Claude API en 5 étapes

1
Estimez vos tokens d'entrée
Règle d'or : 1 token ≈ 4 caractères ≈ 0,75 mots anglais. Notez qu'Opus 4.7+ utilise un nouveau tokenizer qui produit ~35% plus de tokens qu'les anciens modèles Claude pour le même texte — factorisez cela en portant les prompts depuis Claude 3.x.
→ Open the Générateur de prompt aware Claude
2
Estimez vos tokens de sortie
Mots ÷ 0,75. La sortie est 5x l'entrée sur chaque modèle Claude, donc le volume de sortie conduit la plupart de la facture. Limitez la sortie avec `max_tokens` partout où vous contrôlez la forme de consommation.
3
Cherchez les tarifs d'entrée + cache + sortie
Depuis le tableau ci-dessus : Sonnet 4.6 $3 / $15, Opus 4.8 $5 / $25, Haiku 4.5 $1 / $5, Fable 5 $10 / $50 par 1M. Les lectures cache facturent 10% de l'entrée. Les écritures cache facturent 1,25x (5-min) ou 2x (1-heure).
4
Décidez quel préfixe mettre en cache
Marquez les couches de préfixe stables avec `cache_control: { type: 'ephemeral' }` : prompt système, définitions d'outils, exemples few-shot. Anything qui ne change pas entre appels dans les minutes (cache 5-min) ou dans une heure (cache 1-h) appartient derrière un point de rupture de cache.
5
Appliquez l'API Batch pour les charges asynchrones
Si la sortie est consommée de manière asynchrone, passez-la par batch. 50% de réduction sur l'entrée + sortie, s'empile avec le cache. Soumettez JSONL ; interrogez les résultats dans les 24 heures. Docs en direct : docs.anthropic.com/en/docs/build-with-claude/batch-processing.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Générateur de prompt adapté Claude→Générateur de prompt code (ancrés sur cache)→Calculateur de coût de l'API OpenAI→Guide de migration OpenAI → Claude→

Frequently Asked Questions

Quel est le coût de Claude Opus 4.8 par 1 million de tokens en 2026 ?

Depuis juin 2026, Claude Opus 4.8 coûte $5,00 par 1M de tokens d'entrée et $25,00 par 1M de tokens de sortie via l'API Anthropic. Le tarif cache write 1-heure est $10/1M ; les lectures cache facturent $0,50/1M (10% de l'entrée). Source : page de tarification API en direct d'Anthropic.

Combien coûte Claude Sonnet 4.6 par appel ?

Un appel 1 000 en entrée / 500 en sortie sur Sonnet 4.6 coûte (1000 / 1 000 000) × $3 + (500 / 1 000 000) × $15 = $0,003 + $0,0075 = $0,0105 par appel. Le même appel sur Opus 4.8 est $0,0175, sur Haiku 4.5 est $0,0035, sur Fable 5 est $0,035.

Comment fonctionne la tarification du cache dynamique Claude ?

Anthropic propose deux TTL de cache. L'écriture cache 5 minutes facture 1,25x l'entrée de base ; l'écriture cache 1 heure facture 2x l'entrée de base. Les lectures cache facturent toujours 10% de l'entrée de base — une réduction de 90%. Le seuil de rentabilité sur l'écriture cache 1-heure est 2 lectures ; tout après est pur économie. Sur Sonnet 4.6, un préfixe cacheable de 2 000 tokens lu 100 fois en une heure économise ~88% sur la portion préfixe de ces appels.

Claude est-il moins cher qu'OpenAI GPT-5 ?

Sur un appel 1 000 en entrée / 500 en sortie comparable : Sonnet 4.6 est $0,0105 vs gpt-5.4 à $0,010 — essentiellement identique. Haiku 4.5 est $0,0035 vs gpt-5.4-mini à $0,003 — aussi un match nul. Claude gagne décisivement à l'échelle quand vous utilisez efficacement le cache dynamique (le TTL 1-heure d'Anthropic avec points de rupture explicites dépasse souvent le cache prefix opportuniste d'OpenAI). Pour le niveau premium, Opus 4.8 ($5/$25) est matériellement moins cher que gpt-5.5-pro ($30/$180).

Quel est la réduction de l'API Batch Claude ?

L'API Batch d'Anthropic enlève 50% sur les prix de tokens d'entrée et de sortie pour les tâches asynchrones complétées dans les 24 heures. Soumettez un fichier JSONL de requêtes de création de message via le point d'extrémité batches ; interrogez ou webhook pour la complétion. S'empile avec le cache dynamique.

Quel est le coût de l'outil de recherche web de Claude ?

$10 par 1 000 recherches, en plus des frais de tokens d'entrée/sortie standards. Les résultats de recherche que Claude récupère comptent vers votre facturation de token d'entrée au tour suivant — généralement 500-2 000 tokens par résultat. Budgétez ~$0,015 tout compris par tour recherché sur Sonnet 4.6.

Les tokens Opus 4.7+ coûtent-ils plus cher en raison du nouveau tokenizer ?

Même tarif par token, mais Opus 4.7 et Opus 4.8 utilisent un nouveau tokenizer qui produit ~35% plus de tokens pour le même texte anglais vs modèles Claude 3.x. Si vous budgétisez depuis une ancienne baseline Claude 3, multipliez les décomptes de tokens par 1,35 avant d'appliquer les nouveaux tarifs. Le nouveau code commençant sur Opus 4.7+ n'a pas besoin d'ajuster — les estimations de tokens provenant de librairies équivalent tiktoken utilisent déjà le nouveau tokenizer.

Puis-je mettre en cache les définitions d'outils Claude ?

Oui — et vous devriez. Les définitions d'outils sont souvent la plus grande portion de l'entrée sur les charges d'agent. Placez le point de rupture `cache_control` après le tableau des outils, pas juste après le prompt système. L'erreur de cache la plus courante qu'on voit sur Claude est mettre en cache seulement le prompt système et laisser les définitions d'outils multi-millier-token sans cache à chaque appel.

Exécutez des prompts Claude qui mettent réellement en cache.

Notre générateur de prompt IA rédige des prompts Opus/Sonnet/Haiku/Fable avec l'ancre de cache au sommet et les balises XML que Claude préfère — basé sur VOTRE métier + tâche. Essai gratuit 14 jours, pas de carte.

Browse all prompt tools →