La formule de coût avec la mathématique du cache dynamique
Le tarif Claude a trois taux d'entrée au lieu de deux : entrée standard, entrée cache-write (premium), entrée cache-read (réduction 90%). Pour un appel unique sans cache, la formule correspond à celle d'OpenAI :
``` coût = (tokens_entrée / 1 000 000) × tarif_entrée_par_M + (tokens_sortie / 1 000 000) × tarif_sortie_par_M ```
Lorsque le cache est activé, le préfixe que vous marquez comme cacheable est facturé au tarif cache-write au premier appel (1,25x pour TTL 5 min ou 2x pour TTL 1 heure), puis facturé au tarif cache-read (10% de la base) à chaque appel suivant jusqu'à expiration du TTL. Le coût amorti sur N appels dans la même fenêtre TTL :
``` coût_amorti = (coût_cache_write + (N-1) × coût_cache_read + N × coût_entrée_non_mise_en_cache + N × coût_sortie) ```
Le seuil de rentabilité sur l'écriture cache 1 heure (premium 2x) est atteint après 2 lectures en cache. Après cela, chaque lecture supplémentaire est pure économie. Pour un prompt système stable de 2 000 tokens + outils sur Sonnet 4.6 lu sur 100 appels en une heure : écriture cache = 2000 × $6/1M = $0,012 une fois, lectures cache = 99 × 2000 × $0,30/1M = $0,0594 — vs lecture du même préfixe 100x en entrée standard = 100 × 2000 × $3/1M = $0,60. C'est une **économie de 88% sur la portion du préfixe**.
L'API Batch s'ajoute à tout le reste : 50% de réduction sur l'entrée et la sortie pour les tâches asynchrones.