La fórmula de costo con matemáticas de escritura/lectura en caché
La facturación de Claude tiene tres tasas de entrada en lugar de dos: entrada estándar, entrada con escritura en caché (premium), entrada con lectura en caché (descuento del 90%). Para una única llamada sin caché, la fórmula coincide con la de OpenAI:
``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```
Cuando el almacenamiento en caché está habilitado, el prefijo que marques como cacheable se factura a la tasa de escritura en caché en la primera llamada (1,25x para TTL de 5 min o 2x para TTL de 1 hora), luego se factura a la tasa de lectura en caché (10% de base) en cada llamada posterior hasta que expire el TTL. El costo amortizado entre N llamadas en la misma ventana TTL:
``` amortized_cost = (cache_write_cost + (N-1) × cache_read_cost + N × non_cached_input_cost + N × output_cost) ```
El punto de equilibrio en la escritura en caché de 1 hora (premium 2x) ocurre después de 2 aciertos de caché. Después de eso, cada acierto adicional es ahorro puro. Para un sistema de prompts estable de 2.000 tokens + herramientas en Sonnet 4.6 leído en 100 llamadas en una hora: escritura en caché = 2000 × $6/1M = $0,012 una vez, lecturas en caché = 99 × 2000 × $0,30/1M = $0,0594 — vs leer el mismo prefijo 100x a entrada estándar = 100 × 2000 × $3/1M = $0,60. Eso es un **ahorro del 88% en la porción del prefijo**.
La Batch API se superpone sobre todo lo demás: 50% desc. en entrada y salida para trabajos asincronos.