Por el equipo de DDH · Digital Dashboard Hub

Calculadora de costos Claude API (2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Anthropic factura Claude por token, cotizado por 1.000.000 de tokens. Cada llamada tiene dos flujos facturados: entrada (tu prompt + mensaje del sistema + turnos anteriores + herramientas) y salida (todo lo que el modelo devuelve). La línea de junio 2026 abarca un rango de 50x desde Haiku 4.5 ($1 entrada / $5 salida por 1M) hasta Fable 5 ($10 / $50). Opus 4.8 está en $5 / $25 y Sonnet 4.6 en $3 / $15 — los caballos de batalla para tráfico en producción.

La característica distintiva de precios de Claude es el almacenamiento en caché de prompts con dos TTLs: escrituras en caché de 5 minutos (facturadas 1,25x entrada base) y escrituras en caché de 1 hora (2x entrada base). Las lecturas de caché siempre son 10% de la entrada base — un descuento del 90% en la porción en caché. El TTL de 1 hora es la palanca de alto EV para producción: paga 2x una vez en la escritura del prefijo, luego lee al 10% en cada llamada posterior dentro de la hora. La Batch API también reduce el 50% tanto entrada como salida para trabajos asincronos.

Abajo: la tabla de precios completa de junio de 2026 verificada contra la página de precios en vivo de Anthropic, la fórmula de costo canónica con matemáticas de escritura en caché, cuatro ejemplos trabajados (llamada única, 100k llamadas, 1M llamadas, un bucle de agente de 5 turnos), el árbol de decisión de selección de modelos, y un FAQ fundamentado. Crea rápidamente prompts sintonizados para Claude (etiquetas XML, ancla de caché) con nuestro generador de prompts ChatGPT gratuito. Calculadoras hermanas: costo OpenAI API · costo Embeddings · tutorial de migración.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Precio Claude API por 1M tokens — junio 2026

Feature	Entrada ($/1M)	Escritura caché 5 min ($/1M)	Escritura caché 1 hora ($/1M)	Lectura caché ($/1M)	Salida ($/1M)
Claude Fable 5	$10.00	$12.50	$20.00	$1.00	$50.00
Claude Opus 4.8	$5.00	$6.25	$10.00	$0.50	$25.00
Claude Opus 4.7	$5.00	$6.25	$10.00	$0.50	$25.00
Claude Sonnet 4.6	$3.00	$3.75	$6.00	$0.30	$15.00
Claude Haiku 4.5	$1.00	$1.25	$2.00	$0.10	$5.00

Fuente, a junio de 2026: precios API Anthropic (https://docs.anthropic.com/en/docs/about-claude/pricing) y página de precios de la consola Anthropic (https://www.anthropic.com/pricing). Batch API: 50% desc. en entrada y salida para trabajos asincronos (https://docs.anthropic.com/en/docs/build-with-claude/batch-processing). Herramienta de búsqueda web: $10 por 1.000 búsquedas cuando está habilitada. Opus 4.7+ utilizan un nuevo tokenizador que produce aproximadamente 35% más tokens para el mismo texto — factor en comparaciones entre modelos.

La fórmula de costo con matemáticas de escritura/lectura en caché

La facturación de Claude tiene tres tasas de entrada en lugar de dos: entrada estándar, entrada con escritura en caché (premium), entrada con lectura en caché (descuento del 90%). Para una única llamada sin caché, la fórmula coincide con la de OpenAI:

``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```

Cuando el almacenamiento en caché está habilitado, el prefijo que marques como cacheable se factura a la tasa de escritura en caché en la primera llamada (1,25x para TTL de 5 min o 2x para TTL de 1 hora), luego se factura a la tasa de lectura en caché (10% de base) en cada llamada posterior hasta que expire el TTL. El costo amortizado entre N llamadas en la misma ventana TTL:

``` amortized_cost = (cache_write_cost + (N-1) × cache_read_cost + N × non_cached_input_cost + N × output_cost) ```

El punto de equilibrio en la escritura en caché de 1 hora (premium 2x) ocurre después de 2 aciertos de caché. Después de eso, cada acierto adicional es ahorro puro. Para un sistema de prompts estable de 2.000 tokens + herramientas en Sonnet 4.6 leído en 100 llamadas en una hora: escritura en caché = 2000 × $6/1M = $0,012 una vez, lecturas en caché = 99 × 2000 × $0,30/1M = $0,0594 — vs leer el mismo prefijo 100x a entrada estándar = 100 × 2000 × $3/1M = $0,60. Eso es un **ahorro del 88% en la porción del prefijo**.

La Batch API se superpone sobre todo lo demás: 50% desc. en entrada y salida para trabajos asincronos.

Ejemplo trabajado 1: una única llamada de 1.000 entrada / 500 salida

La misma llamada canónica que nuestra calculadora OpenAI: un prompt de 1.000 tokens que devuelve una respuesta de 500 tokens, sin almacenamiento en caché. A tasas estándar:

Claude Fable 5: (1000/1.000.000) × $10 + (500/1.000.000) × $50 = $0,010 + $0,025 = **$0,035 por llamada**.

Claude Opus 4.8: 0,001 × $5 + 0,0005 × $25 = $0,005 + $0,0125 = **$0,0175 por llamada**.

Claude Sonnet 4.6: 0,001 × $3 + 0,0005 × $15 = $0,003 + $0,0075 = **$0,0105 por llamada**.

Claude Haiku 4.5: 0,001 × $1 + 0,0005 × $5 = $0,001 + $0,0025 = **$0,0035 por llamada**.

Ten en cuenta que Sonnet 4.6 ($0,0105) llega casi idéntico al gpt-5.4 de OpenAI ($0,010) en la misma llamada. La elección entre ellos rara vez se trata de precio a este volumen; se trata de calidad en la tarea específica. Para tráfico de alto volumen, el rango 10x entre Fable 5 y Haiku 4.5 es la palanca real.

Ejemplo trabajado 2: 100.000 llamadas con almacenamiento en caché de prompts en Sonnet 4.6

La misma forma por llamada — 1.000 entrada / 500 salida — en 100.000 llamadas/mes con un prompt de sistema cacheable de 700 tokens que acierta caché el 90% del tiempo en el TTL de 1 hora:

Ruta base (sin caché): 100.000 × $0,0105 = **$1.050/mes** en Sonnet 4.6.

Ruta en caché: escrituras en caché ≈ 10.000 × (700/1M × $6) = $42. Lecturas en caché ≈ 90.000 × (700/1M × $0,30) = $18,90. Entrada no cacheable (los otros 300 tokens × 100.000) = 30.000.000 / 1M × $3 = $90. Salida = 100.000 × (500/1M × $15) = $750. Total = **$900,90/mes** — un ahorro del 14% en esta carga de trabajo.

El caché gana compuesto a mayor porcentaje de prefijo. Si 1.800 de cada 2.000 tokens de entrada son cacheables y acierten caché el 90% del tiempo, la misma carga de 100k cae de $1.050 a aproximadamente $810 — un ahorro del 23%. Reestructura prompts de modo que el mayor cantidad de prefijo posible sea estable, y el caché hace el resto.

Ejemplo trabajado 3: escalado a 1.000.000 llamadas en Haiku 4.5

Las cargas de trabajo de alto volumen en producción (clasificación, síntesis, detección de intención) habitualmente viven en Haiku 4.5. En 1M llamadas × 1.000 entrada / 500 salida:

Ruta base: 1.000.000 × $0,0035 = **$3.500/mes**.

Con Batch API en el 60% de la carga de trabajo que es asincrónica: 0,6 × $3.500 × 0,5 + 0,4 × $3.500 = $1.050 + $1.400 = **$2.450/mes** (ahorro del 30%).

Capa almacenamiento en caché de prompts en el prefijo de sistema (asume 800 de 1.000 tokens de entrada en caché el 80% del tiempo): ahorra otros ~$280. Total: **~$2.170/mes** para 1M llamadas de Haiku — aproximadamente $0,00217 por llamada. Este es el piso de precio para tráfico Claude serio en producción.

Compara gpt-5.4-mini en $3.000/mes estándar para la misma carga de trabajo — Claude Haiku 4.5 es más barato a escala una vez que haces batch + caché.

Ejemplo trabajado 4: un bucle de agente de 5 turnos en Opus 4.8

Los bucles de agente en Claude siguen la misma forma que OpenAI: el modelo repite la transcripción completa en cada turno. Toma un bucle de 5 turnos con un prompt de sistema de 2.500 tokens + herramientas, contexto creciente 600 tokens por turno:

Turno 1: 3.100 entrada / 250 salida. Turno 2: 3.250 entrada / 250 salida. Turno 3: 3.400 entrada / 250 salida. Turno 4: 3.550 entrada / 250 salida. Turno 5: 3.700 entrada / 250 salida. Total: 17.000 entrada + 1.250 salida. En Opus 4.8: 0,017 × $5 + 0,00125 × $25 = $0,085 + $0,03125 = **$0,117 por consulta** sin caché.

Ahora aplica caché de 1 hora en el prefijo de 2.500 tokens del sistema + herramientas. Escritura en caché turno 1: 2500 × $10/1M = $0,025. Lecturas en caché turnos 2-5: 4 × 2500 × $0,50/1M = $0,005. Entrada no cacheable (la porción de transcripción creciente) ≈ 5.000 × $5/1M = $0,025. Salida: $0,03125. Total: **$0,086 por consulta** — un ahorro del 26% y el caché dura una hora, así que la reutilización entre sesiones agrega más.

Si tu agente sirve 10k consultas/hora, las escrituras en caché se amortizan en miles de lecturas — el costo por consulta llega más cerca a $0,060.

Cuándo elegir Fable 5 vs Opus 4.8 vs Sonnet 4.6 vs Haiku 4.5

**Claude Fable 5** ($10 / $50): el modelo de nueva frontera. Mejor para razonamiento de alta complejidad donde Opus 4.8 alcanza su techo de calidad — planificación agentica de múltiples pasos, razonamiento científico denso, síntesis de literatura de contexto amplio. 2x el precio de Opus 4.8; alcánzalo solo cuando el levantamiento de calidad marginal justifica el premium.

**Claude Opus 4.8** ($5 / $25): razonamiento de alto riesgo y escritura creativa. Fuerte en coherencia de largo formato, redacción de calidad legal, síntesis de código complejo. Vale el premium sobre Sonnet 4.6 cuando la exactitud cuesta más que el rendimiento.

**Claude Sonnet 4.6** ($3 / $15): el valor predeterminado en producción. Mejor modelo de propósito general para chat, flujos de trabajo agenticos, generación de contenido. Punto dulce de calidad + precio para la mayoría de equipos — y el par natural con gpt-5.5 para pruebas A/B entre proveedores.

**Claude Haiku 4.5** ($1 / $5): tareas de alto volumen donde velocidad y precio superan la profundidad de razonamiento — clasificación, extracción, síntesis, enrutamiento, Q&A simple. Más barato que gpt-5.4-mini a escala una vez que haces caché. Para la comparación completa entre proveedores ver nuestra calculadora GPT vs Claude vs Gemini.

Almacenamiento en caché de prompts en Claude: la decisión 5 min vs 1 hora

Los dos TTLs de caché de Anthropic cubren diferentes formas de tráfico. La escritura en caché de 5 minutos cuesta 1,25x entrada base — punto de equilibrio después de aproximadamente 0,25 aciertos de caché, así que casi siempre EV positivo para cualquier relecura de prefijo dentro de minutos. La escritura en caché de 1 hora cuesta 2x entrada base — punto de equilibrio después de 2 aciertos, lo cual es trivial para cualquier agente en producción sirviendo múltiples usuarios por hora.

Regla de oro: usa 1 hora para prompts de sistema + definiciones de herramientas + ejemplos few-shot (cualquier cosa estable entre sesiones o entre usuarios). Usa 5 minutos para contexto por conversación que no sobrevive mucho. Marca puntos de ruptura de caché explícitamente en el array de mensajes con `cache_control: { type: 'ephemeral' }`.

El error más grande que vemos: cachear la capa equivocada. Cachear solo el prompt de sistema y dejar definiciones de herramientas de 3.000 tokens sin cachear en cada llamada pierde la ganancia más grande de caché. Cachear todo lo estable hasta e incluyendo el array de herramientas es el valor predeterminado correcto. Ver la documentación de almacenamiento en caché de prompts de Anthropic para colocación de puntos de ruptura.

Batch API en Claude: 50% desc., mismo techo de 24 horas

La Batch API de Anthropic refleja la de OpenAI: 50% desc. en entrada y salida para trabajos asincronos completándose dentro de 24 horas. Envía un archivo JSONL de solicitudes de creación de mensajes; sondea o webhook para completación.

Cargas de trabajo que encajan: clasificación nocturna, ejecuciones de evaluación, generación de conjuntos de entrenamiento, resúmenes semanales, precálculo de recuperación densa equivalente a embeddings, moderación automatizada de contenido de datos de ayer, informes de excepciones. Si el consumidor de la salida es asincrónico, hazlo por lotes.

Batch + caché apilan de la manera que lo hace OpenAI — multiplicativamente. Una llamada de Sonnet 4.6 en lote que acierta caché de 1 hora en el 80% de entrada llega a aproximadamente $0,0036 por llamada de 1.000 entrada / 500 salida, vs $0,0105 estándar. Eso es un ahorro combinado del 66% en la carga de trabajo.

Claude API vs precios de consumidor Claude.ai: no los confundas

Anthropic ejecuta dos relaciones de facturación paralelas. El **API** (facturado por token en la tabla anterior, accedido vía console.anthropic.com / docs.anthropic.com) es para desarrolladores que construyen sobre Claude. La suscripción de consumidor **Claude.ai** (Claude Free, Claude Pro en $20/mes, Claude Max en $40/mes) es para usuarios finales que chatan con Claude en una UI. Comparten infraestructura pero la facturación es separada.

Lo que esto significa para constructores: una suscripción de $20/mes Claude Pro **no** incluye crédito API. Si estás construyendo una aplicación sobre Claude, configurar facturación de API independientemente en console.anthropic.com — de la misma manera que los planes de consumidor de OpenAI no incluyen crédito API.

Claude Max ($40/mes, lanzado 2025) es la capa de usuario de poder de consumidor con tapas de mensajes más altas en Opus y Sonnet, ventanas de contexto más largas en la UI, acceso prioritario durante períodos de alta demanda, y (a mediados de 2026) acceso beta de Computer Use incluido. Es el equivalente Claude aproximado del posicionamiento de ChatGPT Pro pero a un precio más bajo. Los usuarios frecuentes que chatan con Claude diariamente en sesiones de múltiples horas son la audiencia objetivo.

Para equipos: Anthropic ofrece Claude Team en $25/asiento/mes anuales (similar a ChatGPT Team) con espacio de trabajo compartido, controles administrativos, y SSO/SCIM en capas más altas. Distinto del API — Team es una suscripción Claude.ai, el API es el producto para desarrolladores por token.

Herramienta de búsqueda web: $10 por 1.000 búsquedas

La herramienta de búsqueda web de Claude — habilitada vía la definición de herramienta `web_search` en una llamada de mensajes — se factura a $10 por 1.000 búsquedas además de los cargos de tokens estándar. Cada invocación de búsqueda devuelve resultados principales que cuentan hacia tu factura de tokens de entrada en el turno siguiente.

Para asistentes de investigación pesada, el complemento de búsqueda es un cargo por llamada limpio: presupuesta $0,01 por búsqueda, más el costo de entrada de los resultados (típicamente 500-2.000 tokens cada uno, dependiendo de cuántas fuentes Claude tira). A tasas de entrada de Sonnet 4.6, un resultado de búsqueda de 1.500 tokens cuesta $0,0045 extra además de la tarifa de búsqueda de $0,01 — llamalo $0,015 total por turno buscado.

Usa búsqueda cuando la respuesta requiere datos post-entrenamiento (eventos actuales, precios en vivo, papeles recientes). Deshabilítala en cargas de trabajo que pueden ejecutarse desde pesos del modelo solo — cada búsqueda agrega $0,01-$0,02 a la factura sin ahorros de entrada compensatorios.

Metodología de abastecimiento y cómo mantener estos números actualizados

Cada precio Claude en esta guía viene de la página de precios en vivo de Anthropic en docs.anthropic.com/en/docs/about-claude/pricing y la superficie de precios de la consola Anthropic en anthropic.com/pricing, obtenidos el 2026-06-20. Los números se verificaron contra tres fuentes independientes corroborantes (agregadores de precios de comunidad, commits de integración en los repositorios anthropic-sdk-python y anthropic-sdk-typescript, y el libro de cocina público de Anthropic).

Anthropic publica un registro de cambios de precios más limpio que la mayoría de proveedores — cambios de precio materiales típicamente aparecen en sus notas de lanzamiento de docs dentro de 48 horas. Los precios actuales han sido estables a través de 2026: Sonnet 4.6 en $3/$15, Haiku 4.5 en $1/$5, Opus 4.8 en $5/$25, Fable 5 en $10/$50. La capa de escritura en caché de 1 hora es la adición más nueva (lanzada a finales de 2025) y sigue siendo la palanca de costo más alto-EV para tráfico en producción.

**Cómo verificar antes de presupuestar**: abre docs.anthropic.com/en/docs/about-claude/pricing en cualquier navegador (sin autenticación requerida), copia la fila completa del modelo objetivo (entrada / escritura en caché 5 min / escritura en caché 1 hora / lectura en caché / salida) a una hoja de cálculo. Compara contra la tabla anterior. La transición Opus 4.7 → Opus 4.8 a principios de 2026 mantuvo los precios sin cambios, pero el cambio del tokenizador significa que los recuentos de tokens se movieron ~35% más alto para el mismo texto en inglés. Re-presupuesta si portaste desde prompts de era Claude 3 antiguo.

**Metodología reproducible**: el GEO Playbook que impulsa esta guía (2026-06-19) requiere que cada valor $ sea abastecido de la página del proveedor en vivo. Cada fila en la tabla anterior tiene una cita; cada ejemplo trabajado las referencia; los FAQs las reflejan. Si encuentras una discrepancia con la página en vivo, la página en vivo es canónica.

Cómo estimar el costo de cualquier llamada Claude API en 5 pasos

1
Estima tus tokens de entrada
Regla de oro: 1 token ≈ 4 caracteres ≈ 0,75 palabras en inglés. Ten en cuenta que Opus 4.7+ utilizan un nuevo tokenizador que produce ~35% más tokens que modelos Claude más antiguos para el mismo texto — factor esto cuando portes prompts desde Claude 3.x.
→ Open the Generador de prompts consciente de Claude
2
Estima tus tokens de salida
Palabras ÷ 0,75. La salida es 5x la entrada en cada modelo Claude, así que el volumen de salida impulsa la mayoría de la factura. Tapa salida con `max_tokens` en cualquier lugar que controles forma de consumo.
3
Busca los precios de entrada + caché + salida
De la tabla anterior: Sonnet 4.6 $3 / $15, Opus 4.8 $5 / $25, Haiku 4.5 $1 / $5, Fable 5 $10 / $50 por 1M. Las lecturas en caché se facturan al 10% de entrada. Las escrituras en caché se facturan 1,25x (5 min) o 2x (1 hora).
4
Decide qué prefijo cachear
Marca capas de prefijo estable con `cache_control: { type: 'ephemeral' }`: prompt de sistema, definiciones de herramientas, ejemplos few-shot. Cualquier cosa que no cambie entre llamadas dentro de minutos (caché de 5 min) u dentro de una hora (caché de 1 hora) pertenece detrás de un punto de ruptura de caché.
5
Aplica Batch API para cargas de trabajo asincrónicas
Si la salida se consume de forma asincrónica, hazla por lotes. 50% desc. en entrada + salida, apila con almacenamiento en caché. Envía JSONL; sondea para resultados dentro de 24 horas. Docs en vivo: docs.anthropic.com/en/docs/build-with-claude/batch-processing.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Generador de prompts sintonizado para Claude→Constructor de prompts de código (anclado en caché)→Calculadora de costos OpenAI API→Guía de migración OpenAI → Claude→

Frequently Asked Questions

¿Cuánto cuesta Claude Opus 4.8 por 1 millón de tokens en 2026?

A partir de junio de 2026, Claude Opus 4.8 cuesta $5,00 por 1M tokens de entrada y $25,00 por 1M tokens de salida vía la API de Anthropic. La tasa de escritura en caché de 1 hora es $10/1M; las lecturas en caché se facturan a $0,50/1M (10% de entrada). Fuente: página de precios API en vivo de Anthropic.

¿Cuánto cuesta Claude Sonnet 4.6 por llamada?

Una llamada de 1.000 entrada / 500 salida en Sonnet 4.6 cuesta (1000 / 1.000.000) × $3 + (500 / 1.000.000) × $15 = $0,003 + $0,0075 = $0,0105 por llamada. La misma llamada en Opus 4.8 es $0,0175, en Haiku 4.5 es $0,0035, en Fable 5 es $0,035.

¿Cómo funciona la facturación de almacenamiento en caché de prompts de Claude?

Anthropic ofrece dos TTLs de caché. La escritura en caché de 5 minutos se factura a 1,25x entrada base; la escritura en caché de 1 hora se factura a 2x entrada base. Las lecturas en caché siempre se facturan al 10% de entrada base — un descuento del 90%. El punto de equilibrio en la escritura en caché de 1 hora es 2 aciertos; todo después es ahorro puro. En Sonnet 4.6, un prefijo cacheado de 2.000 tokens leído 100 veces en una hora ahorra ~88% en la porción del prefijo de esas llamadas.

¿Es Claude más barato que OpenAI GPT-5?

En una llamada idéntica de 1.000 entrada / 500 salida: Sonnet 4.6 es $0,0105 vs gpt-5.4 en $0,010 — esencialmente idéntico. Haiku 4.5 es $0,0035 vs gpt-5.4-mini en $0,003 — también casi un empate. Claude gana decisivamente a escala cuando utilizas eficazmente el almacenamiento en caché de prompts (el TTL de 1 hora de Anthropic con puntos de ruptura explícitos a menudo vence al caché de prefijo oportunista de OpenAI). Para capa premium, Opus 4.8 ($5/$25) es materialmente más barato que gpt-5.5-pro ($30/$180).

¿Cuál es el descuento de Claude Batch API?

La Batch API de Anthropic reduce el 50% de ambas tasas de tokens de entrada y salida para trabajos asincronos completándose dentro de 24 horas. Envía un archivo JSONL de solicitudes de creación de mensajes vía el punto final de lotes; sondea o webhook para completación. Apila con almacenamiento en caché de prompts.

¿Cuánto cuesta la herramienta de búsqueda web de Claude?

$10 por 1.000 búsquedas, además de los cargos estándar de tokens de entrada/salida. Los resultados de búsqueda que Claude tira cuentan hacia tu factura de tokens de entrada en el turno siguiente — típicamente 500-2.000 tokens por resultado. Presupuesta ~$0,015 total por turno buscado en Sonnet 4.6.

¿Los tokens de Opus 4.7+ cuestan más debido al nuevo tokenizador?

La misma tasa por token, pero Opus 4.7 y Opus 4.8 utilizan un nuevo tokenizador que produce ~35% más tokens para el mismo texto en inglés vs modelos Claude 3.x. Si estás presupuestando desde una línea base de Claude 3 antiguo, multiplica los recuentos de tokens por 1,35 antes de aplicar las nuevas tasas. El código nuevo que comience en Opus 4.7+ no necesita ajustar — las estimaciones de tokens de bibliotecas equivalentes a tiktoken ya usan el nuevo tokenizador.

¿Puedo cachear definiciones de herramientas de Claude?

Sí — y deberías. Las definiciones de herramientas son a menudo la porción más grande de la entrada en cargas de trabajo agenticas. Coloca el punto de ruptura `cache_control` después del array de herramientas, no solo después del prompt de sistema. El error de almacenamiento en caché más común que vemos en Claude es cachear solo el prompt de sistema y dejar definiciones de herramientas de varios miles de tokens sin cachear en cada llamada.

Ejecuta prompts de Claude que realmente cachean.

Nuestro Generador de Prompts IA escribe prompts Opus/Sonnet/Haiku/Fable con el anclaje de caché arriba y etiquetas XML que prefiere Claude — basado en TU negocio + tarea. Prueba gratuita de 14 días, sin tarjeta.

Browse all prompt tools →