Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Por el equipo de DDH · Digital Dashboard Hub

Precios de Anthropic Claude 2026: desglose de costos Opus, Sonnet, Haiku, Fable

By DDH Research Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

Anthropic cobra por token en cuatro niveles de Claude en 2026: Opus 4.8 a $5.00 entrada / $25.00 salida por 1M tokens, Sonnet 4.6 a $3.00 / $15.00, Haiku 4.5 a $1.00 / $5.00, y el nuevo modelo de razonamiento Fable 5 a $10.00 / $50.00. La salida se cotiza 5x entrada en cada nivel, en línea con el resto de la industria.

Dos palancas de costos son únicas de Claude y vale la pena conocerlas bien. El caché de prompts lee prefijos en caché a 0.1x la tasa base de entrada (un ahorro del 90% en la parte en caché), y la API por lotes reduce un 50% tanto la entrada como la salida para trabajos que pueden esperar. A continuación está la tabla completa, las fórmulas de caché, y la matemática $ para cargas de trabajo de 1k, 100k, y 1M llamadas. Confirma las tasas en la página de precios de Anthropic antes de presupuestar. Para redactar prompts que sobrevivan a un nivel más barato, prueba nuestro generador de prompts ChatGPT, o descarga el PDF gratis de hoja de referencia de precios LLM 2026.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Precio de Claude API por 1M tokens — junio 2026

Feature
Entrada ($/1M)
Cache write 5m ($/1M)
Cache write 1h ($/1M)
Cache read ($/1M)
Salida ($/1M)
Claude Fable 5$10.00$12.50$20.00$1.00$50.00
Claude Opus 4.8$5.00$6.25$10.00$0.50$25.00
Claude Sonnet 4.6$3.00$3.75$6.00$0.30$15.00
Claude Haiku 4.5$1.00$1.25$2.00$0.10$5.00

Fuentes, a partir de junio de 2026: Precios de Anthropic (https://claude.com/pricing) y detalles de precios de API de Anthropic (https://platform.claude.com/docs/en/about-claude/pricing). El cache write cuesta 1.25x la entrada base para un TTL de 5 minutos y 2x la entrada base para un TTL de 1 hora; cache read (un acierto) cuesta 0.1x la entrada base. La API por lotes aplica un descuento adicional del 50% además de cualquier tarifa anterior. Los precios cambian frecuentemente — confirma en la página de precios en vivo.

El modelo de precios de Claude en 90 segundos

Tres líneas en cada factura de Claude: entrada base, salida base, y actividad de caché de prompts (dividida en escrituras de caché y lecturas de caché). Las solicitudes de la API por lotes aplican un descuento plano del 50% además de cualquier línea que corten.

Fórmula base:

``` cost = (input_tokens / 1,000,000) * input_price_per_M + (output_tokens / 1,000,000) * output_price_per_M ```

Con caché, la línea de entrada se divide. Algunos de tus tokens de entrada son lecturas de caché (aciertos), facturados a 0.1x entrada base. Algunos son escrituras de caché — la primera solicitud para rellenar un nuevo prefijo — facturadas a 1.25x entrada base para el TTL de 5 minutos predeterminado o 2x para el TTL de 1 hora. El resto se factura a entrada base.

El caché se amortiza cuando la porción en caché es lo suficientemente grande y se repite lo suficiente como para amortizar el costo de escritura. Una regla útil: si esperas 10+ lecturas del mismo prefijo dentro de la ventana de caché, el caché es casi con certeza neto positivo. Por debajo de 3 lecturas, típicamente no lo es. Consulta la documentación de caché de Anthropic para las reglas de elegibilidad exactas.


Ejemplo resuelto 1: una llamada 1,000 entrada / 500 salida en cada nivel

Toma la llamada de referencia estándar — 1,000 tokens de entrada, 500 tokens de salida — y calcula el costo por llamada a tasas estándar en cada modelo Claude:

Claude Fable 5: (0.001 × $10) + (0.0005 × $50) = $0.010 + $0.025 = $0.035 por llamada. Claude Opus 4.8: (0.001 × $5) + (0.0005 × $25) = $0.005 + $0.0125 = $0.0175 por llamada. Claude Sonnet 4.6: $0.003 + $0.0075 = $0.0105 por llamada. Claude Haiku 4.5: $0.001 + $0.0025 = $0.0035 por llamada.

Haiku 4.5 es 10x más barato que Fable 5 en la misma llamada y aproximadamente 5x más barato que Opus 4.8. Para la mayoría de tareas de salida estructurada de alto volumen — clasificación, extracción, resumen, Q&A simple — Haiku 4.5 es el punto de partida correcto. Sube a Sonnet 4.6 cuando la precisión comience a limitar la calidad, no antes.

Si quieres redactar prompts lo suficientemente ceñidos para que Haiku coincida con la calidad de Sonnet, nuestro constructor de código de prompts y generador de meta-descripciones ayudan a comprimir instrucciones sin perder señal.


Ejemplo resuelto 2: escalado a 100,000 y 1,000,000 llamadas

Multiplica los números por llamada por 100,000 (trabajo por lotes típico) y 1,000,000 (carga de trabajo completa de producción):

100k llamadas — Fable 5: $3,500. Opus 4.8: $1,750. Sonnet 4.6: $1,050. Haiku 4.5: $350.

1M llamadas — Fable 5: $35,000. Opus 4.8: $17,500. Sonnet 4.6: $10,500. Haiku 4.5: $3,500.

Aplica el descuento de la API por lotes (-50%) a la fila Sonnet 4.6 en 1M llamadas: $10,500 se convierte en $5,250. Aplica caché de prompts donde 800 de cada 1,000 tokens de entrada son un prefijo de sistema estable que acierta caché el 90% de las veces y lo escribes una vez por millón de llamadas. De los 1B tokens de entrada, 720M son lecturas de caché a $0.30/1M = $216, 80M son escrituras de caché a $3.75/1M = $300, y 200M son entrada base sin caché a $3/1M = $600. La entrada total baja de $3,000 a $1,116 — un ahorro del 63% en entrada sola, o aproximadamente el 18% de la factura completa de $10,500. Apila con Batch y la misma carga de trabajo corre aproximadamente $4,200.

Golpea ambos descuentos cuando puedas. La matemática se compone rápidamente en cargas de trabajo con prompts de sistema estables.


Cuándo elegir Opus, Sonnet, Haiku, o Fable

Claude Opus 4.8 ($5/$25) está construido para problemas duros — razonamiento multietapa sobre contexto largo, síntesis de código complejo, bucles de agentes que necesitan planificar más de un paso adelante. La prima del 5x sobre Sonnet 4.6 vale la pena cuando una única respuesta equivocada cuesta más que la diferencia de precio en toda la carga de trabajo. La mayoría de equipos usan Opus selectivamente, no como valor predeterminado.

Claude Sonnet 4.6 ($3/$15) es el caballo de batalla para chat de producción, generación de contenido, escritura de forma larga, y la mayoría de bucles de agentes. Sonnet iguala o supera la calidad de Opus de finales de 2024 a un tercio del costo, lo cual es por qué muchos equipos que usaban Opus de forma predeterminada en 2024 movieron su tráfico principal a Sonnet en 2026.

Claude Haiku 4.5 ($1/$5) maneja tareas de salida estructurada que no requieren razonamiento profundo — clasificación, extracción, análisis de sentimiento, Q&A simple. A $0.0035 por llamada 1,000/500, es el nivel de mayor volumen en la mayoría de implementaciones de producción. Úsalo como primer intento; promueve a Sonnet solo cuando la precisión lo exija.

Claude Fable 5 ($10/$50) es el nuevo modelo de razonamiento pesado introducido a principios de 2026. Esconde tokens de cadena de pensamiento detrás de la tasa de salida de la manera que lo hace la serie o de OpenAI, así que espera 3-5x la factura de token de salida visible en problemas duros. Usa solo cuando la tarea se beneficia activamente del razonamiento extendido — planificación agente, verificación pesada en matemática, refactorizaciones de código complejo. Para generación directa, Sonnet 4.6 es más barato y lo suficientemente bueno.


Caché de prompts: la palanca que la mayoría de equipos subutilizan

El caché de prompts de Anthropic te permite marcar porciones de una solicitud como cacheable; solicitudes posteriores dentro del TTL de caché que compartan el mismo prefijo obtienen esos tokens facturados a 0.1x entrada base. El precio de una escritura de caché es 1.25x entrada base (TTL de 5 minutos) o 2x entrada base (TTL de 1 hora).

Dos formas de prompt ganan más del caché. Primero, un mensaje de sistema largo fijo — instrucciones, guía de estilo, ejemplos, taxonomía — repetido a través de miles de turnos de usuario. Segundo, un documento de referencia estable — un contrato, una especificación de producto, un fragmento de base de conocimiento — que consultas repetidamente. Mueve el texto estable al frente del prompt, márcalo como elegible para caché, y el caché hará el resto.

Matemática del punto de equilibrio: en Sonnet 4.6, un prompt del sistema de 10,000 tokens cuesta $0.03 para leer sin caché, $0.0375 para escribir en un caché de 5 minutos, y $0.003 para leer desde caché. Si ese prefijo se reutiliza 3 veces dentro de 5 minutos, ahorras (3 × $0.03) - ($0.0375 + 3 × $0.003) = $0.0375 — ya neto positivo después de 3 lecturas. Con 100 lecturas por ciclo de vida de caché, ahorras $2.96 por ciclo de escritura.

El caché no ayuda si tu prefijo es único en cada llamada, si la porción variable se sienta al frente del prompt, o si llamas el mismo prefijo menos de 2-3 veces por ventana de caché. Audita tus formas de prompt antes de activarlo. Consulta la documentación de caché de prompts de Anthropic para las reglas de colocación exactas.


API por lotes: 50% descuento, entrega en 24 horas

La API por lotes de Anthropic acepta un archivo JSONL de solicitudes y devuelve resultados dentro de 24 horas a la mitad de las tasas estándar de entrada y salida. El descuento se aplica además de cualquier actividad de caché, así que los dos se apilan limpiamente.

Encajes canónicos: resumen nocturno de tickets de ayer, clasificación semanal de leads entrantes, enriquecimiento mensual de contactos CRM, pases de enriquecimiento único sobre datos históricos, auditorías de contenido periódicas, grandes ejecuciones de eval contra la alineación de modelos. Cualquier cosa que no tenga que devolverse en segundos es candidata.

Matemática resuelto: un trabajo de resumen Sonnet 4.6 de 1M llamadas a la tasa estándar cuesta $10,500. Presentado a través de Batch, el mismo trabajo cuesta $5,250 — una reducción de costo de $5,250 por aceptar un SLA de 24 horas. Si el trabajo ya está corriendo en un cron nocturno, el descuento es dinero gratis.

Anti-encajes: chat en vivo, agentes de voz, cualquier cosa en un embudo de pago, cualquier cosa donde un humano esté esperando la respuesta en tiempo real. La ventana de 24 horas mata la experiencia del usuario allí. Confirma los términos actuales de Batch contra la documentación de batch de Anthropic.


Cómo comparan los precios de Claude con OpenAI y Gemini

Sonnet 4.6 ($3/$15) se sitúa por debajo de gpt-5.5 ($5/$30) tanto en entrada como en salida, lo que lo convierte en la opción más barata para cargas de trabajo de chat general de calidad equivalente. Opus 4.8 ($5/$25) se alinea con gpt-5.5 en entrada pero es más barato en salida, lo que importa porque la salida domina la mayoría de facturas.

Haiku 4.5 ($1/$5) es más caro que gpt-5.4-mini ($0.75/$4.50) y sustancialmente más caro que Gemini 2.5 Flash ($0.30/$2.50). Para cargas de trabajo de nivel barato de alto volumen, Gemini 2.5 Flash es el líder de precios; Haiku 4.5 gana en calidad por dólar en muchas evals reales. La opción correcta depende de cuál dimensión importa más para tu carga de trabajo — ejecuta una eval lado a lado antes de comprometerte.

Fable 5 ($10/$50) se superpone con el nivel de razonamiento OpenAI o4 ($15/$60) en el extremo superior del mercado de razonamiento — modestamente más barato, con contexto efectivo más largo y recuperación de documentos largos más fuerte en evals publicados. Consulta nuestro lado a lado completo en el calculadora de costos GPT vs Claude vs Gemini y en páginas de proveedores individuales para OpenAI y la próxima página de precios de Gemini.


Uso de herramientas, visión, y las cosas que las personas olvidan presupuestar

Las llamadas de herramientas se facturan como tokens de salida — el nombre de la función, los argumentos, y el resultado de la herramienta que repites en el siguiente turno. Un bucle de agente con 6 llamadas de herramientas antes de la respuesta final puede facturar 8-10x la salida de un turno de respuesta directa. Si tu agente ejecuta 1,000 bucles por día en Sonnet 4.6 con 6 llamadas de herramientas cada una promediando 200 tokens, eso es 1.2M tokens de salida extra por día, o aproximadamente $18 por día además del tráfico base.

Las entradas de visión se facturan a la tasa de entrada estándar, con imágenes convertidas a tokens por resolución. Una imagen de 1024×1024 se factura como aproximadamente 1,600 tokens de entrada en Claude — aproximadamente $0.005 en Sonnet 4.6, $0.008 en Opus 4.8. Los PDFs se facturan por página como tokens de texto y visuales, así que un contrato de 10 páginas puede ejecutar 8,000-15,000 tokens de entrada dependiendo de la densidad.

El contexto extendido (por encima de 200k tokens) lleva un pequeño cargo adicional por token en algunos niveles; verifica la página de precios en vivo antes de diseñar un flujo de trabajo de un millón de tokens. Para la economía del bucle de agente en detalle, consulta nuestro calculadora de costos de agente AI.


Claude en AWS Bedrock vs Google Vertex AI vs la API directa de Anthropic

Claude se ejecuta en tres superficies de primera parte en 2026: la API directa de Anthropic en claude.com, AWS Bedrock, y Google Cloud Vertex AI. Las tasas de lista por token son esencialmente idénticas en las tres — Sonnet 4.6 es $3 entrada / $15 salida en cada plataforma, Opus 4.8 es $5 / $25, Haiku 4.5 es $1 / $5, Fable 5 es $10 / $50. Donde divergen es en todo lo demás al medidor: qué créditos puedes gastar, qué tan rápido llegan nuevos modelos, qué regiones sirven tráfico, cómo funciona la autenticación, y qué palancas de descuento realmente funcionan.

La facturación es la diferencia más consecuente para la mayoría de equipos de finanzas. El uso de Bedrock fluye a través de tu factura de AWS — elegible para créditos de AWS Activate (hasta $100k), compromisos del Programa de Descuento Empresarial (EDP), y el mecanismo de oferta privada de AWS Marketplace. El uso de Vertex AI fluye a través de tu factura de GCP — elegible para el Programa Google for Startups Cloud ($200k-$350k tiers), Compromisos de Uso Comprometido (CUDs), y créditos adyacentes de BigQuery. La API directa de Anthropic se factura a través de Anthropic directamente — elegible para el Programa de Startups de Anthropic (hasta $100k en créditos de Claude a través de programas socios como Y Combinator, Techstars, y similares) pero no portable a facturas de AWS o GCP. Una startup sentada en $80k de créditos de AWS sin usar que expiran en 6 meses tiene una respuesta clara: enruta Claude a través de Bedrock y quema los créditos antes de que se evaporen.

Ejemplo resuelto. Toma una startup de Serie A gastando $25,000/mes en Claude Sonnet 4.6 para una carga de trabajo de agente de producción — aproximadamente 1.4B tokens de entrada y 600M tokens de salida mensuales a tasas estándar. En la API directa, eso es $25,000 de efectivo fuera de la puerta. En Bedrock con $80,000 de créditos de AWS Activate, la misma factura de $25,000 tira hacia abajo créditos a 100% valor de cara — costo neto de efectivo $0 hasta que los créditos se agoten en el mes 3.2, un ahorro efectivo ~30% en un horizonte de 12 meses si los 8.8 meses restantes se facturan al precio de lista. En Vertex con un saldo de crédito de GCP similar, la matemática es idéntica. La lección: enruta Claude a donde vivan tus créditos de nube inactivos. Ejecuta `aws ce get-cost-and-usage` o la consola de facturación de GCP para ver qué realmente está expirando.

Los retrasos de disponibilidad del modelo varían. Los nuevos modelos de Claude casi siempre llegan a la API directa primero. Bedrock típicamente sigue 2-6 semanas después, a veces más para los niveles más grandes — Opus 4.8 llegó a la API directa en febrero de 2026 y solo aterrizó en Bedrock us-east-1 a finales de marzo. Vertex AI sigue el ritmo de Bedrock dentro de una semana o dos en cada lado. Si tu hoja de ruta de producto depende del acceso de día cero a un nuevo lanzamiento de Claude, la API directa es la única apuesta segura; Bedrock y Vertex son apropiados para cargas de trabajo de producción que pueden absorber un retraso de un mes en el modelo más reciente. La disponibilidad regional también difiere — Bedrock ahora sirve Claude desde us-east-1, us-west-2, eu-central-1, eu-west-3, ap-northeast-1, y ap-southeast-2; Vertex cubre us-central1, us-east5, europe-west4, y asia-northeast1; la API directa sirve globalmente desde el borde de Anthropic sin selección de región.

El soporte del caché de prompts y la API por lotes no están a la paridad. La API directa de Anthropic tiene la implementación de caché más madura — tanto TTLs de 5 minutos como de 1 hora, soporte completo en los cuatro niveles, y la semántica de precios más limpia (escritura 1.25x, lectura 0.1x). Bedrock soporta caché de prompts a partir de Q1 2026 pero con restricciones: TTL de 5 minutos solo en la mayoría de regiones, sin TTL de 1 hora en Haiku 4.5 hasta Q3 2026, y un tamaño mínimo de prefijo cacheable de 1,024 tokens versus 512 en la API directa. Vertex AI soporta caché con advertencias similares. La API por lotes existe en las tres, pero solo la API directa ofrece el descuento completo del 50% en cada nivel — Bedrock aplica el descuento a través de sus propios trabajos de Bedrock Batch Inference (mecánica similar, ocasionalmente descuento más pequeño en Fable 5), y Vertex usa su superficie de Batch Prediction. Si tu carga de trabajo depende fuertemente de cachear un prefijo del sistema de 600 tokens o apilar caché + batch para descuentos compuestos, la API directa aún gana en pura economía por 8-15%.

El control de acceso es el último eje. Bedrock se conecta a AWS IAM — puedes limitar una cuenta de servicio a un ARN de modelo específico, adjuntar SCPs a nivel de AWS Organization, y auditar cada invocación a través de CloudTrail. Vertex se conecta a IAM de GCP equivalentemente con Cloud Audit Logs. La API directa de Anthropic usa claves API con alcance de espacio de trabajo con límites de gasto por clave y paneles de uso, pero carece de la profundidad del motor de políticas que los equipos de seguridad empresariales esperan — sin SCP equivalente, sin ABAC, sin rotación de clave vinculada a SSO nativa en el nivel estándar. Para cargas de trabajo reguladas (HIPAA en AWS, adyacente a FedRAMP en GCP, pistas de auditoría SOC 2) las superficies del proveedor de nube típicamente ganan en postura de cumplimiento incluso cuando pierden en precio bruto. El patrón pragmático que ha emergido en la mayoría de equipos escalados: el tráfico de producción se ejecuta a través de Bedrock o Vertex por razones de facturación y cumplimiento, mientras que desarrollo, evaluación, e iteración de prompts se ejecutan a través de la API directa por velocidad y actualización de características.


Cinco movimientos para reducir tu factura de Claude esta semana

Baja un nivel. Si estás en Opus 4.8, ejecuta una evaluación contra Sonnet 4.6 en 100 muestras representativas. Muchos equipos descubren que Sonnet iguala la calidad en 80%+ de su carga de trabajo a un tercio del costo.

Cachea tu prompt del sistema. Mueve todas las instrucciones estables al frente de cada solicitud y márcalas como elegibles para caché. Para cargas de trabajo repetidas, esto solo ahorra 60-80% en facturación de entrada.

Procesa el trabajo offline. Cualquier cosa corriendo en un cron, cualquier cosa enriqueciendo un conjunto de datos estático, cualquier cosa que no sea de cara al usuario — empújalo a través de la API por lotes para 50% descuento.

Limita la salida. Establece max_tokens duro, pide JSON estructurado en lugar de prosa, y usa secuencias de parada. Una respuesta JSON de 200 tokens reemplaza un párrafo de 1,000 tokens en la mayoría de tareas de extracción — una reducción de salida de 5x.

Audita tu ruta más cara. La mayoría de equipos tienen una ruta consumiendo 50-70% del gasto total; la auditoría generalmente detecta un evidente downgrade de nivel de modelo o una reestructura de prompt que reduce la factura 30-50%.

Frequently Asked Questions

¿Cuál es el modelo Claude más barato en 2026?

Claude Haiku 4.5 a $1 entrada / $5 salida por 1M tokens es el nivel más barato en la alineación. Es aproximadamente 5x más barato que Opus 4.8 y 3x más barato que Sonnet 4.6 en salida. Confirma contra la página de precios de Anthropic.

¿Cuánto ahorro el caché de prompts en Claude?

Las lecturas de caché (aciertos) se facturan a 0.1x entrada base — un ahorro del 90% en la porción en caché. Las escrituras de caché cuestan 1.25x entrada base para un TTL de 5 minutos o 2x para un TTL de 1 hora, así que el caché es neto positivo cuando un prefijo se reutiliza al menos 2-3 veces dentro de la ventana de caché.

¿Se apila la API por lotes con el caché de prompts?

Sí — el descuento de 50% de Batch se aplica además de tasas de lectura y escritura de caché. Una lectura de caché de Sonnet 4.6 a través de Batch cuesta $0.15/1M en lugar de $0.30/1M. Confirma el comportamiento actual en la documentación de batch de Anthropic.

¿Es Claude más barato que OpenAI en 2026?

Sonnet 4.6 ($3/$15) es más barato que gpt-5.5 ($5/$30) tanto en entrada como en salida. Opus 4.8 ($5/$25) iguala gpt-5.5 en entrada pero es más barato en salida. Haiku 4.5 ($1/$5) es ligeramente más caro que gpt-5.4-mini ($0.75/$4.50). Consulta la comparación completa en nuestro calculadora GPT vs Claude vs Gemini.

¿Por qué la salida de Claude es 5x más cara que la entrada?

Generar tokens requiere un pase directo completo por token mientras que los tokens de entrada se procesan en un pase por lotes único. Anthropic cotiza la salida a 5x entrada en cada nivel de Claude, ligeramente más ajustado que la relación 6x común en la alineación de OpenAI.

¿Para qué es Claude Fable 5?

Fable 5 ($10/$50) es el nivel de razonamiento pesado introducido a principios de 2026. Genera tokens de cadena de pensamiento ocultos facturados a la tasa de salida, similar a la serie o de OpenAI. Úsalo para tareas de razonamiento duro (planificación, matemática, código complejo) donde la cadena de pensamiento mejora materialmente la precisión; Sonnet 4.6 es más barato para generación directa.

¿Cuánto cuesta la visión y las entradas de PDF?

Las entradas de imagen se facturan a la tasa de entrada estándar, con una imagen de 1024×1024 convertida a aproximadamente 1,600 tokens — aproximadamente $0.005 en Sonnet 4.6. Los PDFs se facturan por página como tokens de texto y visuales, típicamente 800-1,500 tokens por página dependiendo de la densidad.

¿Cómo estimo el costo de Claude antes de enviar una solicitud?

Usa cost = (input_tokens / 1M × input_price) + (output_tokens / 1M × output_price). Estima el recuento de tokens como caracteres ÷ 4 o palabras ÷ 0.75. Para un recorrido resuelto con precios actuales de Claude, consulta nuestro calculadora de costos de prompts AI.

¿Es Claude más barato en AWS Bedrock o en la API directa de Anthropic?

Las tasas de lista por token son idénticas — Sonnet 4.6 es $3 entrada / $15 salida en ambas. La diferencia práctica es qué créditos puedes aplicar. Si tienes créditos sin usar de AWS Activate o un compromiso de EDP, Bedrock es efectivamente más barato porque el gasto tira créditos a valor de cara. Si tienes créditos del Programa de Startups de Anthropic o no tienes créditos de proveedores de nube en absoluto, la API directa gana en profundidad de caché (TTL de 1 hora, prefijo mínimo de 512 tokens) y acceso a modelos el primer día. Los lanzamientos nuevos de Claude típicamente llegan a Bedrock 2-6 semanas después de la API directa.

¿Soporta Claude en Vertex AI caché de prompts y la API por lotes?

Sí — ambos están disponibles en Vertex AI en 2026, pero con advertencias relativas a la API directa de Anthropic. El caché de Vertex es TTL de 5 minutos solo en la mayoría de regiones con un prefijo mínimo de 1,024 tokens versus 512 en la API directa. Batch se ejecuta a través de Vertex Batch Prediction con mecánica similar de descuento del 50%. Los dos se apilan limpiamente. Para el apilamiento máximo de descuentos — caché + batch en cada nivel — la API directa aún tiene una ventaja de precio bruto de 8-15%, aunque a menudo se ve superada por la disponibilidad de créditos de GCP para equipos ya en Google Cloud.

¿Qué superficie de Claude uso para cargas de trabajo HIPAA o SOC 2?

AWS Bedrock y Google Vertex AI heredan ambos la postura de cumplimiento de su nube matriz — elegible para HIPAA en Bedrock con un BAA firmado de AWS, elegible para HIPAA en Vertex con un BAA firmado de GCP, con CloudTrail y Cloud Audit Logs proporcionando las pistas de auditoría a nivel de solicitud que la mayoría de auditores esperan. La API directa de Anthropic ofrece un BAA de HIPAA en el nivel Enterprise pero con una superficie del motor de políticas más delgada (sin equivalente de SCP, sin ABAC). Para tráfico de producción regulado, la mayoría de equipos escalados enrutan a través de Bedrock o Vertex; para desarrollo y evaluación, la API directa está bien.

Obtén la hoja de referencia de precios LLM 2026

PDF de una página con cada nivel de Claude, la matemática de caché + batch, y las fórmulas — gratuito, sin puerta de registro. O explora nuestras 40+ herramientas de ingeniería de prompts para redactar prompts más baratos y más ajustados.

Browse all prompt tools →

Biblioteca gratuita de prompts — más de 100 prompts listos para copiar

Prompts seleccionados cada semana para ChatGPT, Claude, Midjourney y DALL·E. Sin spam. Cancela cuando quieras.

Sin spam. Un correo por semana. Más de ~12.000 usuarios de prompts ya suscritos.