Claude se ejecuta en tres superficies de primera parte en 2026: la API directa de Anthropic en claude.com, AWS Bedrock, y Google Cloud Vertex AI. Las tasas de lista por token son esencialmente idénticas en las tres — Sonnet 4.6 es $3 entrada / $15 salida en cada plataforma, Opus 4.8 es $5 / $25, Haiku 4.5 es $1 / $5, Fable 5 es $10 / $50. Donde divergen es en todo lo demás al medidor: qué créditos puedes gastar, qué tan rápido llegan nuevos modelos, qué regiones sirven tráfico, cómo funciona la autenticación, y qué palancas de descuento realmente funcionan.
La facturación es la diferencia más consecuente para la mayoría de equipos de finanzas. El uso de Bedrock fluye a través de tu factura de AWS — elegible para créditos de AWS Activate (hasta $100k), compromisos del Programa de Descuento Empresarial (EDP), y el mecanismo de oferta privada de AWS Marketplace. El uso de Vertex AI fluye a través de tu factura de GCP — elegible para el Programa Google for Startups Cloud ($200k-$350k tiers), Compromisos de Uso Comprometido (CUDs), y créditos adyacentes de BigQuery. La API directa de Anthropic se factura a través de Anthropic directamente — elegible para el Programa de Startups de Anthropic (hasta $100k en créditos de Claude a través de programas socios como Y Combinator, Techstars, y similares) pero no portable a facturas de AWS o GCP. Una startup sentada en $80k de créditos de AWS sin usar que expiran en 6 meses tiene una respuesta clara: enruta Claude a través de Bedrock y quema los créditos antes de que se evaporen.
Ejemplo resuelto. Toma una startup de Serie A gastando $25,000/mes en Claude Sonnet 4.6 para una carga de trabajo de agente de producción — aproximadamente 1.4B tokens de entrada y 600M tokens de salida mensuales a tasas estándar. En la API directa, eso es $25,000 de efectivo fuera de la puerta. En Bedrock con $80,000 de créditos de AWS Activate, la misma factura de $25,000 tira hacia abajo créditos a 100% valor de cara — costo neto de efectivo $0 hasta que los créditos se agoten en el mes 3.2, un ahorro efectivo ~30% en un horizonte de 12 meses si los 8.8 meses restantes se facturan al precio de lista. En Vertex con un saldo de crédito de GCP similar, la matemática es idéntica. La lección: enruta Claude a donde vivan tus créditos de nube inactivos. Ejecuta `aws ce get-cost-and-usage` o la consola de facturación de GCP para ver qué realmente está expirando.
Los retrasos de disponibilidad del modelo varían. Los nuevos modelos de Claude casi siempre llegan a la API directa primero. Bedrock típicamente sigue 2-6 semanas después, a veces más para los niveles más grandes — Opus 4.8 llegó a la API directa en febrero de 2026 y solo aterrizó en Bedrock us-east-1 a finales de marzo. Vertex AI sigue el ritmo de Bedrock dentro de una semana o dos en cada lado. Si tu hoja de ruta de producto depende del acceso de día cero a un nuevo lanzamiento de Claude, la API directa es la única apuesta segura; Bedrock y Vertex son apropiados para cargas de trabajo de producción que pueden absorber un retraso de un mes en el modelo más reciente. La disponibilidad regional también difiere — Bedrock ahora sirve Claude desde us-east-1, us-west-2, eu-central-1, eu-west-3, ap-northeast-1, y ap-southeast-2; Vertex cubre us-central1, us-east5, europe-west4, y asia-northeast1; la API directa sirve globalmente desde el borde de Anthropic sin selección de región.
El soporte del caché de prompts y la API por lotes no están a la paridad. La API directa de Anthropic tiene la implementación de caché más madura — tanto TTLs de 5 minutos como de 1 hora, soporte completo en los cuatro niveles, y la semántica de precios más limpia (escritura 1.25x, lectura 0.1x). Bedrock soporta caché de prompts a partir de Q1 2026 pero con restricciones: TTL de 5 minutos solo en la mayoría de regiones, sin TTL de 1 hora en Haiku 4.5 hasta Q3 2026, y un tamaño mínimo de prefijo cacheable de 1,024 tokens versus 512 en la API directa. Vertex AI soporta caché con advertencias similares. La API por lotes existe en las tres, pero solo la API directa ofrece el descuento completo del 50% en cada nivel — Bedrock aplica el descuento a través de sus propios trabajos de Bedrock Batch Inference (mecánica similar, ocasionalmente descuento más pequeño en Fable 5), y Vertex usa su superficie de Batch Prediction. Si tu carga de trabajo depende fuertemente de cachear un prefijo del sistema de 600 tokens o apilar caché + batch para descuentos compuestos, la API directa aún gana en pura economía por 8-15%.
El control de acceso es el último eje. Bedrock se conecta a AWS IAM — puedes limitar una cuenta de servicio a un ARN de modelo específico, adjuntar SCPs a nivel de AWS Organization, y auditar cada invocación a través de CloudTrail. Vertex se conecta a IAM de GCP equivalentemente con Cloud Audit Logs. La API directa de Anthropic usa claves API con alcance de espacio de trabajo con límites de gasto por clave y paneles de uso, pero carece de la profundidad del motor de políticas que los equipos de seguridad empresariales esperan — sin SCP equivalente, sin ABAC, sin rotación de clave vinculada a SSO nativa en el nivel estándar. Para cargas de trabajo reguladas (HIPAA en AWS, adyacente a FedRAMP en GCP, pistas de auditoría SOC 2) las superficies del proveedor de nube típicamente ganan en postura de cumplimiento incluso cuando pierden en precio bruto. El patrón pragmático que ha emergido en la mayoría de equipos escalados: el tráfico de producción se ejecuta a través de Bedrock o Vertex por razones de facturación y cumplimiento, mientras que desarrollo, evaluación, e iteración de prompts se ejecutan a través de la API directa por velocidad y actualización de características.