Las tarjetas de precios anunciadas son abstractas. Lo que los equipos realmente quieren saber es: en mi carga de trabajo, ¿cuál es la factura mensual? Los tres estudios de caso siguientes caminan a través de cargas de trabajo de producción reales y realistas con entrada pesada, equilibrada y salida pesada a volúmenes mensuales realistas. Todos los números se calculan directamente desde la tarjeta de tarifa estándar; las figuras cacheadas y en batch aplican la pila de descuentos de la sección anterior (aciertos de caché al 10% de la tarifa de entrada en el 80% de los tokens de entrada; Batch API al 50% menos en entrada y salida donde el proveedor lo ofrece).
Estudio de caso 1 — Northwind Marketing, resumen de tickets de soporte al cliente. El equipo ingiere 1M tickets de soporte por mes desde Zendesk y ejecuta cada uno a través de un LLM que extrae producto, sentimiento, causa raíz y un tema de una línea. La carga de trabajo es muy entrada-sesgada: 4.000 tokens de entrada por llamada (la transcripción del ticket más la taxonomía de referencia) y 200 tokens de salida (JSON estructurado). Facturas mensuales a tarifa estándar con 1M llamadas: Claude Sonnet 4.6 = (4.000/1M × $3 × 1M) + (200/1M × $15 × 1M) = $12.000 + $3.000 = $15.000. gpt-5.4-mini = (4.000/1M × $0,75 × 1M) + (200/1M × $4,50 × 1M) = $3.000 + $900 = $3.900. Gemini 2.5 Flash = (4.000/1M × $0,30 × 1M) + (200/1M × $2,50 × 1M) = $1.200 + $500 = $1.700. Aplica la pila de descuentos. La taxonomía es idéntica en todas las 1M llamadas — aproximadamente 2.500 de los 4.000 tokens de entrada cachean limpiamente. Sonnet cacheado + en batch aterriza cerca de $4.100/mes. gpt-5.4-mini cacheado + en batch aterriza cerca de $1.050/mes. Gemini 2.5 Flash no tiene Batch API y mecánica de caché más débil, así que se sitúa en aproximadamente $1.400/mes. Ganador: gpt-5.4-mini. Está dentro del 25% de Gemini Flash en costo bruto pero añade Batch API y almacenamiento en caché de prompts más fuerte, y en la evaluación interna de Northwind anotó 94% taxonomía-correcto versus 89% para Gemini Flash. La prima de $350/mes se amortiza a sí misma en ahorros de cola de revisión.
Estudio de caso 2 — Cascade SaaS, chatbot en el producto para una herramienta de análisis de 220k usuarios. El chatbot maneja 500k conversaciones de usuario por mes, promedio dos turnos por sesión, así que 1M llamadas LLM. La carga de trabajo está equilibrada en 1.500 tokens de entrada / 500 tokens de salida — típico para chat aumentado por recuperación con tres fragmentos de contexto. Facturas mensuales a tarifa estándar con 1M llamadas: gpt-5.5 = (1.500/1M × $5 × 1M) + (500/1M × $30 × 1M) = $7.500 + $15.000 = $22.500. Sonnet 4.6 = (1.500/1M × $3) + (500/1M × $15) todo multiplicado por 1M = $4.500 + $7.500 = $12.000. Gemini 2.5 Pro = (1.500/1M × $1,25) + (500/1M × $10) todo multiplicado por 1M = $1.875 + $5.000 = $6.875. Cascade no puede usar Batch API — el chat es sincrónico — así que la pila de descuentos es solo caché. El prompt del sistema más los documentos del producto totalizan 900 de los 1.500 tokens de entrada y cachean confiablemente. Sonnet cacheado reduce la entrada de $4.500 a aproximadamente $1.170 (600 no cacheado a $3 + 900 cacheado a $0,30), factura mensual total $8.670. gpt-5.5 cacheado baja a aproximadamente $14.700. El soporte de caché de Gemini 2.5 Pro es implícito en tiempo real y menos agresivo, así que su factura cacheada aterriza cerca de $5.600. Ganador: Sonnet 4.6. Gemini Pro es $3.000/mes más barato pero la evaluación ciega de Cascade anotó Sonnet 4.6 a 4,6/5 en calidad de respuesta versus 4,1/5 para Gemini Pro, y la diferencia de costo por conversación ($0,006 vs $0,011) es superada por el impacto LTV de un mejor chatbot en un producto de $99/asiento. gpt-5.5 fue eliminado por costo — no ofreció ventaja de calidad medible sobre Sonnet con casi el doble de la factura.
Estudio de caso 3 — Mesa AI, una startup de herramientas para desarrolladores que ejecuta un asistente de codificación que procesa 200k completados por día (6M llamadas por mes). La carga de trabajo es pesada en salida: 2.000 tokens de entrada (contexto de archivo reciente más diff de buffer abierto) y 1.500 tokens de salida (el parche sugerido). Facturas mensuales a tarifa estándar con 6M llamadas: gpt-5.4 = (2.000/1M × $2,50 × 6M) + (1.500/1M × $15 × 6M) = $30.000 + $135.000 = $165.000. Sonnet 4.6 = (2.000/1M × $3 × 6M) + (1.500/1M × $15 × 6M) = $36.000 + $135.000 = $171.000. Claude Fable 5 = (2.000/1M × $10 × 6M) + (1.500/1M × $50 × 6M) = $120.000 + $450.000 = $570.000. DeepSeek V4 a la estimación de $0,40/$1,20 = (2.000/1M × $0,40 × 6M) + (1.500/1M × $1,20 × 6M) = $4.800 + $10.800 = $15.600. El diferencial es aproximadamente 36x entre DeepSeek y Fable. Aplica la pila: la finalización de código es sincrónica así que Batch API no se aplica; el almacenamiento en caché ayuda modestamente en el lado de la entrada (alrededor del 30% elegible para caché), afeitando $9.000-$11.000 de la factura de entrada para OpenAI y Anthropic. Mesa ejecutó una evaluación ciega en 800 muestras internas de finalización: gpt-5.4 alcanzó el 71% de aceptación, Sonnet 4.6 alcanzó el 73%, Fable 5 alcanzó el 79%, DeepSeek V4 alcanzó el 64%. Ganador: una estrategia de enrutamiento por tiers, no un solo modelo. Mesa enruta el 75% de finalizaciones (una línea, en buffer) a DeepSeek V4 a aproximadamente $11.700/mes para esa porción, enruta el 20% (refactores multi-línea) a Sonnet 4.6 a aproximadamente $32.000/mes, y reserva el 5% (reescrituras de archivo completo y explain-and-fix) para Fable 5 a aproximadamente $25.000/mes. Factura mensual combinada: aproximadamente $68.700 con aceptación combinada del 74% — versus $165.000 en gpt-5.4 solo por un punto menos de aceptación, o $570.000 en Fable solo por cinco puntos más.
Lo que revelan los tres casos. En cargas de trabajo entrada-pesada los tiers baratos dominan porque la salida es un redondeo — gpt-5.4-mini, Gemini Flash, y Haiku 4.5 son los contendientes, y la elección generalmente se reduce a cuál de la historia de almacenamiento en caché y batch del proveedor se ajusta mejor a la tubería. En cargas de trabajo sincrónicas equilibradas el tier medio gana porque las diferencias de calidad se muestran en métricas de cara al usuario y el diferencial absoluto es lo suficientemente pequeño que el ganador ajustado por calidad generalmente vence a la opción más barata — Sonnet 4.6 y Gemini 2.5 Pro son los aterrizajes más comunes. En cargas de trabajo salida-pesada ningún modelo único gana; el enrutamiento por tipo de tarea vence a elegir un modelo en 30-60% casi siempre, porque el costo de salida es lo suficientemente grande que el modelo barato maneja la porción fácil y paga por el modelo costoso en la porción dura.
Dos verificaciones aritméticas que vale la pena mantener en tu mente. Primero, la regla de oro de costo por llamada: multiplica tokens de entrada (en miles) por precio de entrada (por 1M, en dólares) y divide por 1.000 para obtener dólares de entrada por llamada; lo mismo para salida. Con 1M llamadas por mes el costo por llamada en centavos es aproximadamente igual a la factura mensual en decenas de miles de dólares — una llamada de 2 centavos es aproximadamente $20k/mes con 1M llamadas. Segundo, los ahorros de caché están limitados por la porción de entrada del costo. En el caso de Mesa, la entrada es solo el 18% de la factura en Sonnet — el almacenamiento en caché no puede ahorrar más de $6.500/mes sin importar cuán agresiva sea la tasa de acierto de caché. En el caso de Northwind, la entrada es el 80% de la factura — el almacenamiento en caché es la palanca de impacto único más alto.
Resumen de una línea de cuándo cada proveedor tiende a ganar en 2026. OpenAI gana cargas de trabajo equilibradas donde características del ecosistema (búsqueda de archivos, intérprete de código, salidas estructuradas) importan y el presupuesto tolera la prima. Anthropic gana cargas de trabajo de contexto largo y agentivo donde la calidad por dólar de Sonnet y el control de caché explícito se combinan. Google gana cargas de trabajo entrada-pesada y multimodal donde el costo por token bruto y el contexto de 2M+ son la restricción. Los proveedores de código abierto y presupuesto como DeepSeek ganan la porción fácil de cualquier estrategia de enrutamiento por tiers.