Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Por el equipo de DDH · Digital Dashboard Hub

Calculadora de costos: GPT vs Claude vs Gemini — Desglose por llamada (2026)

By DDH Research Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

Los tres proveedores principales — OpenAI, Anthropic y Google — cobran las llamadas a la API por millones de tokens, con tarifas separadas para entrada y salida. A partir de junio de 2026, el diferencial de costo por llamada en una carga de trabajo representativa de 1.000 entrada / 500 salida es de aproximadamente 200x: Gemini 2.5 Flash-Lite a $0,00030 por llamada, gpt-5.5-pro a $0,120, con todo lo demás distribuido en el medio.

El costo rara vez decide la elección final del modelo por sí solo — la calidad y la latencia están empatadas en primer lugar — pero en barras de calidad equivalentes el modelo correcto suele ser 3-10x más barato que el predeterminado que elige la mayoría de equipos. A continuación encontrarás la fórmula, tablas de costo lado a lado en tres tamaños de carga de trabajo, el descuento combinado (batch + cache) aplicado, y orientación sobre cuándo cambiar de proveedor. Para una estimación rápida, nuestra calculadora de costos de prompts toma tu conteo de tokens y devuelve el costo en dólares; la hoja de trucos PDF gratuita imprime la tabla completa para tu monitor.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Costo por llamada entre GPT, Claude, Gemini — junio de 2026, carga de trabajo de referencia 1.000 entrada / 500 salida

Feature
Entrada $/1M
Salida $/1M
Costo por llamada
Por 1M llamadas
OpenAI gpt-5.5-pro$30.00$180.00$0.12000$120,000
OpenAI gpt-5.5$5.00$30.00$0.02000$20,000
OpenAI gpt-5.4$2.50$15.00$0.01000$10,000
OpenAI gpt-5.4-mini$0.75$4.50$0.00300$3,000
OpenAI gpt-5.4-nano$0.20$1.25$0.000825$825
OpenAI o4-reasoning$15.00$60.00$0.04500$45,000
Anthropic Claude Fable 5$10.00$50.00$0.03500$35,000
Anthropic Claude Opus 4.8$5.00$25.00$0.01750$17,500
Anthropic Claude Sonnet 4.6$3.00$15.00$0.01050$10,500
Anthropic Claude Haiku 4.5$1.00$5.00$0.00350$3,500
Google Gemini 3.5 Flash$1.50$9.00$0.00600$6,000
Google Gemini 3.1 Pro Preview$2.00$12.00$0.00800$8,000
Google Gemini 2.5 Pro$1.25$10.00$0.00625$6,250
Google Gemini 2.5 Flash$0.30$2.50$0.00155$1,550
Google Gemini 2.5 Flash-Lite$0.10$0.40$0.00030$300

Fuentes, a partir de junio de 2026: OpenAI (https://developers.openai.com/api/docs/pricing), Anthropic (https://claude.com/pricing), Google Gemini (https://ai.google.dev/gemini-api/docs/pricing). El costo por llamada asume 1.000 tokens de entrada + 500 tokens de salida, tarifas estándar sin descuentos de batch o cache. Las filas de modelos de razonamiento no incluyen tokens ocultos de cadena de pensamiento; presupuesta 3-5x la salida para tareas que se benefician del razonamiento.

La fórmula que sigue cada proveedor

El costo por llamada es idéntico en todos los proveedores:

``` cost_per_call = (input_tokens / 1,000,000) * input_price + (output_tokens / 1,000,000) * output_price ```

Conversión de tokens a palabras: aproximadamente 1 token por 0,75 palabras en inglés, o aproximadamente 1 token por 4 caracteres. Entonces un prompt de 750 palabras son aproximadamente 1.000 tokens de entrada; una respuesta de 375 palabras son aproximadamente 500 tokens de salida.

Los descuentos ajustan la fórmula, nunca la reemplazan. Batch API (OpenAI y Anthropic) reduce a la mitad tanto la entrada como la salida para cargas de trabajo asincrónicas con una ventana de entrega de 24 horas. El almacenamiento en caché de prompts reduce la tarifa de entrada al 10% en tokens con acierto de caché. Las entradas de visión y audio se cuentan como tokens de entrada con una relación de conversión específica del proveedor.

Los tokens de razonamiento en la serie o y Claude Fable 5 se cuentan como salida aunque no se te devuelvan. Un modelo que reflexiona durante 2.000 tokens antes de producir una respuesta visible de 200 tokens factura 2.200 tokens de salida.


Ejemplo práctico 1: preguntas y respuestas cortas con 1.000 llamadas

Carga de trabajo de referencia: 1.000 tokens de entrada, 500 tokens de salida, 1.000 llamadas. Tarifas estándar, sin descuentos.

OpenAI gpt-5.5: 1.000 × $0,020 = $20,00. Anthropic Claude Sonnet 4.6: 1.000 × $0,0105 = $10,50. Google Gemini 2.5 Pro: 1.000 × $0,00625 = $6,25. Google Gemini 2.5 Flash: 1.000 × $0,00155 = $1,55. Google Gemini 2.5 Flash-Lite: 1.000 × $0,00030 = $0,30.

Misma carga de trabajo, $0,30 a $20 según el modelo — un diferencial de 66x. Con 1k llamadas por día la diferencia es pequeña en términos absolutos ($0,30 vs $20 por día, $9 vs $600 por mes). Con 1M+ llamadas por mes el diferencial se convierte en el presupuesto.

Nota sobre calidad: Gemini 2.5 Flash-Lite negocia latencia y profundidad por costo. Para clasificación, extracción y preguntas y respuestas simples a menudo iguala la calidad de Sonnet 4.6. Para escritura matizada, razonamiento o código, el diferencial es mayor y Sonnet/gpt-5.5 gana. Ejecuta una evaluación lado a lado en 100 muestras representativas antes de elegir por defecto el tier más barato.


Ejemplo práctico 2: batch de alto volumen con 1.000.000 llamadas

Misma referencia de 1.000 entrada / 500 salida, escalada a 1M llamadas — un volumen mensual típico de producción completa.

Tarifas estándar: gpt-5.5 = $20.000. Sonnet 4.6 = $10.500. Opus 4.8 = $17.500. Gemini 2.5 Pro = $6.250. Gemini 2.5 Flash = $1.550. Gemini 2.5 Flash-Lite = $300.

Aplica descuento de Batch API (-50%) a OpenAI y Anthropic: gpt-5.5 = $10.000. Sonnet 4.6 = $5.250. Gemini no ofrece un tier de batch publicado a partir de junio de 2026, así que las filas de Gemini permanecen sin cambios.

Aplica almacenamiento en caché de prompts donde 800 de cada 1.000 tokens de entrada son un acierto de caché al 10% de la tarifa de entrada. La entrada de Sonnet 4.6 baja de $3.000 a ($600 base + $0,30 × 800 × 1M / 1M = $240 en caché) = $840 entrada, total $8.340 estándar / $4.170 en batch. Una reducción de costo del 60% solo del almacenamiento en caché.

Elegir el modelo más barato que cumpla con la barra de calidad es más importante que negociar descuentos en el modelo equivocado. Un equipo que ejecuta 1M llamadas por mes en gpt-5.5-pro paga $120.000 mensuales; la misma carga de trabajo en Sonnet 4.6 paga $10.500 — una diferencia de $109.500 mensuales a tarifas estándar, o 12x. Siempre prueba el siguiente tier más bajo antes de comprometer presupuesto. Para estrategias de calidad de prompts que sobrevivan a un tier más barato, nuestro constructor de prompts de código ayuda a ajustar bloques de instrucciones.


Descuentos combinados: batch + cache + tier más bajo

Los tres mayores impulsores de costo se combinan. Aplica cada uno en orden y la factura final en la misma carga de trabajo puede ser 5-15x más baja que la tarifa anunciada.

Paso 1: baja un tier de modelo. El 80/20 de la mayoría de cargas de trabajo funciona bien en el tier por debajo del predeterminado del equipo. Evalúa en 100 muestras representativas; vuelve a promocionar hacia arriba solo en las rutas donde el modelo más barato falla.

Paso 2: cachea prefijos estables. Prompt del sistema, definiciones de herramientas, documentos de referencia — cualquier cosa que se repita entre llamadas — debe estar al frente del prompt y ser marcado como elegible para caché (en Anthropic) o simplemente largo y estable (en OpenAI, donde el almacenamiento en caché es oportunista). Espera ahorros de entrada del 60-90% en porciones cacheadas.

Paso 3: batch las cargas de trabajo asincrónicas. Cualquier cosa que no sea de cara al usuario — reportes nocturnos, enriquecimientos semanales, rellenos, ejecuciones de evaluación — se mueve a la Batch API para un descuento plano del 50% tanto en entrada como en salida.

Trabajado compuesto: gpt-5.5 estándar en 1M llamadas = $20.000. Baja a gpt-5.4-mini = $3.000 (iguala calidad para muchas tareas). Añade ahorros de caché: $3.000 → ~$2.200. Añade batch en la mitad offline: $2.200 → ~$1.650. Factura final: $1.650 — una reducción del 92% desde la tarifa estándar anunciada.


Costo ajustado por calidad: ¿cuánto deberías pagar realmente?

El costo anunciado importa menos que el costo por respuesta correcta. Un modelo a $0,001 por llamada que falla el 30% de las veces es peor que un modelo a $0,005 por llamada que falla el 5% — el último tiene un costo efectivo menor una vez que cuentas el reintento, la escalada a un tier superior, o el costo de revisión manual en fallos.

Costo ajustado por benchmark (según evaluaciones de calidad publicadas en 2026 en cargas de trabajo estándar de chat): Sonnet 4.6 y gpt-5.5 se cotizan cerca en la mayoría de benchmarks; Sonnet 4.6 es aproximadamente la mitad del costo por llamada. Gemini 2.5 Pro se sitúa en el medio, con recuperación de contexto largo más fuerte pero rendimiento mixto en razonamiento multi-paso. Haiku 4.5 y gpt-5.4-mini son intercambiables en la mayoría de tareas de extracción; Haiku generalmente gana en adherencia de instrucciones, gpt-5.4-mini en costo bruto.

Cuando dudes, usa Sonnet 4.6 por defecto para chat y cargas de trabajo de contenido, gpt-5.4-mini para tareas de salida estructurada de alto volumen, Gemini 2.5 Flash-Lite para tareas simples ultra-baratas. Contrasta contra los análisis profundos en Precios de API de OpenAI y Precios de Claude en Anthropic.


Cuándo OpenAI gana, cuándo Claude gana, cuándo Gemini gana

OpenAI gana en: madurez del ecosistema (almacén de vectores, búsqueda de archivos, intérprete de código nativamente integrado), la línea de modelos de razonamiento más profunda (o4-reasoning, o4-mini-reasoning), y generación de imágenes estrechamente integrada con chat. Usa OpenAI por defecto cuando necesitas herramientas de primera parte más allá del LLM en sí.

Anthropic gana en: calidad por dólar en Sonnet 4.6, la mejor mecánica de almacenamiento en caché de prompts (control de caché explícito, opción TTL de 1 hora), fuerte adhesión de instrucciones, y el contexto más largo práctico con fuerte recuperación en Opus y Fable. Usa Claude por defecto cuando estés construyendo agentes que necesiten razonar sobre documentos largos o planes multi-paso.

Google Gemini gana en: costo más bajo por llamada en cada tier, las ventanas más grandes prácticas (2M en 3.1 Pro Preview, 10M experimental en Flash-Lite), y el desempeño multimodal más fuerte (imagen, video, audio). Usa Gemini por defecto cuando el costo es la restricción o cuando tu carga de trabajo incluye sustancial visión o video.

En jugadores no principales: DeepSeek V4 es el líder de precios en cargas de trabajo de estilo código abierto; Mistral Large 3 gana en requisitos de residencia de datos europeos; Llama 4 gana cuando necesitas auto-alojar. La matriz de proveedores completa es más amplia que tres — para trabajo de alto volumen, ejecuta un bake-off trimestral.


Construye tu propia calculadora de costos interna

Replica la matemática en cinco líneas de Python o una fórmula de Google Sheets:

``` =(input_tokens/1000000)*input_price + (output_tokens/1000000)*output_price ```

Construye una fila por par (modelo, ruta), introduce tus tokens reales por llamada (usa el endpoint del tokenizador para un conteo exacto, o estima palabras/0,75 para planeación), y escala por volumen de llamadas diarias. Añade una columna para volumen elegible para batch y aplica -50% a ese subconjunto.

Para almacenamiento en caché de prompts, estima la porción cacheada como una fracción de la entrada total — 60-90% es realista para chatbots con prompts del sistema estables, 0% para prompts de un solo disparo de usuario. Multiplica la porción cacheada por el 10% de la tarifa de entrada, la porción no cacheada por el 100%.

Re-ejecuta el cálculo mensualmente. Los precios de los proveedores se han movido trimestralmente a lo largo de 2025-2026, y el modelo más barato en cada tier cambia; el equipo que re-evalúa las asunciones cada 90 días ahorra 20-40% anual en estado estable.


Tres estudios de caso reales: lo que las cargas de trabajo de 1M llamadas/mes realmente cuestan entre proveedores

Las tarjetas de precios anunciadas son abstractas. Lo que los equipos realmente quieren saber es: en mi carga de trabajo, ¿cuál es la factura mensual? Los tres estudios de caso siguientes caminan a través de cargas de trabajo de producción reales y realistas con entrada pesada, equilibrada y salida pesada a volúmenes mensuales realistas. Todos los números se calculan directamente desde la tarjeta de tarifa estándar; las figuras cacheadas y en batch aplican la pila de descuentos de la sección anterior (aciertos de caché al 10% de la tarifa de entrada en el 80% de los tokens de entrada; Batch API al 50% menos en entrada y salida donde el proveedor lo ofrece).

Estudio de caso 1 — Northwind Marketing, resumen de tickets de soporte al cliente. El equipo ingiere 1M tickets de soporte por mes desde Zendesk y ejecuta cada uno a través de un LLM que extrae producto, sentimiento, causa raíz y un tema de una línea. La carga de trabajo es muy entrada-sesgada: 4.000 tokens de entrada por llamada (la transcripción del ticket más la taxonomía de referencia) y 200 tokens de salida (JSON estructurado). Facturas mensuales a tarifa estándar con 1M llamadas: Claude Sonnet 4.6 = (4.000/1M × $3 × 1M) + (200/1M × $15 × 1M) = $12.000 + $3.000 = $15.000. gpt-5.4-mini = (4.000/1M × $0,75 × 1M) + (200/1M × $4,50 × 1M) = $3.000 + $900 = $3.900. Gemini 2.5 Flash = (4.000/1M × $0,30 × 1M) + (200/1M × $2,50 × 1M) = $1.200 + $500 = $1.700. Aplica la pila de descuentos. La taxonomía es idéntica en todas las 1M llamadas — aproximadamente 2.500 de los 4.000 tokens de entrada cachean limpiamente. Sonnet cacheado + en batch aterriza cerca de $4.100/mes. gpt-5.4-mini cacheado + en batch aterriza cerca de $1.050/mes. Gemini 2.5 Flash no tiene Batch API y mecánica de caché más débil, así que se sitúa en aproximadamente $1.400/mes. Ganador: gpt-5.4-mini. Está dentro del 25% de Gemini Flash en costo bruto pero añade Batch API y almacenamiento en caché de prompts más fuerte, y en la evaluación interna de Northwind anotó 94% taxonomía-correcto versus 89% para Gemini Flash. La prima de $350/mes se amortiza a sí misma en ahorros de cola de revisión.

Estudio de caso 2 — Cascade SaaS, chatbot en el producto para una herramienta de análisis de 220k usuarios. El chatbot maneja 500k conversaciones de usuario por mes, promedio dos turnos por sesión, así que 1M llamadas LLM. La carga de trabajo está equilibrada en 1.500 tokens de entrada / 500 tokens de salida — típico para chat aumentado por recuperación con tres fragmentos de contexto. Facturas mensuales a tarifa estándar con 1M llamadas: gpt-5.5 = (1.500/1M × $5 × 1M) + (500/1M × $30 × 1M) = $7.500 + $15.000 = $22.500. Sonnet 4.6 = (1.500/1M × $3) + (500/1M × $15) todo multiplicado por 1M = $4.500 + $7.500 = $12.000. Gemini 2.5 Pro = (1.500/1M × $1,25) + (500/1M × $10) todo multiplicado por 1M = $1.875 + $5.000 = $6.875. Cascade no puede usar Batch API — el chat es sincrónico — así que la pila de descuentos es solo caché. El prompt del sistema más los documentos del producto totalizan 900 de los 1.500 tokens de entrada y cachean confiablemente. Sonnet cacheado reduce la entrada de $4.500 a aproximadamente $1.170 (600 no cacheado a $3 + 900 cacheado a $0,30), factura mensual total $8.670. gpt-5.5 cacheado baja a aproximadamente $14.700. El soporte de caché de Gemini 2.5 Pro es implícito en tiempo real y menos agresivo, así que su factura cacheada aterriza cerca de $5.600. Ganador: Sonnet 4.6. Gemini Pro es $3.000/mes más barato pero la evaluación ciega de Cascade anotó Sonnet 4.6 a 4,6/5 en calidad de respuesta versus 4,1/5 para Gemini Pro, y la diferencia de costo por conversación ($0,006 vs $0,011) es superada por el impacto LTV de un mejor chatbot en un producto de $99/asiento. gpt-5.5 fue eliminado por costo — no ofreció ventaja de calidad medible sobre Sonnet con casi el doble de la factura.

Estudio de caso 3 — Mesa AI, una startup de herramientas para desarrolladores que ejecuta un asistente de codificación que procesa 200k completados por día (6M llamadas por mes). La carga de trabajo es pesada en salida: 2.000 tokens de entrada (contexto de archivo reciente más diff de buffer abierto) y 1.500 tokens de salida (el parche sugerido). Facturas mensuales a tarifa estándar con 6M llamadas: gpt-5.4 = (2.000/1M × $2,50 × 6M) + (1.500/1M × $15 × 6M) = $30.000 + $135.000 = $165.000. Sonnet 4.6 = (2.000/1M × $3 × 6M) + (1.500/1M × $15 × 6M) = $36.000 + $135.000 = $171.000. Claude Fable 5 = (2.000/1M × $10 × 6M) + (1.500/1M × $50 × 6M) = $120.000 + $450.000 = $570.000. DeepSeek V4 a la estimación de $0,40/$1,20 = (2.000/1M × $0,40 × 6M) + (1.500/1M × $1,20 × 6M) = $4.800 + $10.800 = $15.600. El diferencial es aproximadamente 36x entre DeepSeek y Fable. Aplica la pila: la finalización de código es sincrónica así que Batch API no se aplica; el almacenamiento en caché ayuda modestamente en el lado de la entrada (alrededor del 30% elegible para caché), afeitando $9.000-$11.000 de la factura de entrada para OpenAI y Anthropic. Mesa ejecutó una evaluación ciega en 800 muestras internas de finalización: gpt-5.4 alcanzó el 71% de aceptación, Sonnet 4.6 alcanzó el 73%, Fable 5 alcanzó el 79%, DeepSeek V4 alcanzó el 64%. Ganador: una estrategia de enrutamiento por tiers, no un solo modelo. Mesa enruta el 75% de finalizaciones (una línea, en buffer) a DeepSeek V4 a aproximadamente $11.700/mes para esa porción, enruta el 20% (refactores multi-línea) a Sonnet 4.6 a aproximadamente $32.000/mes, y reserva el 5% (reescrituras de archivo completo y explain-and-fix) para Fable 5 a aproximadamente $25.000/mes. Factura mensual combinada: aproximadamente $68.700 con aceptación combinada del 74% — versus $165.000 en gpt-5.4 solo por un punto menos de aceptación, o $570.000 en Fable solo por cinco puntos más.

Lo que revelan los tres casos. En cargas de trabajo entrada-pesada los tiers baratos dominan porque la salida es un redondeo — gpt-5.4-mini, Gemini Flash, y Haiku 4.5 son los contendientes, y la elección generalmente se reduce a cuál de la historia de almacenamiento en caché y batch del proveedor se ajusta mejor a la tubería. En cargas de trabajo sincrónicas equilibradas el tier medio gana porque las diferencias de calidad se muestran en métricas de cara al usuario y el diferencial absoluto es lo suficientemente pequeño que el ganador ajustado por calidad generalmente vence a la opción más barata — Sonnet 4.6 y Gemini 2.5 Pro son los aterrizajes más comunes. En cargas de trabajo salida-pesada ningún modelo único gana; el enrutamiento por tipo de tarea vence a elegir un modelo en 30-60% casi siempre, porque el costo de salida es lo suficientemente grande que el modelo barato maneja la porción fácil y paga por el modelo costoso en la porción dura.

Dos verificaciones aritméticas que vale la pena mantener en tu mente. Primero, la regla de oro de costo por llamada: multiplica tokens de entrada (en miles) por precio de entrada (por 1M, en dólares) y divide por 1.000 para obtener dólares de entrada por llamada; lo mismo para salida. Con 1M llamadas por mes el costo por llamada en centavos es aproximadamente igual a la factura mensual en decenas de miles de dólares — una llamada de 2 centavos es aproximadamente $20k/mes con 1M llamadas. Segundo, los ahorros de caché están limitados por la porción de entrada del costo. En el caso de Mesa, la entrada es solo el 18% de la factura en Sonnet — el almacenamiento en caché no puede ahorrar más de $6.500/mes sin importar cuán agresiva sea la tasa de acierto de caché. En el caso de Northwind, la entrada es el 80% de la factura — el almacenamiento en caché es la palanca de impacto único más alto.

Resumen de una línea de cuándo cada proveedor tiende a ganar en 2026. OpenAI gana cargas de trabajo equilibradas donde características del ecosistema (búsqueda de archivos, intérprete de código, salidas estructuradas) importan y el presupuesto tolera la prima. Anthropic gana cargas de trabajo de contexto largo y agentivo donde la calidad por dólar de Sonnet y el control de caché explícito se combinan. Google gana cargas de trabajo entrada-pesada y multimodal donde el costo por token bruto y el contexto de 2M+ son la restricción. Los proveedores de código abierto y presupuesto como DeepSeek ganan la porción fácil de cualquier estrategia de enrutamiento por tiers.


Latencia, confiabilidad y otros costos fuera de la fórmula

El costo por token es la línea más grande de la factura pero no es el único costo. La latencia se traduce en costo UX — cada segundo de tiempo de respuesta adicional cuesta conversión en aplicaciones de cara al usuario; la latencia acumulada × volumen de llamadas es dinero real. La familia Gemini Flash generalmente gana en tiempo hasta primer token; o4-reasoning generalmente pierde por un gran margen en tareas donde se ejecuta razonamiento.

La confiabilidad se traduce en costo de reintento — si un modelo falla el 1% de las llamadas y reintentas, tu costo efectivo es 1% más alto. Lo más importante es que si el 1% de los fallos se escalan a una cola de revisión humana a $5 por revisión, una tasa de fallo del 1% con 1M llamadas = 10.000 fallos = $50.000 en revisión manual. La precisión del modelo afecta directamente el costo de revisión.

Los límites de tasa se traducen en costo de capacidad. Por nuestra página de límites de tasa LLM, cada tier de proveedor limita solicitudes por minuto y tokens por minuto; si tu carga de trabajo excede el límite, pones en cola, reintentas, o divides entre múltiples claves — todo añade sobrecarga. Presupuesta actualizaciones de tier junto con actualizaciones de modelo.

Línea de fondo: elige el modelo que minimice (costo por llamada + costo de reintento + costo de revisión + costo de capacidad). Para la mayoría de equipos ese es un modelo diferente al que minimiza solo el costo por llamada.

Frequently Asked Questions

¿Cuál es más barato: GPT, Claude o Gemini?

Gemini es el líder de precios por token en cada tier en 2026. Gemini 2.5 Flash-Lite a $0,10/$0,40 por 1M es el modelo de chat más barato y corriente; Claude Haiku 4.5 ($1/$5) y OpenAI gpt-5.4-nano ($0,20/$1,25) son los competidores de tier barato. Iguala el tier más barato que cumpla con tu barra de calidad.

¿Es Gemini más barato que ChatGPT para cargas de trabajo de producción?

Sí, en cada tier. Gemini 2.5 Pro ($1,25/$10) es aproximadamente 3-4x más barato que gpt-5.5 ($5/$30) en calidad comparable en la mayoría de benchmarks. La decisión generalmente se reduce a ajuste de calidad para tu carga de trabajo específica, integración del ecosistema, y necesidades de razonamiento.

¿Cuál es el modelo de razonamiento más barato en 2026?

OpenAI o4-mini-reasoning a $3 entrada / $12 salida es el tier de razonamiento más barato entre proveedores principales a partir de junio de 2026. Claude Fable 5 ($10/$50) es el tier de razonamiento más costoso pero ofrece el contexto más largo efectivo para trabajo de cadena de pensamiento.

¿Cómo se combinan los descuentos de batch + cache?

Se multiplican. Un token de entrada de Claude Sonnet 4.6 que es tanto acierto de caché (0,1x tarifa) como enviado vía Batch (0,5x tarifa) factura a 0,05x — un descuento del 95% versus la tarifa de entrada estándar. En una carga de trabajo de 1M llamadas con 80% de entrada elegible para caché, la factura de entrada efectiva cae de $3.000 a aproximadamente $300.

¿El costo por llamada incluye llamadas a herramientas?

Los argumentos de llamada a herramienta se cuentan como tokens de salida, y el resultado de la herramienta que repites en el siguiente turno se cuenta como entrada. Un bucle de agente con 5 llamadas a herramientas antes de la respuesta puede facturar 5-8x la salida de una llamada de respuesta directa. Cuenta bucles de agente por separado — mira nuestra calculadora de costos de agentes de IA.

¿Por qué es la salida 5-6x entrada en todos los proveedores?

Generar tokens requiere un pase hacia adelante completo por token mientras que la entrada se procesa en un pase batido único. La relación de salida 5-6x es estándar en OpenAI (6x en la mayoría de tiers), Anthropic (5x), y Google (4-8x dependiendo del modelo).

¿Debería cambiar de proveedor para ahorrar el 30%?

Probablemente no por sí solo — los costos de cambio (tiempo de ingeniería, desviación de evaluación, diferencias de formato de salida, re-tuning de prompt) generalmente superan un ahorro único del 30% en una carga de trabajo estable. El cambio tiene sentido con diferencias de costo de 2x, en proyectos greenfield, o cuando el nuevo proveedor desbloquea una capacidad que el actual no puede.

¿Dónde puedo ver los precios en vivo del proveedor?

OpenAI: developers.openai.com/api/docs/pricing. Anthropic: claude.com/pricing. Google: ai.google.dev/gemini-api/docs/pricing. Los tres actualizan trimestralmente o más rápido — confirma antes de presupuestar.

En una carga de trabajo entrada-pesada (4k entrada / 200 salida), ¿cuál es realmente el más barato en 1M llamadas?

Gemini 2.5 Flash lidera en tarjeta de tarifa bruta: 4.000/1M × $0,30 × 1M + 200/1M × $2,50 × 1M = $1.700/mes. gpt-5.4-mini a $3.900/mes está cerca una vez que aplicas Batch API (-50%) y almacenamiento en caché de prompts agresivo en la porción de taxonomía estable — aterrizando cerca de $1.050/mes all-in versus aproximadamente $1.400 de Gemini Flash con mecánica de caché más débil. Para pipelines de resumen de tickets y clasificación, gpt-5.4-mini con la pila de descuentos completa generalmente gana por un margen pequeño y añade mejor adhesión de instrucciones.

Para un chatbot sincrónico con 500k conversaciones/mes, ¿vale la pena gpt-5.5 con 2x la factura de Sonnet?

Casi nunca. En una carga de trabajo equilibrada de 1,5k entrada / 500 salida, 1M llamadas de chat cuestan $22.500/mes en gpt-5.5 versus $12.000/mes en Sonnet 4.6 a tarifas estándar ($14.700 vs $8.670 con almacenamiento en caché de prompt del sistema). La mayoría de evaluaciones ciegas anotan Sonnet 4.6 dentro de una décima de punto de gpt-5.5 en cargas de trabajo de chat; el delta de $6.000+/mes solo tiene sentido si una característica específica de OpenAI (búsqueda de archivos, intérprete de código, almacén de vectores nativo) está en el camino crítico.

¿Cómo evitan los asistentes de codificación en 6M llamadas/mes una factura mensual de $500k+ en modelos premium?

Enrutamiento por tiers, no selección de modelo único. Un asistente de codificación que enruta el 75% de las finalizaciones a DeepSeek V4 (~$11.700/mes), el 20% a Sonnet 4.6 (~$32.000/mes), y el 5% a Claude Fable 5 (~$25.000/mes) aterriza cerca de $68.700/mes con aceptación combinada dentro de un punto de ejecutar Fable en todo (que costaría $570.000/mes). El modelo barato maneja finalizaciones de una línea; el modelo costoso maneja reescrituras de archivo completo. Las cargas de trabajo salida-pesada casi siempre recompensan enrutamiento sobre una apuesta de modelo único.

Obtén la hoja de trucos cross-provider 2026

PDF de una página con la tarifa de entrada/salida de cada modelo flagship y la matemática de descuentos. Gratis, sin puerta de registro.

Browse all prompt tools →

Biblioteca gratuita de prompts — más de 100 prompts listos para copiar

Prompts seleccionados cada semana para ChatGPT, Claude, Midjourney y DALL·E. Sin spam. Cancela cuando quieras.

Sin spam. Un correo por semana. Más de ~12.000 usuarios de prompts ya suscritos.