Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Por el equipo de DDH · Digital Dashboard Hub

Precios API OpenAI 2026: Tabla completa de costes por modelo

By DDH Research Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

OpenAI cobra por token, cotizado en dólares por 1.000.000 de tokens, y factura entrada y salida por separado. A partir de junio de 2026, la familia GPT-5.5 se encuentra en $5,00 entrada / $30,00 salida por 1M tokens para el nivel estándar y $30,00 / $180,00 para gpt-5.5-pro, mientras que el más ligero gpt-5.4-nano funciona a $0,20 / $1,25 — una diferencia de 150x entre los endpoints más baratos y más caros de la gama premium. La salida es casi siempre 5-6 veces más cara que la entrada en cada modelo de la alineación.

Dos mecanismos de descuento cambian materialmente la factura: la API Batch reduce un 50% tanto entrada como salida para trabajos asincronos que pueden esperar hasta 24 horas, y los precios de entrada en caché leen los aciertos de caché de prompts a aproximadamente el 10% de la tarifa de entrada estándar. Debajo está la tabla de precios completa obtenida de la página de precios activos de OpenAI, seguida por ejemplos reales que traducen los números en dólares reales por 1k, 100k y 1M llamadas. Confirma las tarifas en la página de precios de OpenAI antes de presupuestar — estos cambian frecuentemente. Estima rápidamente tu propia carga de trabajo con nuestro calculador de costes de prompts AI, o descarga la hoja de trucos PDF gratuita de precios LLM 2026 para una referencia imprimible.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Precio API OpenAI por 1M tokens — junio de 2026

Feature
Entrada ($/1M)
Entrada en caché ($/1M)
Salida ($/1M)
gpt-5.5-pro$30.00$3.00$180.00
gpt-5.5$5.00$0.50$30.00
gpt-5.4$2.50$0.25$15.00
gpt-5.4-mini$0.75$0.075$4.50
gpt-5.4-nano$0.20$0.02$1.25
o4-reasoning$15.00$1.50$60.00
o4-mini-reasoning$3.00$0.30$12.00
gpt-4.1$2.00$0.50$8.00
gpt-4.1-mini$0.40$0.10$1.60
gpt-4.1-nano$0.10$0.025$0.40
text-embedding-3-large$0.13
text-embedding-3-small$0.02

Fuentes, a partir de junio de 2026: Precios OpenAI (https://developers.openai.com/api/docs/pricing), documentación OpenAI Batch API (https://platform.openai.com/docs/guides/batch). Los precios de entrada en caché se aplican solo a aciertos de caché de prompts donde el mismo prefijo se reutiliza dentro de la ventana de caché; los fallos de caché se facturan a la tarifa de entrada estándar.

Cómo OpenAI te factura, línea por línea

Cada llamada a la API genera dos flujos facturables: tokens de entrada (el prompt, el mensaje de sistema, cualquier definición de herramienta y cualquier turno anterior que reproduzcas) y tokens de salida (todo lo que el modelo escribe, incluyendo tokens de razonamiento en la serie o y argumentos de llamadas de herramienta). Se cotizan por separado y se listan independientemente en la factura.

La fórmula no ha cambiado respecto a versiones anteriores de la API:

``` cost = (input_tokens / 1,000,000) * input_price_per_M + (output_tokens / 1,000,000) * output_price_per_M ```

Dos ajustes importan en 2026. Primero, tokens de entrada en caché — porciones de tu prompt que alcanzan la caché de prompts de OpenAI dentro de la ventana de caché — se facturan a aproximadamente el 10% de la tarifa de entrada estándar. La caché es oportunista y no requiere cambios de código para muchos SDKs; los prompts de sistema largos y esquemas de herramientas reutilizados son los ganadores típicos. Segundo, las solicitudes enviadas a través de la API Batch reciben un 50% de descuento tanto en entrada como en salida, a cambio de una ventana de entrega de hasta 24 horas. Estos dos descuentos se apilan sobre los precios base y son el mecanismo de reducción de costes individual más grande que la mayoría de equipos ignora.

Los tokens de razonamiento en la serie o (o4-reasoning, o4-mini-reasoning) se facturan a la tarifa de salida aunque no se devuelvan. Un modelo que 'piensa' durante 4.000 tokens antes de producir una respuesta de 200 tokens factura 4.200 tokens de salida. Planifica un presupuesto de salida de 5-10x en tareas con razonamiento intensivo comparado con tareas de chat directo.


Ejemplo real 1: una llamada de 1.000 entrada / 500 salida en cada nivel

Toma una llamada representativa — un prompt de 1.000 tokens que devuelve una respuesta de 500 tokens, aproximadamente equivalente a un breve de 750 palabras de entrada y una respuesta de 375 palabras de salida. El coste por llamada a tasas estándar se sitúa así:

gpt-5.5-pro: (1000/1.000.000 × $30,00) + (500/1.000.000 × $180,00) = $0,030 + $0,090 = $0,120 por llamada. gpt-5.5: (0,001 × $5,00) + (0,0005 × $30,00) = $0,005 + $0,015 = $0,020 por llamada. gpt-5.4: $0,0025 + $0,0075 = $0,010. gpt-5.4-mini: $0,00075 + $0,00225 = $0,003. gpt-5.4-nano: $0,0002 + $0,000625 = $0,000825. o4-reasoning (asumiendo 2.000 razonamiento + 500 salida visible): $0,015 entrada + $0,150 salida = $0,165 por llamada.

Nota la diferencia de 145x entre gpt-5.4-nano ($0,000825) y gpt-5.5-pro ($0,120) en volúmenes de tokens idénticos. El modelo adecuado casi nunca es el más caro; es el nivel más barato que cumple tu estándar de calidad.

Si quieres probar el nivel más barato primero, redacta prompts más limpios que sobrevivan a un modelo más pequeño con nuestro generador de prompts ChatGPT. Las entradas más ajustadas reducen el recuento de tokens y desplazan la carga de trabajo hacia la escala de precios más baja.


Ejemplo real 2: escalado a 100.000 y 1.000.000 de llamadas

Multiplica los números por llamada anteriores por 100.000 (un trabajo de clasificación o resumen de tamaño medio) y 1.000.000 (una carga de trabajo de producción a escala completa):

100k llamadas — gpt-5.5-pro: $12.000. gpt-5.5: $2.000. gpt-5.4: $1.000. gpt-5.4-mini: $300. gpt-5.4-nano: $82,50. o4-reasoning (con 2k tokens de razonamiento): $16.500.

1M llamadas — gpt-5.5-pro: $120.000. gpt-5.5: $20.000. gpt-5.4: $10.000. gpt-5.4-mini: $3.000. gpt-5.4-nano: $825. o4-reasoning: $165.000.

Ahora aplica el descuento de la API Batch (-50% entrada y salida) a la fila gpt-5.5: $20.000 se convierte en $10.000 con 1M llamadas. Aplica caché de prompts donde 800 de cada 1.000 tokens de entrada son un prefijo de sistema estable que alcanza caché el 80% de las veces: esos 640 tokens en caché bajan a $0,50/1M en lugar de $5/1M, ahorrando 90% en 64% de entrada — aproximadamente $2.880 menos de la factura de entrada de $4.000 con 1M llamadas, o alrededor del 14% del total. Apila ambos descuentos y la misma carga de trabajo funciona alrededor de $8.300 — un ahorro del 58% sobre la tarifa estándar.

Estos son los mecanismos canónicos. Haz coincidir el nivel del modelo con la dificultad de la tarea primero, luego agrupa lo que pueda esperar, luego cachea lo que se repite.


Cuándo elegir pro, estándar, mini o nano

gpt-5.5-pro está construido para razonamiento de alto riesgo donde una sola respuesta incorrecta es más cara que 100 correctas — análisis financiero, redacción legal, síntesis de código complejo con requisitos de corrección estricta. La prima de 6x sobre gpt-5.5 solo se justifica cuando el coste de error downstream domina el coste por llamada. Para la mayoría del tráfico de chat en producción es excesivo.

gpt-5.5 es el predeterminado para chat de propósito general, flujos de trabajo de agentes, generación de contenido que se envía a humanos, y cualquier tarea para la que habrías usado GPT-4 en 2024. A $5/$30 es aproximadamente la mitad del precio de GPT-4 de finales de 2024 con sustancialmente mayor calidad.

gpt-5.4-mini ($0,75/$4,50) es el punto óptimo para tareas de salida estructurada de alto volumen: clasificación, extracción, resumen, preguntas y respuestas simples. La mayoría de equipos que ejecutan 1M+ llamadas por mes se sitúan aquí. gpt-5.4-nano ($0,20/$1,25) es para casos de uso integrados — autocompletado, detección de intención, enrutamiento simple — donde el coste debe medirse en fracciones de centavo.

La serie o (o4-reasoning, o4-mini-reasoning) factura tokens de razonamiento a la tarifa de salida, así que úsala solo cuando la cadena de pensamiento mejora materialmente la precisión en problemas duros. Para la generación directa, los modelos sin razonamiento son 5-10x más baratos para calidad equivalente. Ver guía de razonamiento de OpenAI para el desglose canónico.


API Batch: cuándo el 50% de descuento es dinero gratis

La API Batch acepta un archivo JSONL de solicitudes y devuelve resultados dentro de 24 horas, facturado a la mitad de las tasas estándar de entrada y salida. El trade-off es la latencia — no puedes usarla para nada en lo que un usuario está esperando sincronía. Pero para cargas de trabajo offline es uno de los descuentos de reducción de costes más infrautilizados en la API.

Encajes canónicos: resumen nocturno de tickets de ayer, clasificación semanal de leads de marketing, enriquecimiento mensual de contactos CRM, enriquecimiento único de un dataset de 500k filas. Si la tarea no tiene que devolver en segundos, agrúpala.

Anti-encajes: chat en vivo, agentes de voz, cualquier cosa en un embudo de checkout, cualquier cosa donde humanos estén leyendo la respuesta en tiempo real. La ventana de latencia mata la experiencia del usuario.

Matemática real: un trabajo de resumen gpt-5.5 de 1M llamadas cuesta $20.000 a la tarifa estándar. El mismo trabajo a través de Batch cuesta $10.000. Si el trabajo puede esperar hasta mañana, el descuento es gratis. Confirma los términos actuales de Batch contra documentación de batch de OpenAI.


Caché de prompts: precios del 10% en prefijos repetidos

La caché de prompts de OpenAI almacena prefijos de prompts recientes y reutiliza prefijos coincidentes desde la caché en lugar de re-tokenizarlos, facturando la porción coincidente a aproximadamente el 10% de la tarifa de entrada estándar. La caché es automática para la mayoría de rutas SDK; lo que controlas es si tus prompts tienen un prefijo estable y reutilizable que valga la pena cachear.

Estructura de prompt compatible con caché: un mensaje de sistema fijo largo (instrucciones, guía de estilo, ejemplos), un bloque medio estable (definiciones de herramientas, documentos de referencia), luego una cola variable corta (la pregunta real del usuario). Cuanto más largo sea el segmento en caché y más frecuentemente se repita dentro de la ventana de caché, mayor será el ahorro.

Matemática real: un chatbot con un prompt de sistema de 2.000 tokens que alcanza caché en el 90% de las 100.000 llamadas diarias. Sin caché, los prompts de sistema solo cuestan (2.000 × 100.000 / 1.000.000) × $5 = $1.000 por día en gpt-5.5. Con el 90% de aciertos de caché a $0,50/1M, los 1,8M tokens de entrada en caché cuestan $0,90 — un ahorro del 99,9% en la porción en caché — y el 10% restante se factura a $1,00, total $1,90 por día para entrada de prompt de sistema. La misma carga de trabajo, $998 menos.

La caché no ayuda si tus prompts son únicos en cada llamada o si la porción variable está al frente del prompt. Mueve el texto estable hacia el frente, el texto variable hacia atrás, y la caché hará el resto. Ver documentación de caché de prompts de OpenAI para la ventana de caché y reglas de elegibilidad.


Recargos de visión, audio y uso de herramientas

Las entradas de imagen en la familia GPT-5.5 se convierten a tokens basados en resolución. Una imagen de 1024×1024 se factura como aproximadamente 765 tokens de entrada en el nivel estándar; una imagen de 2048×2048 se factura como aproximadamente 1.445 tokens. A $5/1M en gpt-5.5, eso es $0,0038 y $0,0072 por imagen respectivamente — importante cuando procesas millones de imágenes por mes.

Entrada de audio a través de los endpoints de realtime y audio se factura por separado de texto y a tasas más altas — aproximadamente $40/1M tokens de entrada y $80/1M tokens de salida en gpt-5.5-audio a partir de junio de 2026. Un intercambio hablado de 1 minuto cuesta $0,06-$0,12 dependiendo de la densidad de habla.

Las llamadas de herramienta en sí se facturan como tokens de salida — tanto el nombre de función, argumentos, como el resultado de herramienta que echas de vuelta al modelo. Bucles de agentes con 5-10 llamadas de herramienta por turno pueden facturar 10x la salida de un turno de respuesta directa, por lo que los costes de agentes casi siempre están dominados por salida. Desglosamos las matemáticas de bucles de agentes en nuestro calculador de costes de agentes AI.


API Realtime y análisis profundo de precios de voz/audio

Los agentes de voz se facturan en una tarjeta de tarifa completamente diferente del chat de texto, y la brecha es lo suficientemente amplia para que los ingenieros acostumbrados a la economía de tokens de texto constantemente subestimen presupuestos de despliegues realtime de 4-6x. A partir de junio de 2026, gpt-5.5-realtime — el endpoint conversacional que transmite audio dentro y fuera sobre un WebSocket persistente — factura entrada de audio a $40,00 por 1M tokens y salida de audio a $80,00 por 1M tokens. Eso es 8x la tarifa de entrada de texto ($5,00) y ~2,7x la tarifa de salida de texto ($30,00) en el mismo modelo subyacente. Las sesiones multimodales son facturadas por flujo: un turno donde el usuario habla y el modelo responde con audio más una carga útil de texto de llamada de herramienta genera tokens de entrada de audio, tokens de salida de audio, y un pequeño cargo de salida de texto en la misma línea de factura.

Los tokens de audio no son caracteres o segundos — son una representación chunked discreta de la forma de onda. La regla de oro actual es aproximadamente 1 token de audio por 0,1 segundos de habla a la frecuencia de muestreo estándar de 24kHz, lo que funciona a ~600 tokens de audio por minuto de habla en cada dirección. Para una comprobación de cordura en facturas de entrada, toma los minutos de reloj del hablante, multiplica por 600, divide por 1.000.000, y multiplica por $40. Una llamada de servicio al cliente de 10 minutos donde el usuario habla 4 minutos y el agente habla 6 minutos genera ~2.400 tokens de audio de entrada y ~3.600 tokens de audio de salida. Eso es (2.400/1.000.000 × $40) + (3.600/1.000.000 × $80) = $0,096 + $0,288 = $0,384 por llamada antes de cualquier sobrecarga de uso de herramientas o texto.

Ejemplo real — una llamada de agente de voz de 5 minutos. Asume un división realista: el usuario habla 2 minutos (1.200 tokens de audio de entrada), el agente habla 3 minutos (1.800 tokens de audio de salida), y el agente también ejecuta dos llamadas de herramienta devolviendo ~400 tokens de salida de texto de argumentos estructurados y ~600 tokens de entrada de texto de resultados de herramienta ecoados de vuelta al contexto. Entrada de audio: 1.200/1M × $40 = $0,048. Salida de audio: 1.800/1M × $80 = $0,144. Salida de texto (llamadas de herramienta + fragmentos de texto final): 400/1M × $30 = $0,012. Entrada de texto (resultados de herramienta + prompt de sistema de ~1.500 tokens): 2.100/1M × $5 = $0,0105. Total: ~$0,215 por llamada de 5 minutos, o aproximadamente $2,58 por hora de voz en vivo. Ejecuta 1.000 llamadas al día y la factura de realtime sola es ~$6.450/mes — antes de transcripción, antes de logging, antes de cualquier fallback de LLM.

Transcripción Whisper-3, usada para conversión de habla a texto asincrónica donde no necesitas una respuesta de modelo transmitida, sigue siendo el punto de entrada de audio más barato a $0,006 por minuto de audio (facturado en incrementos de 1 segundo, mínimo 1 segundo). Un backlog de transcripción de 10.000 minutos — digamos un mes de llamadas de soporte grabadas — cuesta exactamente $60. El endpoint whisper-3-large más nuevo, que añade diarización y timestamps a nivel de palabra, se factura a $0,011 por minuto. Para aplicaciones que solo necesitan análisis post-llamada en lugar de conversación en vivo, transcribir con Whisper-3 y luego ejecutar la transcripción a través de gpt-5.4-mini es aproximadamente 30-50x más barato que enrutar el mismo audio a través de gpt-5.5-realtime.

Síntesis de texto a voz se sitúa en su propia tarjeta de tarifa y se cotiza por carácter en lugar de por token. La voz tts-1-2026 estándar cuesta $15,00 por 1M caracteres; la voz tts-1-hd-2026 de mayor fidelidad cuesta $30,00 por 1M caracteres. Una respuesta de 200 palabras promedia ~1.100 caracteres, así que un único render de TTS cuesta $0,0165 en estándar y $0,033 en HD. El trade-off versus salida de audio en tiempo real es latencia e interruptibilidad: TTS no es amigable para streaming para conversación de ida y vuelta pero ~5x más barato que salida de audio gpt-5.5-realtime para IVR, notificaciones y narración pre-renderizada. Un patrón de producción común es usar gpt-5.4-mini ($0,75/$4,50 tasas de texto) para redactar la respuesta, luego enrutar a tts-1-2026 — el coste total en esa respuesta de 200 palabras es aproximadamente $0,018 entrada/salida de texto más $0,0165 TTS, versus ~$0,10+ si el mismo contenido se generara como audio transmitido a través del endpoint realtime.

El caché de prompts se aplica a sesiones de realtime pero solo a la porción de texto del prompt — el mensaje de sistema, esquemas de herramientas, e historial de conversación en forma de texto. Los tokens de audio en sí no están en caché; cada chunk de habla es lo suficientemente único para que la caché no pueda coincidir. La implicación práctica: estructura tu prompt de sistema de realtime de la misma manera que lo harías para chat — instrucciones estables largas y definiciones de herramientas en el frente, contexto dinámico por llamada en la espalda — y el descuento de entrada en caché del 90% se aplica a esa porción de texto a través de la sesión WebSocket. Para un agente de voz con un prompt de sistema de 3.000 tokens ejecutando 1.000 llamadas al día, cachear el prefijo de sistema baja el coste de entrada de texto de $15,00/día a ~$1,65/día. Es una pequeña porción de la factura de realtime pero se apila limpiamente con todo lo demás. Confirma las tasas actuales de realtime contra documentación de API realtime de OpenAI antes de bloquear precios en un contrato de cliente — las tasas de voz se han movido dos veces en los últimos 12 meses.


Cómo bajar tu factura de OpenAI esta semana

Cinco acciones ordenadas por impacto típico. Primero, baja un nivel de modelo. Si estás en gpt-5.5, ejecuta una evaluación lado a lado contra gpt-5.4-mini en 100 muestras representativas; muchos equipos encuentran calidad equivalente a 1/6 del coste. Segundo, agrupa todo lo que no necesite una respuesta sincrónica — backfills de datos históricos, reportes diarios, colas de clasificación — y toma el descuento Batch del 50%. Tercero, reestructura tus prompts para poner texto estable primero para que el caché de prompts se active.

Cuarto, limita salida. Configura max_tokens agresivamente y pide JSON estructurado en lugar de prosa; un objeto JSON de 200 tokens reemplaza un párrafo de 1.000 tokens para la mayoría de tareas de extracción. Quinto, monitorea con un dashboard de coste por ruta — la mayoría de equipos tienen una ruta que representa el 60% de gasto y una cola larga de rutas baratas; la auditoría por sí sola generalmente revela un corte obvio.

Si quieres redactar prompts más ajustados para empezar, nuestro constructor de prompts de código y generador de meta-descripción ayudan a comprimir bloques de instrucciones sin perder fidelidad. Comprueba cruzadamente las tasas contra precios Anthropic Claude 2026 y el calculador de comparación de costes LLM antes de bloquear un proveedor.

Frequently Asked Questions

¿Cuál es el modelo más barato de OpenAI en 2026?

gpt-5.4-nano a $0,20 entrada / $1,25 salida por 1M tokens es el modelo de chat de propósito general más barato. text-embedding-3-small a $0,02/1M es aún más barato pero solo produce embeddings, no texto generado. Confirma contra la página de precios de OpenAI.

¿Cuánto ahorra la API Batch?

50% en entrada y salida. Un trabajo gpt-5.5 de $20.000 a la tarifa estándar cuesta $10.000 a través de Batch, a cambio de una ventana de entrega de hasta 24 horas. Mejor para cargas de trabajo offline — ver guía de batch de OpenAI.

¿Son realmente los tokens de entrada en caché 90% más baratos?

Sí — los tokens de entrada en caché se facturan a aproximadamente el 10% de la tarifa de entrada estándar (así que la entrada en caché de gpt-5.5 es $0,50/1M en lugar de $5,00/1M). El catch es que el prefijo debe alcanzar la caché de prompts de OpenAI dentro de la ventana de caché, lo que favorece prompts de sistema largo y esquemas de herramientas estables en el frente de la solicitud.

¿Por qué es la salida mucho más cara que la entrada?

Generar tokens requiere ejecutar el paso forward completo para cada token, mientras que los tokens de entrada se procesan en un paso agrupado. OpenAI típicamente cotiza la salida 5-8x entrada en toda la alineación — por ejemplo, $5 entrada / $30 salida en gpt-5.5 es una proporción de 6x.

¿Los tokens de razonamiento de la serie o cuentan como salida?

Sí. Los modelos o4-reasoning y o4-mini-reasoning facturan la cadena de pensamiento oculta a la tarifa de salida, aunque esos tokens no se devuelvan. Presupuesta 5-10x el recuento de tokens de salida visible cuando uses modelos de razonamiento.

¿Es OpenAI más barato que Anthropic en 2026?

Depende del nivel. gpt-5.5 ($5/$30) es más caro que Claude Sonnet 4.6 ($3/$15) y Claude Opus 4.8 ($5/$25) en salida. gpt-5.4-mini ($0,75/$4,50) es más barato que Claude Haiku 4.5 ($1/$5). Compara lado a lado en nuestro calculador de costes LLM.

¿Cómo estimo el coste antes de enviar una solicitud?

Usa la fórmula coste = (tokens_entrada / 1M × precio_entrada) + (tokens_salida / 1M × precio_salida). Estima el recuento de tokens como aproximadamente caracteres ÷ 4 o palabras ÷ 0,75. Para un recorrido real detallado, ver nuestro calculador de costes de prompts AI.

¿Factura OpenAI por respuestas fallidas o rechazadas?

Sí — cualquier token que el modelo produzca se factura, incluyendo mensajes de rechazo e intentos de llamadas de herramienta que dan error. La excepción son solicitudes que fallan antes de que se emita cualquier token (límites de velocidad, errores de autenticación, entrada mal formada).

¿Cuánto cuesta realmente gpt-5.5-realtime por minuto de voz?

Con tasas de junio de 2026 ($40/1M audio entrada, $80/1M audio salida, y ~600 tokens de audio por minuto de habla), un intercambio equilibrado de 1 minuto — 30 segundos de habla del usuario y 30 segundos de respuesta del agente — cuesta aproximadamente (300/1M × $40) + (300/1M × $80) = $0,012 + $0,024 = $0,036, antes de cualquier cargo de lado de texto o de llamadas de herramienta. Planifica $0,04-$0,08 por minuto de realtime una vez que se incluyan un prompt de sistema típico y 1-2 llamadas de herramienta. Ver documentación de API realtime de OpenAI para tasas actuales.

¿Debo usar Whisper más un modelo de texto, u solo gpt-5.5-realtime?

Si necesitas una conversación de ida y vuelta en vivo con manejo de interrupción, usa gpt-5.5-realtime — Whisper-más-texto añade latencia de 1-3 segundos que rompe la alternancia natural de turnos. Si solo necesitas análisis post-llamada, resumen, o transcripción asincrónica, Whisper-3 a $0,006/min más gpt-5.4-mini a $0,75/$4,50 es 30-50x más barato que transmitir el mismo audio a través del endpoint realtime. La línea divisoria es si un humano está esperando en tiempo real.

¿Funciona el caché de prompts con la API realtime?

Parcialmente. La porción de texto de una sesión realtime — mensaje de sistema, esquemas de herramientas, turnos anteriores en forma de texto — es elegible para el descuento de entrada en caché del 90% de la misma manera que una finalización de chat. Los tokens de audio en sí no están en caché. Mantén instrucciones de texto estables al frente del prompt de sistema de realtime y el descuento de caché se aplicará a esa porción a través de la sesión WebSocket, aunque no tenga efecto en la factura de tokens de audio.

Obtén la hoja de trucos de precios LLM 2026

PDF de una página con cada modelo en este artículo, las matemáticas de descuento y las fórmulas — gratis, sin puerta de registro. O navega nuestras 40+ herramientas de ingeniería de prompts para redactar prompts más baratos y ajustados.

Browse all prompt tools →

Biblioteca gratuita de prompts — más de 100 prompts listos para copiar

Prompts seleccionados cada semana para ChatGPT, Claude, Midjourney y DALL·E. Sin spam. Cancela cuando quieras.

Sin spam. Un correo por semana. Más de ~12.000 usuarios de prompts ya suscritos.