Los agentes de voz se facturan en una tarjeta de tarifa completamente diferente del chat de texto, y la brecha es lo suficientemente amplia para que los ingenieros acostumbrados a la economía de tokens de texto constantemente subestimen presupuestos de despliegues realtime de 4-6x. A partir de junio de 2026, gpt-5.5-realtime — el endpoint conversacional que transmite audio dentro y fuera sobre un WebSocket persistente — factura entrada de audio a $40,00 por 1M tokens y salida de audio a $80,00 por 1M tokens. Eso es 8x la tarifa de entrada de texto ($5,00) y ~2,7x la tarifa de salida de texto ($30,00) en el mismo modelo subyacente. Las sesiones multimodales son facturadas por flujo: un turno donde el usuario habla y el modelo responde con audio más una carga útil de texto de llamada de herramienta genera tokens de entrada de audio, tokens de salida de audio, y un pequeño cargo de salida de texto en la misma línea de factura.
Los tokens de audio no son caracteres o segundos — son una representación chunked discreta de la forma de onda. La regla de oro actual es aproximadamente 1 token de audio por 0,1 segundos de habla a la frecuencia de muestreo estándar de 24kHz, lo que funciona a ~600 tokens de audio por minuto de habla en cada dirección. Para una comprobación de cordura en facturas de entrada, toma los minutos de reloj del hablante, multiplica por 600, divide por 1.000.000, y multiplica por $40. Una llamada de servicio al cliente de 10 minutos donde el usuario habla 4 minutos y el agente habla 6 minutos genera ~2.400 tokens de audio de entrada y ~3.600 tokens de audio de salida. Eso es (2.400/1.000.000 × $40) + (3.600/1.000.000 × $80) = $0,096 + $0,288 = $0,384 por llamada antes de cualquier sobrecarga de uso de herramientas o texto.
Ejemplo real — una llamada de agente de voz de 5 minutos. Asume un división realista: el usuario habla 2 minutos (1.200 tokens de audio de entrada), el agente habla 3 minutos (1.800 tokens de audio de salida), y el agente también ejecuta dos llamadas de herramienta devolviendo ~400 tokens de salida de texto de argumentos estructurados y ~600 tokens de entrada de texto de resultados de herramienta ecoados de vuelta al contexto. Entrada de audio: 1.200/1M × $40 = $0,048. Salida de audio: 1.800/1M × $80 = $0,144. Salida de texto (llamadas de herramienta + fragmentos de texto final): 400/1M × $30 = $0,012. Entrada de texto (resultados de herramienta + prompt de sistema de ~1.500 tokens): 2.100/1M × $5 = $0,0105. Total: ~$0,215 por llamada de 5 minutos, o aproximadamente $2,58 por hora de voz en vivo. Ejecuta 1.000 llamadas al día y la factura de realtime sola es ~$6.450/mes — antes de transcripción, antes de logging, antes de cualquier fallback de LLM.
Transcripción Whisper-3, usada para conversión de habla a texto asincrónica donde no necesitas una respuesta de modelo transmitida, sigue siendo el punto de entrada de audio más barato a $0,006 por minuto de audio (facturado en incrementos de 1 segundo, mínimo 1 segundo). Un backlog de transcripción de 10.000 minutos — digamos un mes de llamadas de soporte grabadas — cuesta exactamente $60. El endpoint whisper-3-large más nuevo, que añade diarización y timestamps a nivel de palabra, se factura a $0,011 por minuto. Para aplicaciones que solo necesitan análisis post-llamada en lugar de conversación en vivo, transcribir con Whisper-3 y luego ejecutar la transcripción a través de gpt-5.4-mini es aproximadamente 30-50x más barato que enrutar el mismo audio a través de gpt-5.5-realtime.
Síntesis de texto a voz se sitúa en su propia tarjeta de tarifa y se cotiza por carácter en lugar de por token. La voz tts-1-2026 estándar cuesta $15,00 por 1M caracteres; la voz tts-1-hd-2026 de mayor fidelidad cuesta $30,00 por 1M caracteres. Una respuesta de 200 palabras promedia ~1.100 caracteres, así que un único render de TTS cuesta $0,0165 en estándar y $0,033 en HD. El trade-off versus salida de audio en tiempo real es latencia e interruptibilidad: TTS no es amigable para streaming para conversación de ida y vuelta pero ~5x más barato que salida de audio gpt-5.5-realtime para IVR, notificaciones y narración pre-renderizada. Un patrón de producción común es usar gpt-5.4-mini ($0,75/$4,50 tasas de texto) para redactar la respuesta, luego enrutar a tts-1-2026 — el coste total en esa respuesta de 200 palabras es aproximadamente $0,018 entrada/salida de texto más $0,0165 TTS, versus ~$0,10+ si el mismo contenido se generara como audio transmitido a través del endpoint realtime.
El caché de prompts se aplica a sesiones de realtime pero solo a la porción de texto del prompt — el mensaje de sistema, esquemas de herramientas, e historial de conversación en forma de texto. Los tokens de audio en sí no están en caché; cada chunk de habla es lo suficientemente único para que la caché no pueda coincidir. La implicación práctica: estructura tu prompt de sistema de realtime de la misma manera que lo harías para chat — instrucciones estables largas y definiciones de herramientas en el frente, contexto dinámico por llamada en la espalda — y el descuento de entrada en caché del 90% se aplica a esa porción de texto a través de la sesión WebSocket. Para un agente de voz con un prompt de sistema de 3.000 tokens ejecutando 1.000 llamadas al día, cachear el prefijo de sistema baja el coste de entrada de texto de $15,00/día a ~$1,65/día. Es una pequeña porción de la factura de realtime pero se apila limpiamente con todo lo demás. Confirma las tasas actuales de realtime contra documentación de API realtime de OpenAI antes de bloquear precios en un contrato de cliente — las tasas de voz se han movido dos veces en los últimos 12 meses.