La fórmula de costo (memoriza esta)
Cada llamada OpenAI API sigue las mismas matemáticas. No hay tarifa de plataforma, sin tarifa por llamada, sin mínimo. Pagas por lo que envías y lo que obtienes de vuelta, a la tasa por 1M tokens del modelo:
``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```
Dos ajustes se apilan encima. Primero, hits de cached de prompt — porciones de tu prefijo de entrada que OpenAI ha cacheado porque los enviaste en una llamada anterior reciente — se facturan a la tasa cached-input (~10% de entrada estándar). Los prompts del sistema largos y esquemas de herramientas estables son los ganadores típicos; el caché es oportunista en la mayoría de SDKs y no necesita cambios de código para activarse. Segundo, el API Batch quita 50% de entrada y salida a cambio de una ventana de entrega de 24 horas o menos. Los dos descuentos se apilan: una llamada cacheada, procesada por lotes en gpt-5.5 se factura a $0.25 entrada ÷ 2 = $0.125/1M y $30 salida ÷ 2 = $15/1M para la porción cacheada + procesada por lotes. La estructura de tus prompts determina cuánto de cada descuento puedes capturar en la práctica.
Los reasoning tokens en la serie o se facturan a la tasa de salida aunque no se te devuelvan — un modelo que 'piensa' durante 4,000 tokens antes de producir una respuesta de 200 tokens factura 4,200 tokens de salida. Planifica un presupuesto de salida 5-10x en tareas intensivas en razonamiento.