La fórmula de costo (idéntica a todos los demás proveedores)
Cada llamada a la API de DeepSeek sigue la misma matemática que OpenAI, Anthropic o cualquier otro proveedor facturado por tokens. No hay tarifa de plataforma, no hay tarifa por llamada, no hay gasto mínimo. Pagas por lo que envías y lo que recibes, a la tasa por 1M tokens del modelo:
``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```
El ajuste específico de DeepSeek que importa: entrada en caché-hit. Las porciones de tu prefijo de prompt que DeepSeek ha visto en una llamada previa reciente dentro de la ventana de caché se facturan a la tasa de caché-hit. En V3 y R1 eso es exactamente 10% de la entrada estándar (90% de descuento). En V4-Flash y V4-Pro desciende al 2% y 0.83% respectivamente — casi gratis. Los prompts de sistema largos y estables, esquemas de herramientas fijos y bloques few-shot reutilizados son los ganadores típicos. La activación de caché es automática — no pasas una bandera; el servidor de DeepSeek coincide con tu prefijo de prompt y aplica el descuento en la facturación.
Los tokens de razonamiento en DeepSeek-R1 y DeepSeek-V4-Pro se facturan a la tasa de salida aunque no se devuelvan al llamador — la misma forma que la serie o- de OpenAI. Un modelo que piensa durante 6,000 tokens antes de producir una respuesta de 400 tokens factura 6,400 tokens de salida. Planifica un presupuesto de salida 5-15x en tareas con razonamiento intensivo vs tareas de chat simple. R1 en particular ha sido medido generando 3,000-10,000 tokens de razonamiento en problemas complejos — modela eso en tus estimaciones por llamada o serás sorprendido por la factura.