Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Por el Equipo DDH · Digital Dashboard Hub

Calculadora de Costos DeepSeek API (2026)

By The DDH Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

DeepSeek es el disruptor en cada tabla de precios de API de 2026. DeepSeek-V3 cobra $0.14 por 1M tokens de entrada y $0.28 por 1M de salida — aproximadamente 1/35 del precio de entrada y 1/107 del precio de salida de GPT-5.5 de OpenAI ($5 / $30) con calidad comparable en la mayoría de tareas sin razonamiento. DeepSeek-R1 cobra $0.55 / $2.19 — aproximadamente 96% más barato que el o1 deprecado de OpenAI ($15 / $60) con calidad de razonamiento comparable según benchmarks públicos.

Cada llamada a DeepSeek tiene los mismos dos flujos de precio que cualquier otra API: tokens de entrada (tu prompt, mensaje del sistema, turnos reproducidos, definiciones de herramientas) y tokens de salida (todo lo que escribe el modelo, incluyendo razonamiento encadenado en R1 y V4-Pro). DeepSeek los precifica a tasas diferentes por 1M, con salida típicamente 2-4x entrada en toda la línea — una dispersión mucho más plana que la relación 5-6x en OpenAI o Anthropic, lo que significa que las cargas de trabajo pesadas en salida se benefician desproporcionadamente en DeepSeek.

El mayor apalancamiento de costo específico de DeepSeek es el descuento por caché de hits: los hits de prompt-cache se facturan al 10% de la tasa de entrada estándar en V3 y R1 (90% de descuento), y tan bajo como 2% en V4-Flash y V4-Pro (98%+ de descuento). Eso convierte a DeepSeek, por un margen considerable, en el proveedor más barato para cargas de trabajo cache-friendly — prompts de sistema largos y estables, esquemas de herramientas repetidos, ejemplos few-shot.

Abajo: la tabla de precios completa de junio de 2026 verificada contra la documentación oficial de DeepSeek API, la fórmula de costo canónica, cuatro ejemplos trabajados (llamada única, 100k llamadas, 1M llamadas, bucle de agente) en volúmenes de tokens idénticos a nuestra calculadora OpenAI para que la comparación cruzada sea directa, una comparación lado a lado dedicada vs GPT-5.5, las advertencias que cada equipo de industrias reguladas necesita leer, y 8 FAQs. Guarda esta página — y redacta rápidamente prompts que no desperdicien tokens con nuestro generador de prompts ChatGPT gratuito. Calculadoras hermanas: costo API OpenAI · costo GPT-5 · costo o1 razonamiento.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Precio DeepSeek API por 1M tokens — junio de 2026

Feature
Entrada ($/1M)
Entrada caché-hit ($/1M)
Salida ($/1M)
DeepSeek-V3$0.14$0.014$0.28
DeepSeek-R1$0.55$0.055$2.19
DeepSeek-V4-Flash$0.14$0.0028$0.28
DeepSeek-V4-Pro$0.435$0.003625$0.87

Fuente, a partir de junio de 2026: precios de DeepSeek API (https://api-docs.deepseek.com/quick_start/pricing) y https://deepseek.ai/pricing. Los precios de caché-hit aplican solo a hits de prompt-cache — los fallos de caché se facturan a la tasa de entrada estándar. Los hits de caché de V3 y R1 son 90% de descuento; los hits de caché de V4-Flash y V4-Pro son 98%+ de descuento (la tasa de entrada más barata de la plataforma de cualquier proveedor importante en 2026). R1 y V4-Pro incluyen razonamiento encadenado que se factura como tokens de salida — planifica presupuestos de salida en consecuencia. Sin tier de Batch API público hasta esta captura. Todos los precios en USD.

La fórmula de costo (idéntica a todos los demás proveedores)

Cada llamada a la API de DeepSeek sigue la misma matemática que OpenAI, Anthropic o cualquier otro proveedor facturado por tokens. No hay tarifa de plataforma, no hay tarifa por llamada, no hay gasto mínimo. Pagas por lo que envías y lo que recibes, a la tasa por 1M tokens del modelo:

``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```

El ajuste específico de DeepSeek que importa: entrada en caché-hit. Las porciones de tu prefijo de prompt que DeepSeek ha visto en una llamada previa reciente dentro de la ventana de caché se facturan a la tasa de caché-hit. En V3 y R1 eso es exactamente 10% de la entrada estándar (90% de descuento). En V4-Flash y V4-Pro desciende al 2% y 0.83% respectivamente — casi gratis. Los prompts de sistema largos y estables, esquemas de herramientas fijos y bloques few-shot reutilizados son los ganadores típicos. La activación de caché es automática — no pasas una bandera; el servidor de DeepSeek coincide con tu prefijo de prompt y aplica el descuento en la facturación.

Los tokens de razonamiento en DeepSeek-R1 y DeepSeek-V4-Pro se facturan a la tasa de salida aunque no se devuelvan al llamador — la misma forma que la serie o- de OpenAI. Un modelo que piensa durante 6,000 tokens antes de producir una respuesta de 400 tokens factura 6,400 tokens de salida. Planifica un presupuesto de salida 5-15x en tareas con razonamiento intensivo vs tareas de chat simple. R1 en particular ha sido medido generando 3,000-10,000 tokens de razonamiento en problemas complejos — modela eso en tus estimaciones por llamada o serás sorprendido por la factura.


Ejemplo trabajado 1: una sola llamada de 1,000 entrada / 500 salida

Toma la misma llamada representativa que usamos en cada calculadora de costos en este sitio — un prompt de 1,000 tokens que devuelve una respuesta de 500 tokens, aproximadamente un resumen de 750 palabras de entrada y una respuesta de 375 palabras de salida. A tasas estándar, el costo por llamada se aterriza como:

DeepSeek-V3: (1000 / 1,000,000) × $0.14 + (500 / 1,000,000) × $0.28 = $0.00014 + $0.00014 = **$0.00028 por llamada**.

DeepSeek-V4-Flash: 0.001 × $0.14 + 0.0005 × $0.28 = $0.00014 + $0.00014 = **$0.00028 por llamada**.

DeepSeek-V4-Pro: 0.001 × $0.435 + 0.0005 × $0.87 = $0.000435 + $0.000435 = **$0.00087 por llamada**.

DeepSeek-R1: 0.001 × $0.55 + 0.0005 × $2.19 = $0.00055 + $0.001095 = **$0.001645 por llamada** (asume cero tokens de razonamiento, lo que es irreal — ver abajo).

R1 con sobrecarga de razonamiento realista: asume que R1 genera 3,000 tokens de razonamiento antes de la respuesta de 500 tokens, facturados como 3,500 de salida. Costo: 0.001 × $0.55 + 0.0035 × $2.19 = $0.00055 + $0.007665 = **$0.00822 por llamada**. Incluso con inflación de salida 5x por razonamiento, R1 aún vence a GPT-5.5 ($0.020/llamada) por 2.4x y aplasta el deprecado o1 ($0.045/llamada a tasas estándar) por 5.5x.

Para cargas de trabajo sin razonamiento, el número por llamada en el que anclar es **$0.00028 en V3 o V4-Flash** — aproximadamente 1/71 del precio de la misma llamada en GPT-5.5 ($0.020) y 1/3000 del precio de la misma llamada en GPT-5.5-pro ($0.120).


Ejemplo trabajado 2: 100,000 llamadas por mes

Multiplica los números por llamada por 100,000. Esta es una carga de trabajo realista de tamaño medio — clasificación diaria en 3,000+ registros, resumen semanal, un bucle de agente de bajo volumen:

DeepSeek-V3 / V4-Flash: **$28/mes**. DeepSeek-V4-Pro: **$87/mes**. DeepSeek-R1 (cero razonamiento): **$165/mes**. DeepSeek-R1 (razonamiento realista de 3k por llamada): **$822/mes**.

Compara directamente: la misma carga de trabajo de 100k llamadas en OpenAI GPT-5.5 cuesta $2,000/mes. En V3, cuesta $28 — una reducción de 71x, o $1,972/mes ahorrados. En GPT-5.5-pro cuesta $12,000/mes; en DeepSeek-V4-Pro el tier de calidad equivalente (propósito general, premium) cuesta $87/mes — 138x más barato.

Ahora aplica el descuento de caché a V3, con 800 de cada 1,000 tokens de entrada siendo un prefijo de sistema estable que golpea caché 80% de las veces. Esos 640 tokens en caché × 100,000 llamadas = 64M tokens, bajando de $0.14/1M a $0.014/1M. El costo de entrada en caché: 64 × $0.014 = $0.90. Entrada sin caché: 36M × $0.14/1M = $5.04. Salida: 50M × $0.28/1M = $14.00. Total: **$19.94/mes** vs $28 sin caché — un corte adicional del 29% en precios ya baratos.

En V4-Flash con el mismo patrón de caché (98% de descuento en hits de caché), el costo de la porción en caché cae a $0.18 (64M × $0.0028/1M). Total: $19.22/mes. Los ahorros marginales adicionales del descuento de caché más profundo de V4-Flash sobre V3 son pequeños en este volumen — pero a escala 10x+, se componen materialmente.


Ejemplo trabajado 3: escalando a 1,000,000 de llamadas

Ahora escala a 1M de llamadas — una carga de trabajo de producción completa (p. ej., resumen por usuario en toda una aplicación SaaS con 30,000 usuarios activos ejecutando 33 llamadas/mes cada uno, o un pipeline de clasificación de alto volumen):

DeepSeek-V3 / V4-Flash: **$280/mes**. DeepSeek-V4-Pro: **$870/mes**. DeepSeek-R1 (cero razonamiento): **$1,645/mes**. DeepSeek-R1 (razonamiento realista de 3k por llamada): **$8,220/mes**.

Aplica el mismo prefijo en caché del 80% de entrada al 80% de tasa de hit a V4-Flash en escala 1M: tokens en caché 640M × $0.0028/1M = $1.79. Entrada sin caché 360M × $0.14/1M = $50.40. Salida 500M × $0.28/1M = $140. Total: **$192.19/mes** para 1 millón de llamadas. Eso no es una errata — menos de $200 por una carga de trabajo de escala de producción que costaría $20,000 en precios estándar de GPT-5.5.

Lado a lado en 1M llamadas/mes, mezcla de tokens idéntica:

**OpenAI GPT-5.5**: $20,000/mes estándar, ~$8,300/mes con pila completa de Batch + caché.

**OpenAI GPT-5.4-mini**: $3,000/mes estándar, ~$1,200/mes con Batch + caché.

**DeepSeek-V3**: $280/mes estándar, ~$200/mes con caché.

**DeepSeek-V4-Flash**: $280/mes estándar, ~$192/mes con caché profundo.

El tier más barato en OpenAI (gpt-5.4-nano en $825/mes para esta carga de trabajo) es aún 4-5x más caro que el tier más barato de DeepSeek. El orden de apalancamiento canónico para escalar el costo hacia abajo en DeepSeek: (1) elige V3 o V4-Flash para tareas sin razonamiento, (2) reestructura prompts para que el prefijo cacheable sea estable y esté al frente, (3) limita la longitud de salida, (4) solo llega a R1 cuando la tarea genuinamente requiere razonamiento de múltiples pasos.


Ejemplo trabajado 4: un bucle de agente de producción real en DeepSeek-V3

Un bucle de agente es la peor forma de costo — el modelo toma múltiples turnos por consulta de usuario, reproduciendo la transcripción completa cada turno. Toma un bucle típico de 5 turnos con un prompt de sistema de 2,000 tokens + herramientas, crecimiento de contexto de 800 tokens por turno (misma forma que nuestro ejemplo de agente OpenAI trabajado para comparación directa):

Turno 1: 2,800 entrada / 200 salida. Turno 2: 3,000 entrada / 200 salida. Turno 3: 3,200 entrada / 200 salida. Turno 4: 3,400 entrada / 200 salida. Turno 5: 3,600 entrada / 200 salida. Total: 16,000 entrada + 1,000 salida. En DeepSeek-V3: 0.016 × $0.14 + 0.001 × $0.28 = $0.00224 + $0.00028 = **$0.00252 por consulta de 5 turnos** — aproximadamente 9x una llamada única (la forma de agente infla el costo en cada proveedor).

Compara: el bucle idéntico de 5 turnos en GPT-5.5 cuesta $0.11 por consulta. En DeepSeek-V3 cuesta $0.00252 — una **reducción de 43x**. En 100k consultas/mes, GPT-5.5 factura $11,000; V3 factura $252.

Ahora aplica caché. El prefijo de 2,000 tokens de sistema + herramientas es estable en todos los 5 turnos. Si caché golpea ~80% de esos 2,000 tokens × 5 turnos = 8,000 tokens de entrada en caché bajando de $0.14/1M a $0.014/1M: $0.000647 → $0.000112, ahorrando aproximadamente $0.001 por consulta (40% de descuento en la factura). Para 100k consultas/mes: de $252 → $151. El diseño de estructura de caché es el cambio más alto de EV disponible en un prompt de agente en cualquier proveedor — DeepSeek incluido. Construye prompts anclados por caché gratis con nuestro constructor de prompts de código.


DeepSeek vs OpenAI en carga de trabajo idéntica (la comparación directa)

En una llamada de 1,000 entrada / 500 salida, manteniendo el volumen de tokens constante:

**Relación de precio de entrada**: GPT-5.5 cobra $5/1M, DeepSeek-V3 cobra $0.14/1M. Eso es **35.7x más barato en entrada** en DeepSeek. **Relación de precio de salida**: GPT-5.5 cobra $30/1M, DeepSeek-V3 cobra $0.28/1M. Eso es **107.1x más barato en salida** en DeepSeek. La relación entrada/salida más plana en DeepSeek (2:1 vs 6:1 de OpenAI) significa que las cargas de trabajo pesadas en salida ven ahorros desproporcionadamente mayores vs las pesadas en entrada.

**Relación de costo por llamada**: $0.020 en GPT-5.5 vs $0.00028 en DeepSeek-V3 = **71.4x más barato** end-to-end. En 1M llamadas/mes eso es la diferencia entre una factura mensual de $20,000 y una factura mensual de $280 — una reducción de $19,720 sin ningún otro cambio de flujo de trabajo.

**Comparación de modelo de razonamiento**: OpenAI's deprecado o1 cobró $15 entrada / $60 salida por 1M. DeepSeek-R1 cobra $0.55 / $2.19. Eso es **27.3x más barato en entrada y 27.4x más barato en salida** — aproximadamente 96% más barato end-to-end con calidad de razonamiento comparable según benchmarks públicos (R1 es competitivo con o supera a o1 en MATH, AIME y varias tareas de razonamiento de código según evals publicadas).

**Advertencia de calidad**: DeepSeek-V3 y V4-Flash son *aproximadamente* equivalentes a GPT-5.5 en chat general, resumen, clasificación, generación de código para lenguajes comunes. No son equivalentes en cada tarea. La brecha típicamente aparece en: coherencia de contexto largo más allá de 64K tokens, razonamiento multi-paso novedoso que el modelo no ha visto patrones para, ciertos patrones de herramientas de agencia donde OpenAI ha invertido pesadamente en ajuste fino. Ejecuta tu propia evaluación en tu propia tarea antes de migrar una carga de trabajo de producción.

**Regla de decisión racional**: para cargas de trabajo donde la calidad es comparable en una evaluación sostenida de tu tarea actual, DeepSeek es una obviedad a 35-107x más barato. Para cargas de trabajo donde GPT-5.5 gana mediblemente tu evaluación por más de ~10 puntos porcentuales en la métrica que te importa, la prima de OpenAI puede estar justificada — pero el estándar debería ser evidencia, no vibras.


Cuándo elegir V3 vs R1 vs V4-Flash vs V4-Pro

**DeepSeek-V3 ($0.14 / $0.28)**: el caballo de batalla. Chat de propósito general, resumen, clasificación, extracción, generación de código en lenguajes comunes, tareas de salida estructurada. El predeterminado para la mayoría del tráfico de producción. Contexto de 64K. Usa esto a menos que tengas una razón específica para llegar a otro tier.

**DeepSeek-V4-Flash ($0.14 / $0.28)**: mismo precio titular que V3, con descuentos de caché más profundos (98% de descuento en hits de caché vs 90% en V3) y ajustado para alto rendimiento baja latencia. El punto dulce para cargas de trabajo de alto volumen cache-friendly — prompts de sistema largos y estables, esquemas de herramientas repetidos, bucles de agente con bloques de instrucción fijos. Si tu prompt está anclado por caché, V4-Flash vence a V3.

**DeepSeek-V4-Pro ($0.435 / $0.87)**: el tier premium de propósito general. Mayor calidad en razonamiento complejo, generación coherente más larga, más confiable en uso de herramientas de agencia. Aproximadamente 3x el precio de V3 — aún 11x más barato en entrada y 34x más barato en salida que GPT-5.5. Usa cuando la calidad de V3 es mediblemente insuficiente en tu tarea y aún no has obtenido una actualización a un modelo de razonamiento verdadero.

**DeepSeek-R1 ($0.55 / $2.19)**: el modelo de razonamiento. Matemáticas de múltiples pasos, síntesis de código complejo con restricciones de corrección, razonamiento científico, planificación. R1 genera tokens de razonamiento encadenado (facturados como salida) antes de producir la respuesta visible. Presupuesta inflación de salida 5-15x. Llega a R1 cuando la tarea genuinamente requiere profundidad de razonamiento que coincidencia de patrones sola no puede producir — no para chat, no para clasificación, no para resumen donde gasta excesivamente sin agregación de valor.

**Atajo de decisión de tier**: comienza cada nueva carga de trabajo en V3 o V4-Flash. Solo actualiza a V4-Pro o R1 cuando una evaluación sostenida en tu tarea actual muestre el tier más barato fallando. Los tiers premium existen para los casos que los necesitan — la mayoría del tráfico de producción no.


Precios de caché-hit: cómo funciona el descuento 90-98% en la práctica en DeepSeek

El descuento de caché-hit de DeepSeek es el más profundo de cualquier proveedor importante en 2026. En V3 y R1, los hits de caché se facturan al 10% de la entrada estándar (90% de descuento). En V4-Flash, los hits de caché se facturan a $0.0028/1M — exactamente 2% de estándar ($0.14). En V4-Pro, los hits de caché se facturan a $0.003625/1M — 0.83% de estándar ($0.435), o un descuento del 99.17% en la porción en caché.

El caché es oportunista y del lado del servidor. DeepSeek calcula una huella digital de tu prefijo de prompt y la almacena en caché. Las llamadas posteriores dentro de la ventana de caché que comparten el mismo prefijo se leen del caché. La regla dura, idéntica a cada implementación de prompt-cache: **el almacenamiento en caché es una coincidencia de prefijo, no una coincidencia de subcadena**. Coloca tu prompt de sistema estable, definiciones de herramientas y ejemplos few-shot reutilizables al inicio del array de mensajes. El contenido dinámico específico del usuario va al final.

Un prefijo en caché de 1,500 tokens en V4-Pro desciende de $0.435/1M a $0.003625/1M — eso es $0.000647 ahorrados por llamada. En 1M llamadas/mes, eso es $647 ahorrados en una carga de trabajo que ya cuesta menos de $1,000. El efecto de compounding del precio base ya bajo de DeepSeek más su descuento de caché más profundo en el mercado convierte el diseño de prompt anclado por caché en el cambio de optimización más alto de EV disponible en la plataforma.

La mayoría de SDKs de LLM no requieren cambios de código para optar — el almacenamiento en caché se activa automáticamente una vez que estructuras prompts con prefijo primero. El mayor error que vemos (idéntico a OpenAI): los equipos interpolan contexto dinámico (fecha actual, ID de usuario, estado de sesión) en el prompt del sistema, lo que rompe cada hit de caché. Mueve eso a un mensaje de usuario y el caché se mantiene. Nuestro tutorial de almacenamiento en caché de prompts cubre la reescritura estructural que convierte un prompt sin caché en uno anclado por caché — las reglas estructurales aplican idénticamente en DeepSeek.


Las advertencias: cuándo NO usar DeepSeek

DeepSeek es un proveedor con sede en China, ubicado y operando bajo jurisdicción de la República Popular China. Eso es un hecho de carga para cualquier carga de trabajo donde la residencia de datos, la exposición jurisdiccional o la soberanía del proveedor importe. Los ahorros de costo son reales, pero no borran las realidades regulatorias o de riesgo.

**Industrias reguladas — generalmente no uses DeepSeek para producción**: cuidados de la salud US (datos cubiertos por HIPAA), servicios financieros US con PII, cargas de trabajo EU sujetas a interpretaciones estrictas de residencia de datos GDPR, contratos federales US sujetos a cumplimiento FedRAMP o DoD, cualquier carga de trabajo cubierta por datos técnicos controlados por exportación (ITAR/EAR). El caso de costo de DeepSeek no sobrevive la revisión de cumplimiento en estos dominios. Usa OpenAI Enterprise, Azure OpenAI, AWS Bedrock o Anthropic en AWS en su lugar — significativamente más caro, pero con la posición de residencia y contractual que tus auditores requerirán.

**Exposición de datos**: las solicitudes de API a DeepSeek se procesan en infraestructura en la China continental. Trata cada prompt y respuesta como potencialmente observable por el proveedor. No envíes PII, datos financieros del cliente, secretos comerciales, código fuente bajo NDA, o cualquier cosa con la que no estarías cómodo siendo agregada para mejora de modelos. Los términos publicados de DeepSeek permiten uso de datos de entrenamiento de envíos de API en algunas configuraciones — lee los ToS actuales antes de integrar, no después.

**Confiabilidad y postura de SLA**: los SLAs de grado comercial de DeepSeek y soporte empresarial son inmaduros relativos a OpenAI, Anthropic o AWS Bedrock a partir de mediados de 2026. Para cargas de trabajo críticas de misión donde el tiempo de inactividad se traduce directamente en pérdida de ingresos, construye en un proveedor de respaldo — la mayoría de equipos que envían DeepSeek en producción lo ejecutan como el ahorrador de costo principal con un fallback de GPT-5.4-mini o Gemini cableado a través de una capa de failover simple.

**Dónde DeepSeek es excelente**: herramientas internas, automatización dirigida a desarrolladores, pipelines de generación de contenido para material no sensible, prototipado, generación de eval, procesamiento por lotes de datos públicos, proyectos paralelos, flujos de trabajo agentes en entradas sintéticas o no sensibles, en cualquier lugar donde la reducción de costo sea la restricción vinculante y la superficie de cumplimiento/residencia sea baja. Para estos casos, la brecha de costo 35-107x es imposible de ignorar.


Errores frecuentes que inflan la factura de DeepSeek

**Error 1: usar R1 por defecto para todo.** R1 es un modelo de razonamiento — genera miles de tokens de razonamiento encadenado antes de la respuesta visible, todos facturados a la tasa de salida. Una tarea de clasificación simple que necesita 200 tokens de salida facturará 3,000+ tokens de salida en R1 porque el modelo 'piensa' primero. Usa V3 o V4-Flash a menos que la tarea genuinamente necesite razonamiento.

**Error 2: prompts de sistema enormes que nunca se almacenan en caché.** Patrón anti-idéntico a OpenAI. Si tu prompt del sistema interpola cualquier cosa que cambie entre llamadas (marcas de tiempo, nombres de usuario, resúmenes de contexto), el caché nunca golpea — y pierdes el descuento 90-98% que convierte el precio ya bajo de DeepSeek en territorio virtualmente gratis. Reestructura para que el prompt del sistema sea estático y el contexto dinámico viva en mensajes de usuario.

**Error 3: no limitar salida, especialmente en R1 y V4-Pro.** R1 en particular puede generar 10,000+ tokens de razonamiento en problemas difíciles. Sin un límite de `max_tokens`, una sola consulta compleja puede costar 5-10x lo que presupuestaste. Establece límites de salida explícitos en todas partes donde controlas la forma de consumo.

**Error 4: reproducir el historial completo cada turno en un chat.** Resume los turnos anteriores en un resumen compacto de 200 tokens una vez que el contexto excede 5,000 tokens. El precio de entrada de DeepSeek es barato, pero en escala 1M-call incluso la entrada barata suma — y la tasa de hit de caché se degrada bruscamente cuando el contexto crece sin límites.

**Error 5: asumir que DeepSeek + GPT-5.5 son equivalentes en calidad en tu tarea sin medir.** Ejecuta una evaluación sostenida en 50-200 entradas representativas del tráfico de producción actual antes de migrar. El caso de costo es abrumador cuando la calidad es equivalente; es lanzar una moneda cuando la calidad es notablemente peor. No asumas — mide.


Metodología de sourcing y cómo mantener estos números vigentes

Cada precio en esta guía proviene de la página oficial de precios de DeepSeek API en api-docs.deepseek.com/quick_start/pricing y la página de precios dirigida al consumidor en deepseek.ai/pricing, obtenida el 2026-06-20. Verificada cruzada contra tres fuentes corroborantes independientes: agregadores de precios de la comunidad, commits recientes de integración en proyectos de código abierto popular (LiteLLM, OpenRouter), y la documentación pública de desarrollador de DeepSeek. Cuando un número no podía verificarse contra las páginas oficiales, fue omitido de esta guía.

DeepSeek presiona cambios de precio más agresivamente que OpenAI o Anthropic — hemos visto 4-6 movimientos de precios por año desde 2024, generalmente hacia abajo a medida que la empresa ha competido en precio. Los tiers V4-Flash y V4-Pro lanzados en 2026 con los descuentos de caché más profundos en el mercado. Trata los números de titular como una instantánea, no como un contrato.

**Cómo verificar antes de presupuestar**: abre api-docs.deepseek.com/quick_start/pricing en una ventana de incógnito, copia los números para tus modelos objetivo en una hoja de cálculo, compara contra esta guía. Si coinciden, esta guía es vigente para tus propósitos. Si no, confía en la página vigente. Re-verifica trimestralmente si tu factura mensual es más de $500 — los movimientos de precio de DeepSeek pueden ser materiales y no siempre vienen con entradas de changelog formal.

**Lo que omitimos**: DeepSeek opera un tier de precios de inferencia y una plataforma Chat separada con precios de suscripción del consumidor. Esta guía cubre solo la API. También omitimos cualquier límite de velocidad, tier de rendimiento o precios con descuento por volumen que requiera contacto empresarial directo — esos son negociados y no publicados. Si estás mirando 10M+ llamadas/mes, contacta directamente a ventas de DeepSeek; las tasas publicadas son usualmente mejorables en ese volumen en cualquier proveedor.

**Metodología reproducible**: el Playbook GEO que impulsa cada calculadora de costo en este sitio obliga la verificación curl de cada valor $ antes de publicar. Cada fila en la tabla anterior tiene una cita; cada ejemplo trabajado usa esas filas; cada respuesta de FAQ las refleja. Si encuentras una discrepancia con la página vigente, trata la página vigente como canónica y cuéntanos — re-obtenemos y actualizamos.

Cómo estimar el costo de cualquier llamada a la API de DeepSeek en 5 pasos

  1. 1

    Estima tus tokens de entrada

    Toma el recuento de caracteres de tu prompt y divide por 4, o su recuento de palabras y divide por 0.75. Regla de pulgar: 1 token ≈ 4 caracteres ≈ 0.75 palabras inglesas. Un prompt de sistema de 500 palabras + un mensaje de usuario de 200 palabras es aproximadamente (500 + 200) ÷ 0.75 ≈ 933 tokens de entrada. El tokenizador de DeepSeek es BPE a nivel de byte, lo suficientemente similar a los tokenizadores GPT para que la estimación de regla de pulgar esté dentro del 5-10% para contenido en inglés.

    → Open the Generador de prompts IA
  2. 2

    Estima tus tokens de salida (y agrega sobrecarga de razonamiento para R1/V4-Pro)

    Estima salida de la misma manera — palabras ÷ 0.75. En V3 y V4-Flash, la salida es lo que ves. En R1 y V4-Pro, agrega un multiplicador de 5-15x para dar cuenta de tokens de razonamiento encadenado que se facturan como salida pero no se devuelven a ti. Si estableces un límite de `max_tokens`, ese es tu techo de peor caso — úsalo para presupuestar conservadoramente, especialmente en modelos de razonamiento.

  3. 3

    Busca el precio de entrada y salida por 1M

    De la tabla anterior (verificada junio de 2026): DeepSeek-V3 $0.14 / $0.28, DeepSeek-V4-Flash $0.14 / $0.28, DeepSeek-V4-Pro $0.435 / $0.87, DeepSeek-R1 $0.55 / $2.19. Siempre verifica api-docs.deepseek.com antes de enviar — los precios se mueven hacia abajo 4-6 veces por año en este proveedor.

  4. 4

    Aplica la fórmula de costo

    cost = (input_tokens / 1,000,000) × input_price + (output_tokens / 1,000,000) × output_price. Una llamada de 1,000 entrada / 500 salida en DeepSeek-V3 = 0.001 × $0.14 + 0.0005 × $0.28 = $0.00014 + $0.00014 = $0.00028. La misma llamada en GPT-5.5 cuesta $0.020 — DeepSeek es 71x más barato end-to-end en esta llamada representativa.

  5. 5

    Aplica descuentos de caché-hit al prefijo cacheable

    La entrada en caché se factura al 10% de estándar en V3 y R1, 2% en V4-Flash, y 0.83% en V4-Pro. Estructura prompts con prefijo primero: prompt del sistema estable y definiciones de herramientas al inicio, contenido de usuario dinámico al final. Un prefijo en caché de 1,500 tokens en V4-Pro ahorra $0.000647 por llamada vs sin caché. En 1M llamadas/mes eso es $647 en ahorros adicionales además de un precio base ya de nivel industria bajo.

Frequently Asked Questions

¿Cuánto cuesta DeepSeek en 2026?

A partir de junio de 2026, DeepSeek-V3 cobra $0.14 por 1M tokens de entrada y $0.28 por 1M de salida. DeepSeek-V4-Flash coincide con V3 en precios titulares con descuentos de caché más profundos. DeepSeek-V4-Pro es $0.435 / $0.87. DeepSeek-R1 (razonamiento) es $0.55 / $2.19. Los hits de caché se facturan al 90-98% de descuento en la tasa de entrada estándar. Una llamada representativa de 1,000 entrada / 500 salida en V3 cuesta $0.00028 — aproximadamente 1/71 de la misma llamada en OpenAI GPT-5.5. Fuente: página de precios de API de DeepSeek.

Precios DeepSeek V3 vs R1 — ¿cuál debería usar?

Usa V3 ($0.14 / $0.28 por 1M) para chat general, clasificación, resumen, extracción y la mayoría de generación de código — es el tier caballo de batalla. Usa R1 ($0.55 / $2.19 por 1M) solo para tareas que genuinamente requieren razonamiento de múltiples pasos: matemáticas complejas, problemas científicos, síntesis de código con restricciones de corrección. R1 genera 3,000-10,000 tokens de razonamiento encadenado antes de la respuesta visible, todos facturados como salida — una llamada típica de R1 cuesta 5-30x más que la llamada V3 equivalente una vez que se incluye la sobrecarga de razonamiento. Usa V3 por defecto; actualiza a R1 solo cuando una evaluación muestre V3 fallando.

¿Es DeepSeek más barato que GPT-5?

Sí, dramáticamente. En cargas de trabajo idénticas, la entrada de DeepSeek-V3 es 35.7x más barata que GPT-5.5 ($0.14 vs $5.00 por 1M) y la salida de DeepSeek-V3 es 107.1x más barata ($0.28 vs $30.00 por 1M). Una llamada de 1,000 entrada / 500 salida cuesta $0.00028 en V3 vs $0.020 en GPT-5.5 — 71x más barato end-to-end. En 1M llamadas/mes, las facturas son $280 vs $20,000 — una brecha de $19,720/mes. La calidad es comparable en la mayoría de tareas sin razonamiento; ejecuta una evaluación en tu tarea específica antes de migrar tráfico de producción.

¿Cuál es el costo de la API de DeepSeek por millón de tokens?

Por 1M tokens, junio de 2026: entrada DeepSeek-V3 $0.14 / caché-hit $0.014 / salida $0.28. Entrada DeepSeek-V4-Flash $0.14 / caché-hit $0.0028 / salida $0.28. Entrada DeepSeek-V4-Pro $0.435 / caché-hit $0.003625 / salida $0.87. Entrada DeepSeek-R1 $0.55 / caché-hit $0.055 / salida $2.19. Los cuatro modelos son los más baratos en sus respectivos tiers de calidad entre proveedores de API de calidad de frontera importante a partir de esta captura.

¿Qué es DeepSeek V4?

DeepSeek V4 es la generación de 2026, disponible en dos SKUs: V4-Flash (barato, alto rendimiento, baja latencia — el mismo titular de $0.14/$0.28 que V3 con descuentos de caché más profundos al 98% de descuento en hits de caché) y V4-Pro ($0.435/$0.87, tier general premium con razonamiento más fuerte, generación coherente más larga, herramientas de agencia más confiables). Los hits de caché de V4-Pro descienden a $0.003625/1M — la tasa de entrada más barata de cualquier proveedor importante en 2026. V4 se posiciona como el tier de volumen de DeepSeek (V4-Flash) más tier premium (V4-Pro), separado del modelo de razonamiento dedicado R1.

¿Comparación de costo DeepSeek vs OpenAI a escala?

En 1M llamadas/mes con mezcla de token de 1,000 entrada / 500 salida: OpenAI GPT-5.5 cuesta $20,000/mes estándar o ~$8,300/mes con Batch+caché. OpenAI GPT-5.4-mini cuesta $3,000/mes estándar o ~$1,200/mes con descuentos. DeepSeek-V3 cuesta $280/mes estándar o ~$200/mes con caché. DeepSeek-V4-Flash cuesta $280/mes o ~$192/mes con caché profundo. Incluso el tier más barato de OpenAI (gpt-5.4-nano en $825/mes) es 4-5x más caro que DeepSeek-V3. El caso de costo para DeepSeek es abrumador cuando la calidad es comparable en tu tarea específica.

¿Es DeepSeek seguro para producción?

Depende de la carga de trabajo. DeepSeek es China-based, procesado en infraestructura de jurisdicción PRC, y no es apropiado para cargas de trabajo reguladas: cuidados de salud HIPAA US, PII financiero US, residencia GDPR estricta EU, FedRAMP/DoD, datos técnicos controlados por exportación ITAR/EAR. Usa OpenAI Enterprise, Azure OpenAI, AWS Bedrock o Anthropic en AWS para esos casos. DeepSeek SÍ es apropiado para: herramientas internas, automatización para desarrolladores, pipelines de contenido en material no sensible, prototipado, procesamiento por lotes de datos públicos, proyectos paralelos, flujos de trabajo agentes en entradas sintéticas. Construye en un proveedor de respaldo para uso crítico de misión — la postura de SLA empresarial de DeepSeek es inmadura relativos a los grandes tres proveedores a partir de mediados de 2026.

¿Cómo funciona el descuento de caché-hit de DeepSeek?

Los hits de prompt-cache — porciones de tu prefijo de entrada que DeepSeek ha visto en una llamada previa reciente dentro de la ventana de caché — se facturan a una fracción de la tasa de entrada estándar. V3 y R1: 10% de estándar (90% de descuento). V4-Flash: 2% de estándar (98% de descuento). V4-Pro: 0.83% de estándar (99.17% de descuento — el descuento de caché más profundo de cualquier proveedor importante en 2026). El caché es de prefijo único: coloca prompts de sistema estables y definiciones de herramientas primero en tu array de mensajes, contenido de usuario dinámico último. Un prefijo en caché de 1,500 tokens en V4-Pro ahorra $0.000647 por llamada vs sin caché — $647/mes en 1M llamadas.

Ya en la API más barata. Ahora escribe prompts que no lo desperdicien.

DeepSeek factura centavos. Pero un prompt hinchado en V3 supera uno limpio en GPT-5.5. Nuestro Generador de Prompts IA escribe prompts ajustados y model-tuned basados en TU negocio + tarea. Prueba gratis 14 días, sin tarjeta.

Browse all prompt tools →

Biblioteca gratuita de prompts — más de 100 prompts listos para copiar

Prompts seleccionados cada semana para ChatGPT, Claude, Midjourney y DALL·E. Sin spam. Cancela cuando quieras.

Sin spam. Un correo por semana. Más de ~12.000 usuarios de prompts ya suscritos.