Par l'équipe DDH · Digital Dashboard Hub

Calculatrice de coûts DeepSeek API (2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

DeepSeek est le disrupteur de tous les graphiques de tarification d'API en 2026. DeepSeek-V3 facture $0.14 par 1M tokens d'entrée et $0.28 par 1M tokens de sortie — environ 1/35e du prix d'entrée et 1/107e du prix de sortie du GPT-5.5 d'OpenAI ($5 / $30) avec une qualité quasiment comparable sur la plupart des tâches sans raisonnement. DeepSeek-R1 facture $0.55 / $2.19 — environ 96% moins cher que le o1 déprécié d'OpenAI ($15 / $60) avec une qualité de raisonnement comparable selon les benchmarks publics.

Chaque appel DeepSeek dispose des deux mêmes flux tarifés que tout autre API : les tokens d'entrée (votre prompt, message système, tours relus, définitions d'outils) et les tokens de sortie (tout ce que le modèle écrit en retour, y compris le raisonnement chaîne-de-pensée sur R1 et V4-Pro). DeepSeek les tarife à des taux par 1M différents, la sortie étant généralement 2-4x l'entrée sur toute la gamme — un écart beaucoup plus plat que le ratio 5-6x chez OpenAI ou Anthropic, ce qui signifie que les charges de travail gourmandes en sortie en bénéficient de manière disproportionnée sur DeepSeek.

Le plus grand levier de coût spécifique à DeepSeek est la remise cache-hit : les hits du cache de prompt sont facturés à 10% du taux d'entrée standard sur V3 et R1 (90% de réduction), et aussi peu que 2% sur V4-Flash et V4-Pro (98%+ de réduction). Cela rend DeepSeek de loin le fournisseur le moins cher pour les charges de travail cache-friendly — prompts système stables et longs, schémas d'outils répétés, exemples few-shot.

Ci-dessous : le tableau de prix complet de juin 2026 vérifié par rapport à la documentation API officielle de DeepSeek, la formule de coût canonique, quatre exemples élaborés (appel unique, 100k appels, 1M appels, boucle d'agent) aux mêmes volumes de tokens que notre calculateur OpenAI pour une comparaison directe, une comparaison dédiée côte à côte vs GPT-5.5, les mises en garde que chaque équipe en secteur réglementé doit lire, et 8 FAQ. Ajoutez cette page à vos favoris — et rédigez rapidement des prompts qui ne gaspillent pas les tokens avec notre générateur de prompts ChatGPT gratuit. Calculateurs complémentaires : coûts OpenAI API · coût GPT-5 · coût raisonnement o1.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Tarif DeepSeek API par 1M tokens — juin 2026

Feature	Entrée ($/1M)	Entrée cache-hit ($/1M)	Sortie ($/1M)
DeepSeek-V3	$0.14	$0.014	$0.28
DeepSeek-R1	$0.55	$0.055	$2.19
DeepSeek-V4-Flash	$0.14	$0.0028	$0.28
DeepSeek-V4-Pro	$0.435	$0.003625	$0.87

Source, au 30 juin 2026 : tarification API DeepSeek (https://api-docs.deepseek.com/quick_start/pricing) et https://deepseek.ai/pricing. La tarification cache-hit s'applique uniquement aux hits du cache de prompt — les défauts du cache sont facturés au taux d'entrée standard. Les hits du cache V3 et R1 sont 90% off ; les hits du cache V4-Flash et V4-Pro sont 98%+ off (le taux d'entrée le moins cher de la plateforme de tout fournisseur majeur en 2026). R1 et V4-Pro incluent le raisonnement chaîne-de-pensée facturation comme tokens de sortie — budgétisez les budgets de sortie en conséquence. Aucun niveau Batch API public en date de cet instantané. Tous les prix en USD.

La formule de coût (identique à tous les autres fournisseurs)

Chaque appel DeepSeek API suit les mêmes mathématiques que OpenAI, Anthropic ou tout autre fournisseur facturant par tokens. Il n'y a pas de frais de plateforme, pas de frais par appel, pas de dépense minimale. Vous payez pour ce que vous envoyez et ce que vous récupérez, au taux par 1M tokens du modèle :

``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```

L'ajustement spécifique à DeepSeek qui compte : entrée cache-hit. Les portions de votre préfixe de prompt que DeepSeek a vu dans un appel antérieur récent dans la fenêtre du cache sont facturées au taux cache-hit. Sur V3 et R1, c'est exactement 10% de l'entrée standard (90% de réduction). Sur V4-Flash et V4-Pro, cela tombe à 2% et 0,83% respectivement — pratiquement gratuit. Les prompts système stables et longs, les schémas d'outils fixes et les blocs few-shot réutilisés sont les gagnants typiques. L'activation du cache est automatique — vous ne passez pas de drapeau ; le serveur DeepSeek fait correspondre votre préfixe de prompt au cache et applique la remise en facturation.

Les tokens de raisonnement sur DeepSeek-R1 et DeepSeek-V4-Pro sont facturés au taux de sortie même s'ils ne sont pas retournés à l'appelant — la même forme que la série o d'OpenAI. Un modèle qui réfléchit pendant 6 000 tokens avant de produire une réponse de 400 tokens facture 6 400 tokens de sortie. Budgétisez un budget de sortie 5-15x sur les tâches lourdes en raisonnement par rapport aux tâches de chat simples. R1 en particulier a été mesuré générant 3 000-10 000 tokens de raisonnement sur des problèmes complexes — modélisez cela dans vos estimations par appel ou vous serez surpris par la facture.

Exemple élaboré 1 : un seul appel 1 000-in / 500-out

Prenez le même appel représentatif que nous utilisons sur tous les calculateurs de coûts de ce site — un prompt de 1 000 tokens qui retourne une réponse de 500 tokens, environ 750 mots en entrée et une réponse de 375 mots en sortie. Aux taux standard, le coût par appel est :

DeepSeek-V3 : (1000 / 1 000 000) × $0.14 + (500 / 1 000 000) × $0.28 = $0.00014 + $0.00014 = **$0.00028 par appel**.

DeepSeek-V4-Flash : 0.001 × $0.14 + 0.0005 × $0.28 = $0.00014 + $0.00014 = **$0.00028 par appel**.

DeepSeek-V4-Pro : 0.001 × $0.435 + 0.0005 × $0.87 = $0.000435 + $0.000435 = **$0.00087 par appel**.

DeepSeek-R1 : 0.001 × $0.55 + 0.0005 × $2.19 = $0.00055 + $0.001095 = **$0.001645 par appel** (suppose zéro tokens de raisonnement, ce qui n'est pas réaliste — voir ci-dessous).

R1 avec surcharge de raisonnement réaliste : supposez que R1 génère 3 000 tokens de raisonnement avant la réponse de 500 tokens, facturés comme 3 500 sortie. Coût : 0.001 × $0.55 + 0.0035 × $2.19 = $0.00055 + $0.007665 = **$0.00822 par appel**. Même avec une inflation de sortie 5x due au raisonnement, R1 bat toujours GPT-5.5 ($0.020/appel) de 2.4x et écrase le o1 déprécié ($0.045/appel aux taux standard) de 5.5x.

Pour les charges de travail non raisonnantes, le nombre par appel à ancrer est **$0.00028 sur V3 ou V4-Flash** — environ 1/71e du prix du même appel sur GPT-5.5 ($0.020) et 1/3000e du prix du même appel sur GPT-5.5-pro ($0.120).

Exemple élaboré 2 : 100 000 appels par mois

Multipliez les nombres par appel par 100 000. C'est une charge de travail de taille moyenne réaliste — classification quotidienne sur 3 000+ enregistrements, résumé hebdomadaire, une boucle d'agent faible volume :

DeepSeek-V3 / V4-Flash : **$28/mois**. DeepSeek-V4-Pro : **$87/mois**. DeepSeek-R1 (zéro raisonnement) : **$165/mois**. DeepSeek-R1 (3k raisonnement réaliste par appel) : **$822/mois**.

Comparaison directe : la même charge de travail 100k-appels sur OpenAI GPT-5.5 coûte $2 000/mois. Sur V3, cela coûte $28 — une réduction de 71x, ou $1 972/mois économisés. Sur GPT-5.5-pro, cela coûte $12 000/mois ; sur DeepSeek-V4-Pro, l'équivalent de niveau de qualité (général, premium) coûte $87/mois — 138x moins cher.

Appliquez maintenant la remise du cache à V3, avec 800 sur 1 000 tokens d'entrée étant un préfixe système stable qui hit le cache 80% du temps. Ces 640 tokens en cache × 100 000 appels = 64M tokens, baissant de $0.14/1M à $0.014/1M. Le coût de l'entrée en cache : 64 × $0.014 = $0.90. Entrée non en cache : 36M × $0.14/1M = $5.04. Sortie : 50M × $0.28/1M = $14.00. Total : **$19.94/mois** vs $28 non en cache — une réduction supplémentaire de 29% sur un prix déjà bon marché.

Sur V4-Flash avec le même modèle de cache (98% off sur les hits du cache), le coût de la partie en cache tombe à $0.18 (64M × $0.0028/1M). Total : $19.22/mois. Les économies supplémentaires marginales de la remise de cache plus profonde de V4-Flash sur V3 sont petites à ce volume — mais à l'échelle 10x+, cela s'accumule matériellement.

Exemple élaboré 3 : passage à 1 000 000 appels

Maintenant, augmentez à 1M appels — une charge de travail de production à pleine échelle (par exemple, résumé par utilisateur sur une application SaaS avec 30 000 utilisateurs actifs exécutant 33 appels/mois chacun, ou un pipeline de classification haut volume) :

DeepSeek-V3 / V4-Flash : **$280/mois**. DeepSeek-V4-Pro : **$870/mois**. DeepSeek-R1 (zéro raisonnement) : **$1 645/mois**. DeepSeek-R1 (3k raisonnement réaliste par appel) : **$8 220/mois**.

Appliquez le même préfixe en cache 80%-d'entrée à un taux hit de 80% à l'échelle 1M à V4-Flash : tokens en cache 640M × $0.0028/1M = $1.79. Entrée non en cache 360M × $0.14/1M = $50.40. Sortie 500M × $0.28/1M = $140. Total : **$192.19/mois** pour 1 million d'appels. Ce n'est pas une coquille — sous $200 pour une charge de travail à l'échelle production qui coûterait $20 000 sur la tarification standard GPT-5.5.

Côte à côte à 1M appels/mois, mélange de tokens identique :

**OpenAI GPT-5.5** : $20 000/mo standard, ~$8 300/mo avec pile complète Batch + cache.

**OpenAI GPT-5.4-mini** : $3 000/mo standard, ~$1 200/mo avec Batch + cache.

**DeepSeek-V3** : $280/mo standard, ~$200/mo avec cache.

**DeepSeek-V4-Flash** : $280/mo standard, ~$192/mo avec cache profond.

L'étage le moins cher sur OpenAI (gpt-5.4-nano à $825/mo pour cette charge de travail) est toujours 4-5x plus cher que l'étage le moins cher de DeepSeek. L'ordre du levier canonique pour réduire les coûts à grande échelle sur DeepSeek : (1) choisissez V3 ou V4-Flash pour les tâches sans raisonnement, (2) restructurez les prompts pour que le préfixe cacheable soit stable et en avant, (3) limitez la longueur de sortie, (4) n'utilisez R1 que lorsque la tâche nécessite vraiment la profondeur du raisonnement.

Exemple élaboré 4 : une véritable boucle d'agent de production sur DeepSeek-V3

Une boucle d'agent est la pire forme de coût — le modèle fait plusieurs tours par requête utilisateur, relisant le transcript complet à chaque tour. Prenez une boucle typique de 5 tours avec un prompt système de 2 000 tokens + outils, contexte grandissant de 800 tokens par tour (même forme que notre exemple d'agent OpenAI élaboré pour comparaison directe) :

Tour 1 : 2 800 in / 200 out. Tour 2 : 3 000 in / 200 out. Tour 3 : 3 200 in / 200 out. Tour 4 : 3 400 in / 200 out. Tour 5 : 3 600 in / 200 out. Total : 16 000 entrée + 1 000 sortie. Sur DeepSeek-V3 : 0.016 × $0.14 + 0.001 × $0.28 = $0.00224 + $0.00028 = **$0.00252 par requête de 5 tours** — environ 9x un appel unique (la forme d'agent gonfle le coût sur tous les fournisseurs).

Comparaison : la même boucle de 5 tours sur GPT-5.5 coûte $0.11 par requête. Sur DeepSeek-V3, cela coûte $0.00252 — une **réduction de 43x**. À 100 000 requêtes/mois, GPT-5.5 facture $11 000 ; V3 facture $252.

Appliquez maintenant le cache. Le préfixe de 2 000 tokens système + outils est stable sur tous les 5 tours. Si le cache hit ~80% de ces 2 000 tokens × 5 tours = 8 000 tokens d'entrée en cache tombent de $0.14/1M à $0.014/1M : $0.000647 → $0.000112, économisant environ $0.001 par requête (40% off la facture). Pour 100 000 requêtes/mois : de $252 → $151. La structure du cache est le changement le plus EV du seul plus haut disponible sur la plateforme — DeepSeek inclus. Construisez des prompts ancrés au cache gratuitement avec notre générateur de prompts code.

DeepSeek vs OpenAI sur charge de travail identique (la comparaison directe)

Sur un appel 1 000-in / 500-out, en tenant le volume de tokens constant :

**Ratio de prix d'entrée** : GPT-5.5 facture $5/1M, DeepSeek-V3 facture $0.14/1M. C'est **35,7x moins cher en entrée** sur DeepSeek. **Ratio de prix de sortie** : GPT-5.5 facture $30/1M, DeepSeek-V3 facture $0.28/1M. C'est **107,1x moins cher en sortie** sur DeepSeek. Le ratio entrée/sortie plus plat sur DeepSeek (2:1 vs 6:1 d'OpenAI) signifie que les charges de travail gourmandes en sortie voient des économies disproportionnément plus grandes vs celles gourmandes en entrée.

**Ratio de coût par appel** : $0.020 sur GPT-5.5 vs $0.00028 sur DeepSeek-V3 = **71,4x moins cher** de bout en bout. À 1M appels/mois, c'est la différence entre une facture mensuelle de $20 000 et une facture mensuelle de $280 — une réduction de $19 720 sans autre changement de workflow.

**Comparaison du modèle de raisonnement** : o1 déprécié d'OpenAI facturaît $15 entrée / $60 sortie par 1M. DeepSeek-R1 facture $0.55 / $2.19. C'est **27,3x moins cher en entrée et 27,4x moins cher en sortie** — environ 96% moins cher de bout en bout avec une qualité de raisonnement comparable selon les benchmarks publics (R1 est compétitif ou dépasse o1 sur MATH, AIME et plusieurs tâches de raisonnement de code selon les évaluations publiées).

**Mise en garde de qualité** : DeepSeek-V3 et V4-Flash sont *à peu près* équivalents à GPT-5.5 sur le chat général, la résumé, la classification, la génération de code pour les langages communs. Ils ne sont pas équivalents sur toutes les tâches. L'écart apparaît généralement sur : cohérence de contexte long passé 64K tokens, raisonnement multi-étapes novel que le modèle n'a pas vu les motifs pour, certains motifs d'utilisation d'outils agentic où OpenAI a investi lourdement dans le fine-tuning. Exécutez votre propre éval sur votre propre tâche avant de migrer une charge de travail de production.

**La règle de décision rationnelle** : pour les charges de travail où la qualité est comparable sur une éval tenue de votre tâche actuelle, DeepSeek est une évidence à 35-107x moins cher. Pour les charges de travail où GPT-5.5 gagne mesurément votre éval de plus que ~10 points de pourcentage sur la métrique qui vous importe, la prime OpenAI peut être justifiée — mais la barre devrait être la preuve, pas les impressions.

Quand choisir V3 vs R1 vs V4-Flash vs V4-Pro

**DeepSeek-V3 ($0.14 / $0.28)** : la bête de somme. Chat général, résumé, classification, extraction, génération de code dans les langages courants, tâches de sortie structurée. La default pour la plupart du trafic de production. Contexte de 64K. Utilisez cela à moins que vous ayez une raison spécifique de choisir un autre étage.

**DeepSeek-V4-Flash ($0.14 / $0.28)** : même prix d'intitulé que V3, avec des remises de cache plus profondes (98% off cache hits vs 90% sur V3) et accordé pour haut débit faible latence. Le sweet spot pour charges de travail de haut volume cache-friendly — prompts système stables et longs, schémas d'outils répétés, boucles d'agent avec blocs d'instruction fixes. Si votre prompt est ancré au cache, V4-Flash dépasse V3.

**DeepSeek-V4-Pro ($0.435 / $0.87)** : l'étage général-purpose premium. Qualité supérieure sur raisonnement complexe, génération cohérente plus longue, plus fiable sur l'utilisation d'outils agentic. Environ 3x le prix de V3 — toujours 11x moins cher en entrée et 34x moins cher en sortie que GPT-5.5. Utilisez quand la qualité de V3 est insuffisante mesurément sur votre tâche et que vous n'avez pas encore justifié une mise à niveau vers un véritable modèle de raisonnement.

**DeepSeek-R1 ($0.55 / $2.19)** : le modèle de raisonnement. Math multi-étapes, synthèse de code complexe avec contraintes de correction, raisonnement scientifique, planification. R1 génère des tokens de raisonnement chaîne-de-pensée (facturés comme sortie) avant de produire la réponse visible. Budgétisez inflation de sortie 5-15x. Utilisez R1 quand la tâche nécessite vraiment la profondeur du raisonnement que la correspondance de motifs seule ne peut pas produire — pas pour le chat, pas pour la classification, pas pour la résumé où elle dépense sans valeur-ajout.

**Raccourci de décision d'étage** : commencez chaque nouvelle charge de travail sur V3 ou V4-Flash. Mettez à niveau uniquement vers V4-Pro ou R1 quand une éval tenue de votre tâche actuelle montre que l'étage moins cher échoue. Les étages premium existent pour les cas qui en ont besoin — la plupart du trafic de production ne le fait pas.

Tarification cache-hit : comment 90-98% off fonctionne en pratique sur DeepSeek

La remise cache-hit de DeepSeek est la plus profonde de tout fournisseur majeur en 2026. Sur V3 et R1, les hits du cache sont facturés à 10% de l'entrée standard (90% off). Sur V4-Flash, les hits du cache sont facturés à $0.0028/1M — exactement 2% de l'entrée standard ($0.14). Sur V4-Pro, les hits du cache sont facturés à $0.003625/1M — 0,83% de l'entrée standard ($0.435), ou une remise de 99,17% sur la portion en cache.

Le cache est opportuniste et côté serveur. DeepSeek calcule une empreinte de votre préfixe de prompt et la met en cache. Les appels ultérieurs dans la fenêtre du cache qui partagent le même préfixe lisent du cache. La règle dure, identique à chaque implémentation prompt-cache : **la mise en cache est une correspondance de préfixe, pas une correspondance de substring**. Mettez votre prompt système stable, définitions d'outils et exemples few-shot réutilisables au début du tableau de messages. Le contenu dynamique spécifique à l'utilisateur va à la fin.

Un préfixe en cache de 1 500 tokens sur V4-Pro tombe de $0.435/1M à $0.003625/1M — c'est $0.000647 économisés par appel. À 1M appels/mois, c'est $647 économisés sur une charge de travail qui coûte déjà sous $1 000. L'effet de composition du prix déjà bas de DeepSeek plus sa remise de cache la plus profonde du marché fait que la conception de prompt ancrée au cache est le changement single le plus EV disponible sur la plateforme.

La plupart des SDK LLM ne nécessitent pas de changements de code pour accepter — la mise en cache s'active automatiquement une fois que vous structurez les prompts en premier préfixe. La plus grande erreur que nous voyons (identique à OpenAI) : les équipes interpolent le contexte dynamique (date actuelle, ID utilisateur, état de session) dans le prompt système, ce qui casse tous les hits du cache. Déplacez cela vers un message utilisateur et le cache tient. Notre tutoriel de mise en cache de prompt couvre la réécriture structurelle qui transforme un prompt non-cache en un prompt ancré au cache — les règles structurelles s'appliquent identiquement sur DeepSeek.

Les mises en garde : quand NE PAS utiliser DeepSeek

DeepSeek est un fournisseur basé en Chine, basé et opérant sous juridiction RPC. C'est un fait fondamental pour toute charge de travail où la résidence des données, l'exposition juridique ou la souveraineté des fournisseurs compte. Les économies de coûts sont réelles, mais elles n'effacent pas les réalités réglementaires ou de risque.

**Secteurs réglementés — ne pas utiliser DeepSeek généralement pour production** : soins de santé US (données couvertes HIPAA), services financiers US avec PII, charges de travail UE soumises à des interprétations strictes de résidence des données GDPR, contrats fédéraux US soumis à conformité FedRAMP ou DoD, toute charge de travail couverte par données techniques contrôlées à l'exportation (ITAR/EAR). Le cas de coûts pour DeepSeek ne survit pas à l'examen de conformité dans ces domaines. Utilisez OpenAI Enterprise, Azure OpenAI, AWS Bedrock ou Anthropic sur AWS à la place — considérablement plus cher, mais avec la résidence et la posture contractuelle que vos auditeurs exigeront.

**Exposition aux données** : les requêtes API à DeepSeek sont traitées sur l'infrastructure en Chine continentale. Traitez chaque prompt et réponse comme potentiellement observable par le fournisseur. N'envoyez pas PII, données financières client, secrets commerciaux, code source sous NDA ou tout ce que vous seriez mal à l'aise d'agréger pour l'amélioration du modèle. Les conditions publiées de DeepSeek autorisent l'utilisation de données d'entraînement des soumissions API dans certaines configurations — lisez les conditions actuelles avant d'intégrer, pas après.

**Fiabilité et posture SLA** : les SLA de qualité commerciale de DeepSeek et le support d'entreprise ne sont pas murs par rapport à OpenAI, Anthropic ou AWS Bedrock à la mi-2026. Pour les charges de travail mission-critique où le temps d'arrêt se traduit directement par une perte de revenus, intégrez un fournisseur de secours — la plupart des équipes expédiant DeepSeek en production l'exécutent comme l'économiseur de coûts primaire avec un fallback GPT-5.4-mini ou Gemini câblé via une simple couche de failover.

**Où DeepSeek excelle** : outils internes, automatisation pour développeurs, pipelines de génération de contenu pour matériau non sensible, prototypage, génération d'éval, traitement par batch de données publiques, side-projects, workflows agentic sur entrées synthétiques ou non sensibles, n'importe où où la réduction de coût est la contrainte contraignante et la surface de conformité/résidence est faible. Pour ces cas, l'écart de coût 35-107x est impossible à ignorer.

Erreurs fréquentes qui gonflent la facture DeepSeek

**Erreur 1 : default à R1 pour tout**. R1 est un modèle de raisonnement — il génère des milliers de tokens chaîne-de-pensée avant la réponse visible, tous facturés au taux de sortie. Une tâche de classification simple qui a besoin de 200 tokens de sortie factura 3 000+ tokens de sortie sur R1 parce que le modèle 'pense' d'abord. Utilisez V3 ou V4-Flash sauf si la tâche nécessite vraiment le raisonnement.

**Erreur 2 : énormes prompts système qui ne sont jamais mis en cache**. Anti-motif identique à OpenAI. Si votre prompt système interpole quoi que ce soit qui change entre appels (timestamps, noms d'utilisateurs, résumés de contexte), le cache ne hit jamais — et vous perdez la remise 90-98% qui rend le prix déjà bas de DeepSeek dans le territoire réellement-gratuit. Restructurez pour que le prompt système soit statique et le contexte dynamique vit dans les messages utilisateur.

**Erreur 3 : ne pas limiter la sortie, spécialement sur R1 et V4-Pro**. R1 en particulier peut générer 10 000+ tokens de raisonnement sur des problèmes difficiles. Sans plafond `max_tokens`, une seule requête complexe peut coûter 5-10x ce que vous aviez budgétisé. Définissez des plafonds de sortie explicites partout où vous contrôlez la forme de consommation.

**Erreur 4 : rejouer l'historique complet à chaque tour dans un chat**. Résumez les tours antérieurs en un récapitulatif compact de 200 tokens une fois que le contexte dépasse 5 000 tokens. Le prix d'entrée de DeepSeek est bon marché, mais à l'échelle 1M-appels même une entrée bon marché s'additionne — et le taux de hit du cache se dégrade fortement quand le contexte grandit sans limite.

**Erreur 5 : supposer DeepSeek + GPT-5.5 sont équivalents en qualité sur votre tâche sans mesurer**. Exécutez une éval tenue sur 50-200 entrées représentatives de votre trafic de production actuel avant de migrer. Le cas de coûts est accablant quand la qualité est équivalente ; c'est un lancer de pièce quand la qualité est mesurément pire. Ne supposez pas — mesurez.

Méthodologie de sourcing et comment garder ces chiffres à jour

Chaque prix dans ce guide provient de la page de tarification API officielle de DeepSeek à api-docs.deepseek.com/quick_start/pricing et de la page de tarification grand public à deepseek.ai/pricing, extraite le 20-06-2026. Vérification croisée contre trois sources de corroboration indépendantes : agrégateurs de tarification de la communauté, commits d'intégration récents dans les projets open-source populaires (LiteLLM, OpenRouter) et la documentation officielle du développeur DeepSeek. Quand un nombre n'a pas pu être vérifié contre les pages officielles, il a été omis de ce guide.

DeepSeek pousse les changements de prix plus agressivement qu'OpenAI ou Anthropic — nous avons vu 4-6 mouvements de prix par an depuis 2024, généralement à la baisse alors que l'entreprise a concurrencé sur le prix. Les étages V4-Flash et V4-Pro lancés en 2026 avec les remises de cache les plus profondes du marché. Traitez les chiffres d'intitulé comme un instantané, pas un contrat.

**Comment vérifier avant de budgétiser** : ouvrez api-docs.deepseek.com/quick_start/pricing dans une fenêtre incognito, copiez les chiffres pour vos modèles cibles dans une feuille de calcul, comparez contre ce guide. S'ils correspondent, ce guide est à jour pour vos objectifs. S'ils ne le font pas, faites confiance à la page live. Re-vérifiez trimestriellement si votre facture mensuelle est plus de $500 — les mouvements de prix de DeepSeek peuvent être matériels et ils ne viennent pas toujours avec les entrées changelog officielles.

**Ce que nous avons omis** : DeepSeek opère un étage de tarification d'inférence et une plateforme Chat séparée avec tarification d'abonnement consommateur. Ce guide couvre uniquement l'API. Nous omis également toute tarification tier-limite, throughput-tier ou volume-discount qui nécessite contact d'entreprise direct — ceux-ci sont négociés et non publiés. Si vous regardez 10M+ appels/mois, contactez directement les ventes DeepSeek ; les taux publiés sont généralement battables à ce volume sur tout fournisseur.

**Méthodologie reproductible** : le GEO Playbook qui pilote chaque calculateur de coûts sur ce site mandate la vérification curl de chaque valeur $ avant publication. Chaque rangée du tableau ci-dessus a une citation ; chaque exemple élaboré les utilise ; chaque réponse FAQ les reflète. Si vous trouvez une discordance avec la page live, traitez la page live comme canonique et dites-nous — nous re-extraisons et mettons à jour.

Comment estimer n'importe quel coût d'appel DeepSeek API en 5 étapes

1
Estimez vos tokens d'entrée
Prenez le nombre de caractères de votre prompt et divisez par 4, ou son nombre de mots et divisez par 0,75. Règle d'or : 1 token ≈ 4 caractères ≈ 0,75 mots anglais. Un prompt système de 500 mots + un message utilisateur de 200 mots est environ (500 + 200) ÷ 0,75 ≈ 933 tokens d'entrée. Le tokenizer de DeepSeek est BPE au niveau des bytes, assez similaire aux tokenizers GPT pour que l'estimation par règle d'or soit à 5-10% près pour le contenu anglais.
→ Open the Générateur de prompts AI
2
Estimez vos tokens de sortie (et ajoutez surcharge de raisonnement pour R1/V4-Pro)
Estimez la sortie de la même manière — mots ÷ 0,75. Sur V3 et V4-Flash, la sortie est ce que vous voyez. Sur R1 et V4-Pro, ajoutez un multiplicateur 5-15x pour tenir compte des tokens de raisonnement chaîne-de-pensée qui sont facturés comme sortie mais ne sont pas retournés à vous. Si vous définissez un plafond `max_tokens`, c'est votre plafond pire-cas — utilisez-le pour budgétiser de manière conservative, spécialement sur les modèles de raisonnement.
3
Cherchez le prix d'entrée et sortie par 1M
Du tableau ci-dessus (vérifié juin 2026) : DeepSeek-V3 $0.14 / $0.28, DeepSeek-V4-Flash $0.14 / $0.28, DeepSeek-V4-Pro $0.435 / $0.87, DeepSeek-R1 $0.55 / $2.19. Vérifiez toujours api-docs.deepseek.com avant d'expédier — les prix bougent vers le bas 4-6 fois par an sur ce fournisseur.
4
Appliquez la formule de coût
cost = (input_tokens / 1 000 000) × input_price + (output_tokens / 1 000 000) × output_price. Un appel 1 000-in / 500-out sur DeepSeek-V3 = 0.001 × $0.14 + 0.0005 × $0.28 = $0.00014 + $0.00014 = $0.00028. Le même appel sur GPT-5.5 coûte $0.020 — DeepSeek est 71x moins cher de bout en bout sur cet appel représentatif.
5
Appliquez des remises cache-hit au préfixe cacheable
L'entrée en cache est facturée à 10% de l'entrée standard sur V3 et R1, 2% sur V4-Flash et 0,83% sur V4-Pro. Structurez les prompts en premier préfixe : prompt système stable et définitions d'outils au début, contenu utilisateur dynamique à la fin. Un préfixe en cache de 1 500 tokens sur V4-Pro économise $0.000647 par appel vs non-cache — $647/mois à 1M appels.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Générateur de prompts AI (token-tight, model-tuned)→Calculatrice de coûts OpenAI API→Calculatrice de coûts GPT-5→Calculatrice de coûts raisonnement o1→

Frequently Asked Questions

Combien coûte DeepSeek en 2026 ?

En juin 2026, DeepSeek-V3 facture $0.14 par 1M tokens d'entrée et $0.28 par 1M tokens de sortie. DeepSeek-V4-Flash correspond à V3 sur la tarification d'intitulé avec des remises de cache plus profondes. DeepSeek-V4-Pro est $0.435 / $0.87. DeepSeek-R1 (raisonnement) est $0.55 / $2.19. Les hits du cache sont facturés à 90-98% off le taux d'entrée standard. Un appel représentatif 1 000-in / 500-out sur V3 coûte $0.00028 — environ 1/71e du même appel sur OpenAI GPT-5.5. Source : page de tarification API DeepSeek.

Tarification DeepSeek V3 vs R1 — lequel devrais-je utiliser ?

Utilisez V3 ($0.14 / $0.28 par 1M) pour le chat général, la classification, la résumé, l'extraction et la plupart de la génération de code — c'est l'étage bête de somme. Utilisez R1 ($0.55 / $2.19 par 1M) uniquement pour les tâches qui nécessitent vraiment le raisonnement multi-étapes : mathématiques complexes, problèmes scientifiques, synthèse de code avec contraintes de correction strictes. R1 génère 3 000-10 000 tokens chaîne-de-pensée avant la réponse visible, tous facturés comme sortie — un appel R1 typique coûte 5-30x plus qu'un appel V3 équivalent une fois que la surcharge de raisonnement est incluse. Default à V3 ; mettez à niveau vers R1 uniquement quand une éval montre V3 échouant.

DeepSeek est-il moins cher que GPT-5 ?

Oui, dramatiquement. Sur des charges de travail identiques, l'entrée DeepSeek-V3 est 35,7x moins cher que GPT-5.5 ($0.14 vs $5.00 par 1M) et la sortie DeepSeek-V3 est 107,1x moins cher ($0.28 vs $30.00 par 1M). Un appel 1 000-in / 500-out coûte $0.00028 sur V3 vs $0.020 sur GPT-5.5 — 71x moins cher de bout en bout. À 1M appels/mois, les factures sont $280 vs $20 000 — un écart de $19 720/mois. La qualité est comparable sur la plupart des tâches sans raisonnement ; exécutez une éval sur votre tâche spécifique avant de migrer le trafic de production.

Quel est le coût DeepSeek API par million tokens ?

Par 1M tokens, juin 2026 : entrée DeepSeek-V3 $0.14 / cache-hit $0.014 / sortie $0.28. Entrée DeepSeek-V4-Flash $0.14 / cache-hit $0.0028 / sortie $0.28. Entrée DeepSeek-V4-Pro $0.435 / cache-hit $0.003625 / sortie $0.87. Entrée DeepSeek-R1 $0.55 / cache-hit $0.055 / sortie $2.19. Les quatre modèles sont les moins chers dans leurs étages de qualité respectifs parmi les fournisseurs API de qualité frontier majeure en date de cet instantané.

Qu'est-ce que DeepSeek V4 ?

DeepSeek V4 est la génération 2026, disponible en deux SKUs : V4-Flash (bon marché, haut débit, faible latence — même tarification d'intitulé $0.14/$0.28 que V3 avec des remises de cache plus profondes à 98% off cache hits) et V4-Pro ($0.435/$0.87, étage général-purpose premium avec raisonnement plus fort, génération cohérente plus longue, utilisation d'outils agentic plus fiable). Les hits du cache V4-Pro tombent à $0.003625/1M — le taux d'entrée le moins cher de tout fournisseur majeur en 2026. V4 est positionné comme l'étage volume de DeepSeek (V4-Flash) plus étage premium (V4-Pro), séparé du modèle de raisonnement dédié R1.

Comparaison DeepSeek vs OpenAI coûts à grande échelle ?

À 1M appels/mois avec un mélange de tokens 1 000-in / 500-out : OpenAI GPT-5.5 coûte $20 000/mo standard ou ~$8 300/mo avec Batch+cache. OpenAI GPT-5.4-mini coûte $3 000/mo standard ou ~$1 200/mo avec remises. DeepSeek-V3 coûte $280/mo standard ou ~$200/mo avec cache. DeepSeek-V4-Flash coûte $280/mo ou ~$192/mo avec cache profond. Même l'étage OpenAI le moins cher (gpt-5.4-nano à $825/mo) est 4-5x plus cher que DeepSeek-V3. Le cas de coûts pour DeepSeek est accablant quand la qualité est comparable sur votre tâche spécifique.

DeepSeek est-il sûr pour production ?

Cela dépend de la charge de travail. DeepSeek est basé en Chine, traité sur l'infrastructure de juridiction RPC et n'est pas approprié pour les charges de travail réglementées : soins de santé HIPAA US, PII financier US, FedRAMP/DoD, résidence stricte GDPR UE, données techniques contrôlées ITAR/EAR. Utilisez OpenAI Enterprise, Azure OpenAI, AWS Bedrock ou Anthropic sur AWS pour ces cas. DeepSeek EST approprié pour : outils internes, automatisation pour développeurs, pipelines de contenu sur matériau non sensible, prototypage, traitement par batch de données publiques, side-projects, workflows agentic sur entrées synthétiques. Intégrez un fournisseur de secours pour utilisation mission-critique — la posture SLA d'entreprise de DeepSeek n'est pas mûre par rapport aux trois grands fournisseurs en juin 2026.

Comment fonctionne la remise cache-hit de DeepSeek ?

Les hits du cache de prompt — portions de votre préfixe d'entrée que DeepSeek a vu dans un appel antérieur récent dans la fenêtre du cache — sont facturés à une fraction du taux d'entrée standard. V3 et R1 : 10% de l'entrée standard (90% off). V4-Flash : 2% de l'entrée standard (98% off). V4-Pro : 0,83% de l'entrée standard (99,17% off — la remise cache la plus profonde de tout fournisseur majeur en 2026). Le cache est opportuniste et préfixe-uniquement : mettez les prompts système stables et définitions d'outils en premier dans votre tableau de messages, contenu utilisateur dynamique en dernier. Un préfixe en cache de 1 500 tokens sur V4-Pro économise $0.000647 par appel vs non-cache — $647/mois à 1M appels.

Déjà sur l'API la moins chère. Maintenant rédigez des prompts qui ne la gaspillent pas.

DeepSeek facture des centimes. Mais un prompt gonflé sur V3 dépense un qui est propre sur GPT-5.5. Notre Générateur de Prompts AI écrit des prompts serrés et accordés au modèle basé sur VOTRE entreprise + tâche. Essai gratuit de 14 jours, pas de carte.

Browse all prompt tools →