La formule de coût (identique à tous les autres fournisseurs)
Chaque appel DeepSeek API suit les mêmes mathématiques que OpenAI, Anthropic ou tout autre fournisseur facturant par tokens. Il n'y a pas de frais de plateforme, pas de frais par appel, pas de dépense minimale. Vous payez pour ce que vous envoyez et ce que vous récupérez, au taux par 1M tokens du modèle :
``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```
L'ajustement spécifique à DeepSeek qui compte : entrée cache-hit. Les portions de votre préfixe de prompt que DeepSeek a vu dans un appel antérieur récent dans la fenêtre du cache sont facturées au taux cache-hit. Sur V3 et R1, c'est exactement 10% de l'entrée standard (90% de réduction). Sur V4-Flash et V4-Pro, cela tombe à 2% et 0,83% respectivement — pratiquement gratuit. Les prompts système stables et longs, les schémas d'outils fixes et les blocs few-shot réutilisés sont les gagnants typiques. L'activation du cache est automatique — vous ne passez pas de drapeau ; le serveur DeepSeek fait correspondre votre préfixe de prompt au cache et applique la remise en facturation.
Les tokens de raisonnement sur DeepSeek-R1 et DeepSeek-V4-Pro sont facturés au taux de sortie même s'ils ne sont pas retournés à l'appelant — la même forme que la série o d'OpenAI. Un modèle qui réfléchit pendant 6 000 tokens avant de produire une réponse de 400 tokens facture 6 400 tokens de sortie. Budgétisez un budget de sortie 5-15x sur les tâches lourdes en raisonnement par rapport aux tâches de chat simples. R1 en particulier a été mesuré générant 3 000-10 000 tokens de raisonnement sur des problèmes complexes — modélisez cela dans vos estimations par appel ou vous serez surpris par la facture.