Vom DDH Team · Digital Dashboard Hub

DeepSeek API Kostenrechner (2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

DeepSeek ist der Disruptor auf jedem 2026 API-Preis-Chart. DeepSeek-V3 verrechnet $0.14 pro 1M Input-Token und $0.28 pro 1M Output — ungefähr 1/35 des Input-Preises und 1/107 des Output-Preises von OpenAIs GPT-5.5 ($5 / $30) bei nahezu vergleichbarer Qualität bei den meisten Nicht-Reasoning-Aufgaben. DeepSeek-R1 verrechnet $0.55 / $2.19 — ungefähr 96% günstiger als OpenAIs veraltetes o1 ($15 / $60) bei vergleichbarer Reasoning-Qualität bei öffentlichen Benchmarks.

Jeder DeepSeek-Aufruf hat die gleichen zwei abgerechneten Streams wie jede andere API: Input-Token (Ihr Prompt, Systemnachricht, wiedergegebene Durchläufe, Tool-Definitionen) und Output-Token (alles, was das Modell zurückschreibt, einschließlich Chain-of-Thought-Reasoning bei R1 und V4-Pro). DeepSeek berechnet diese mit unterschiedlichen pro-1M-Raten, wobei Output typischerweise 2-4x Input über die gesamte Produktlinie ist — ein viel flacheres Verhältnis als das 5-6x Verhältnis bei OpenAI oder Anthropic, was bedeutet, dass Output-lastige Workloads bei DeepSeek überproportional profitieren.

Der größte DeepSeek-spezifische Kostenhebel ist der Cache-Hit-Rabatt: Prompt-Cache-Hits werden mit 10% der Standard-Input-Rate bei V3 und R1 abgerechnet (90% Rabatt), und so niedrig wie 2% bei V4-Flash und V4-Pro (98%+ Rabatt). Das macht DeepSeek bis zu einem gewissen Grad zum günstigsten Anbieter für Cache-freundliche Workloads — lange stabile System-Prompts, wiederholte Tool-Schemas, Few-Shot-Beispiele.

Nachfolgend: die vollständige Juni-2026-Preistabelle verifiziert gegen DeepSeeks offizielle API-Docs, die kanonische Kostenformel, vier durchgerechnete Beispiele (einzelner Aufruf, 100k Aufrufe, 1M Aufrufe, Agent-Loop) mit identischen Token-Volumen zu unserem OpenAI-Rechner für direkten Vergleich, ein dedizierter Vergleich mit GPT-5.5, die Vorbehalte, die jedes regulierte Team lesen muss, und 8 FAQs. Speichern Sie diese Seite als Lesezeichen — und entwerfen Sie schnell Prompts, die keine Token verschwenden, mit unserem kostenlosen ChatGPT-Prompt-Generator. Verwandte Rechner: OpenAI API-Kosten · GPT-5-Kosten · o1-Reasoning-Kosten.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

DeepSeek API-Preis pro 1M Token — Juni 2026

Feature	Input ($/1M)	Cache-Hit-Input ($/1M)	Output ($/1M)
DeepSeek-V3	$0.14	$0.014	$0.28
DeepSeek-R1	$0.55	$0.055	$2.19
DeepSeek-V4-Flash	$0.14	$0.0028	$0.28
DeepSeek-V4-Pro	$0.435	$0.003625	$0.87

Quelle, Stand Juni 2026: DeepSeek API-Preise (https://api-docs.deepseek.com/quick_start/pricing) und https://deepseek.ai/pricing. Cache-Hit-Preise gelten nur für Prompt-Cache-Hits — Cache-Misses werden mit der Standard-Input-Rate abgerechnet. V3 und R1 Cache-Hits erhalten 90% Rabatt; V4-Flash und V4-Pro Cache-Hits erhalten 98%+ Rabatt (die günstigste Input-Rate der Plattform von jedem großen Anbieter 2026). R1 und V4-Pro enthalten Chain-of-Thought-Reasoning, das als Output-Token abgerechnet wird — planen Sie Ihr Output-Budget entsprechend. Keine öffentliche Batch-API-Stufe bei diesem Snapshot. Alle Preise in USD.

Die Kostenformel (identisch mit jedem anderen Anbieter)

Jeder DeepSeek API-Aufruf folgt der gleichen Mathematik wie OpenAI, Anthropic oder jeder andere Token-abgerechnete Anbieter. Es gibt keine Plattformgebühr, keine Pro-Call-Gebühr, kein Mindestausgaben. Sie zahlen für das, was Sie senden und was Sie zurückbekommen, mit der pro-1M-Token-Rate des Modells:

``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```

Die DeepSeek-spezifische Anpassung, die wichtig ist: Cache-Hit-Input. Teile Ihres Prompt-Präfixes, die DeepSeek in einem kürzlichen vorherigen Aufruf innerhalb des Cache-Fensters gesehen hat, werden mit der Cache-Hit-Rate abgerechnet. Bei V3 und R1 liegt dies genau bei 10% des Standard-Input (90% Rabatt). Bei V4-Flash und V4-Pro fällt es auf 2% bzw. 0,83% — nahezu kostenlos. Lange stabile System-Prompts, feste Tool-Schemas und wiederverwendete Few-Shot-Blöcke sind die typischen Gewinner. Die Cache-Aktivierung ist automatisch — Sie müssen kein Flag übergeben; DeepSeeks Server-seitiger Cache passt Ihr Prompt-Präfix an und wendet den Rabatt in der Abrechnung an.

Reasoning-Token bei DeepSeek-R1 und DeepSeek-V4-Pro werden mit der Output-Rate abgerechnet, obwohl sie nicht an den Aufrufer zurückgegeben werden — die gleiche Form wie bei OpenAIs o-Serie. Ein Modell, das 6.000 Token denkt, bevor es eine 400-Token-Antwort produziert, rechnet 6.400 Output-Token ab. Planen Sie ein 5-15x Output-Budget bei Reasoning-intensiven Aufgaben gegenüber reinen Chat-Aufgaben. R1 wurde insbesondere mit 3.000-10.000 Reasoning-Token bei komplexen Problemen gemessen — berechnen Sie das in Ihre Pro-Call-Schätzungen ein, sonst werden Sie von der Rechnung überrascht.

Durchgerechnetes Beispiel 1: ein einzelner 1.000-Input / 500-Output Aufruf

Nehmen Sie den gleichen repräsentativen Aufruf, den wir auf jedem Kostenrechner auf dieser Site verwenden — ein 1.000-Token-Prompt, der eine 500-Token-Antwort zurückgibt, ungefähr eine 750-Wort-Anfrage und eine 375-Wort-Antwort. Mit Standard-Raten landen die Pro-Call-Kosten bei:

DeepSeek-V3: (1000 / 1,000,000) × $0.14 + (500 / 1,000,000) × $0.28 = $0.00014 + $0.00014 = **$0.00028 pro Aufruf**.

DeepSeek-V4-Flash: 0.001 × $0.14 + 0.0005 × $0.28 = $0.00014 + $0.00014 = **$0.00028 pro Aufruf**.

DeepSeek-V4-Pro: 0.001 × $0.435 + 0.0005 × $0.87 = $0.000435 + $0.000435 = **$0.00087 pro Aufruf**.

DeepSeek-R1: 0.001 × $0.55 + 0.0005 × $2.19 = $0.00055 + $0.001095 = **$0.001645 pro Aufruf** (unter der Annahme von null Reasoning-Token, was unrealistisch ist — siehe unten).

R1 mit realistischem Reasoning-Overhead: angenommen, R1 generiert 3.000 Reasoning-Token vor der 500-Token-Antwort, abgerechnet als 3.500 Output. Kosten: 0.001 × $0.55 + 0.0035 × $2.19 = $0.00055 + $0.007665 = **$0.00822 pro Aufruf**. Selbst mit 5x Output-Inflation durch Reasoning schlägt R1 immer noch GPT-5.5 ($0.020/Aufruf) um das 2,4-fache und demoliert das veraltete o1 ($0.045/Aufruf mit Standard-Raten) um das 5,5-fache.

Für Nicht-Reasoning-Workloads ist die Pro-Call-Zahl, auf die Sie sich konzentrieren sollten, **$0.00028 bei V3 oder V4-Flash** — ungefähr 1/71 des Preises des gleichen Aufrufs auf GPT-5.5 ($0.020) und 1/3000 des Preises des gleichen Aufrufs auf GPT-5.5-pro ($0.120).

Durchgerechnetes Beispiel 2: 100.000 Aufrufe pro Monat

Multiplizieren Sie die Pro-Call-Zahlen mit 100.000. Dies ist eine realistische Mid-Size-Workload — tägliche Klassifizierung bei 3.000+ Datensätzen, wöchentliche Zusammenfassung, ein Low-Volume-Agent-Loop:

DeepSeek-V3 / V4-Flash: **$28/Monat**. DeepSeek-V4-Pro: **$87/Monat**. DeepSeek-R1 (null Reasoning): **$165/Monat**. DeepSeek-R1 (realistisch 3k Reasoning pro Aufruf): **$822/Monat**.

Direkter Vergleich: die gleiche 100k-Call-Workload auf OpenAI GPT-5.5 kostet $2.000/Monat. Bei V3 kostet sie $28 — eine 71x Reduktion, oder $1.972/Monat gespart. Bei GPT-5.5-pro kostet sie $12.000/Monat; bei DeepSeek-V4-Pro kostet die äquivalente Qualitätsstufe (Allzweck, Premium) $87/Monat — 138x günstiger.

Wenden Sie nun den Cache-Rabatt auf V3 an, mit 800 von jedem 1.000 Input-Token, die ein stabiles System-Präfix sind, das 80% der Zeit Cache-Hit hat. Diese 640 gecachten Token × 100.000 Aufrufe = 64M Token, fallend von $0.14/1M auf $0.014/1M. Die gecachte Input-Kosten: 64 × $0.014 = $0.90. Nicht-gecachtes Input: 36M × $0.14/1M = $5.04. Output: 50M × $0.28/1M = $14.00. Gesamt: **$19.94/Monat** gegenüber $28 nicht-gecacht — ein 29% zusätzlicher Schnitt auf bereits günstigen Preisen.

Bei V4-Flash mit dem gleichen Cache-Muster (98% Rabatt bei Cache-Hits) fallen die gecachten Input-Kosten auf $0.18 (64M × $0.0028/1M). Gesamt: $19.22/Monat. Die marginal zusätzlichen Ersparnisse aus V4-Flashs tieferem Cache-Rabatt gegenüber V3 bei diesem Volumen sind klein — aber bei 10x+ Skalierung ergibt sich eine materielle Verbindung.

Durchgerechnetes Beispiel 3: Skalierung auf 1.000.000 Aufrufe

Skalieren Sie nun auf 1M Aufrufe — eine vollständig produktive Workload (z. B. Pro-Benutzer-Zusammenfassung über eine SaaS-App mit 30.000 aktiven Benutzern, die 33 Aufrufe/Monat ausführen, oder eine Hochvolumen-Klassifizierungs-Pipeline):

DeepSeek-V3 / V4-Flash: **$280/Monat**. DeepSeek-V4-Pro: **$870/Monat**. DeepSeek-R1 (null Reasoning): **$1.645/Monat**. DeepSeek-R1 (realistisch 3k Reasoning pro Aufruf): **$8.220/Monat**.

Wenden Sie das gleiche 80%-des-Input-gecachte-Präfix bei 80% Hit-Rate bei 1M Skalierung auf V4-Flash an: gecachte Token 640M × $0.0028/1M = $1.79. Nicht-gecachtes Input 360M × $0.14/1M = $50.40. Output 500M × $0.28/1M = $140. Gesamt: **$192.19/Monat** für 1 Million Aufrufe. Das ist kein Tippfehler — unter $200 für eine produktive Workload, die auf GPT-5.5 Standard-Preisen $20.000 kosten würde.

Direkter Vergleich bei 1M Aufrufen/Monat, identischer Token-Mix:

**OpenAI GPT-5.5**: $20.000/Mo Standard, ~$8.300/Mo mit vollem Batch + Cache Stack.

**OpenAI GPT-5.4-mini**: $3.000/Mo Standard, ~$1.200/Mo mit Batch + Cache.

**DeepSeek-V3**: $280/Mo Standard, ~$200/Mo mit Cache.

**DeepSeek-V4-Flash**: $280/Mo Standard, ~$192/Mo mit tiefem Cache.

Die günstigste Stufe bei OpenAI (gpt-5.4-nano bei $825/Mo für diese Workload) ist immer noch 4-5x teurer als die günstigste DeepSeek-Stufe. Die kanonische Hebelreihenfolge zum Kostenabbau bei DeepSeek-Skalierung: (1) wählen Sie V3 oder V4-Flash für Nicht-Reasoning-Aufgaben, (2) strukturieren Sie Prompts so, dass das gecachte Präfix stabil und front-geladen ist, (3) begrenzen Sie die Output-Länge, (4) greifen Sie nur auf R1 zu, wenn die Aufgabe wirklich mehrstufiges Reasoning erfordert.

Durchgerechnetes Beispiel 4: eine echte produktive Agent-Loop bei DeepSeek-V3

Ein Agent-Loop ist die schlimmste Kostenform — das Modell benötigt mehrere Durchläufe pro Benutzeranfrage und gibt das gesamte Transkript jedem Durchlauf wieder. Nehmen Sie einen typischen 5-Durchlauf-Loop mit einem 2.000-Token System-Prompt + Tools, wachsender Kontext 800 Token pro Durchlauf (gleiche Form wie unser OpenAI Agent-Beispiel für direkten Vergleich):

Durchlauf 1: 2.800 Input / 200 Output. Durchlauf 2: 3.000 Input / 200 Output. Durchlauf 3: 3.200 Input / 200 Output. Durchlauf 4: 3.400 Input / 200 Output. Durchlauf 5: 3.600 Input / 200 Output. Gesamt: 16.000 Input + 1.000 Output. Bei DeepSeek-V3: 0.016 × $0.14 + 0.001 × $0.28 = $0.00224 + $0.00028 = **$0.00252 pro 5-Durchlauf-Abfrage** — ungefähr 9x ein einzelner Aufruf (die Agent-Form inflationiert die Kosten bei jedem Anbieter).

Vergleich: die identische 5-Durchlauf-Loop bei GPT-5.5 kostet $0.11 pro Abfrage. Bei DeepSeek-V3 kostet sie $0.00252 — eine **43x Reduktion**. Bei 100k Abfragen/Monat rechnet GPT-5.5 $11.000 ab; V3 rechnet $252 ab.

Wenden Sie jetzt Cache an. Das 2.000-Token System + Tools Präfix ist über alle 5 Durchläufe stabil. Wenn Cache ~80% dieser 2.000 Token × 5 Durchläufe = 8.000 gecachte Input-Token trifft, fallend von $0.14/1M auf $0.014/1M: $0.000647 → $0.000647, was ungefähr $0.001 pro Abfrage spart (40% der Rechnung). Bei 100k Abfragen/Monat: von $252 → $151. Cache-Struktur ist die einzeln höchste-EV-Änderung, die Sie an einem Agent-Prompt auf jedem Anbieter vornehmen können — DeepSeek eingeschlossen. Erstellen Sie Cache-verankerte Prompts kostenlos mit unserem Code-Prompt-Builder.

DeepSeek vs OpenAI auf identischer Workload (der direkte Vergleich)

Bei einem 1.000-Input / 500-Output Aufruf, Token-Volumen konstant haltend:

**Input-Preis-Verhältnis**: GPT-5.5 verrechnet $5/1M, DeepSeek-V3 verrechnet $0.14/1M. Das ist **35,7x günstigeres Input** bei DeepSeek. **Output-Preis-Verhältnis**: GPT-5.5 verrechnet $30/1M, DeepSeek-V3 verrechnet $0.28/1M. Das ist **107,1x günstigeres Output** bei DeepSeek. Das flachere Input/Output-Verhältnis bei DeepSeek (2:1 vs OpenAIs 6:1) bedeutet, dass Output-lastige Workloads überproportional größere Ersparnisse gegenüber Input-lastigen sehen.

**Pro-Call-Kosten-Verhältnis**: $0.020 bei GPT-5.5 gegenüber $0.00028 bei DeepSeek-V3 = **71,4x günstiger** end-to-end. Bei 1M Aufrufen/Monat ist dies der Unterschied zwischen einer $20.000 Monatsrechnung und einer $280 Monatsrechnung — eine $19.720 Reduktion ohne andere Workflow-Änderung.

**Reasoning-Modell-Vergleich**: OpenAIs veraltetes o1 verrechnet $15 Input / $60 Output pro 1M. DeepSeek-R1 verrechnet $0.55 / $2.19. Das ist **27,3x günstigeres Input und 27,4x günstigeres Output** — ungefähr 96% günstiger end-to-end bei vergleichbarer Reasoning-Qualität bei öffentlichen Benchmarks (R1 konkurriert mit oder schlägt o1 bei MATH, AIME und mehreren Code-Reasoning-Aufgaben laut veröffentlichten Evals).

**Qualitätsvorbehalt**: DeepSeek-V3 und V4-Flash sind *ungefähr* äquivalent zu GPT-5.5 bei allgemeinem Chat, Zusammenfassung, Klassifizierung, Code-Generierung für gängige Sprachen. Sie sind nicht äquivalent bei jeder Aufgabe. Die Lücke erscheint typischerweise bei: Long-Context-Kohärenz über 64K Token hinaus, Roman Multi-Step-Reasoning, das das Modell nicht aus Mustern gesehen hat, bestimmte agentic Tool-Use-Muster, bei denen OpenAI intensiv in Fine-Tuning investiert hat. Führen Sie Ihre eigene Eval bei Ihrer eigenen Aufgabe durch, bevor Sie eine produktive Workload migrieren.

**Die rationale Entscheidungsregel**: für Workloads, bei denen die Qualität bei einer gehaltenen Eval Ihrer tatsächlichen Aufgabe vergleichbar ist, ist DeepSeek ein No-Brainer bei 35-107x günstiger. Für Workloads, bei denen GPT-5.5 Ihre Eval messbar um mehr als ~10 Prozentpunkte bei der Metrik, um die Sie sich kümmern, gewinnt, ist die OpenAI-Prämie möglicherweise gerechtfertigt — aber die Hürde sollte Beweis sein, nicht Vibes.

Wann V3 vs R1 vs V4-Flash vs V4-Pro wählen

**DeepSeek-V3 ($0.14 / $0.28)**: das Arbeitstier. Allzweck-Chat, Zusammenfassung, Klassifizierung, Extraktion, Code-Generierung in gängigen Sprachen, strukturierte Output-Aufgaben. Der Standard für den meisten produktiven Traffic. 64K-Kontext. Verwenden Sie diese, es sei denn, Sie haben einen spezifischen Grund, einen anderen Tier zu wählen.

**DeepSeek-V4-Flash ($0.14 / $0.28)**: der gleiche Headline-Preis wie V3, mit tieferen Cache-Rabatten (98% bei Cache-Hits vs 90% bei V3) und optimiert für Hochdurchsatz-Low-Latency. Der Sweet Spot für Hochvolumen-Cache-freundliche Workloads — lange stabile System-Prompts, wiederholte Tool-Schemas, Agent-Loops mit festen Anweisungsblöcken. Wenn Ihr Prompt cache-verankert ist, schlägt V4-Flash V3.

**DeepSeek-V4-Pro ($0.435 / $0.87)**: der Premium-Allzweck-Tier. Höhere Qualität bei komplexem Reasoning, längere kohärente Generierung, zuverlässiger bei agentic Tool Use. Ungefähr 3x V3s Preis — immer noch 11x günstiger Input und 34x günstiger Output als GPT-5.5. Verwenden Sie, wenn V3-Qualität bei Ihrer Aufgabe messbar unzureichend ist und Sie nicht bereits ein Upgrade zu einem echten Reasoning-Modell verdient haben.

**DeepSeek-R1 ($0.55 / $2.19)**: das Reasoning-Modell. Multi-Step-Mathematik, komplexe Code-Synthese mit Correctness-Constraints, wissenschaftliches Reasoning, Planung. R1 generiert Chain-of-Thought-Reasoning-Token (abgerechnet als Output), bevor die sichtbare Antwort produziert wird. Budget 5-15x Output-Inflation. Greifen Sie auf R1 zu, wenn die Aufgabe wirklich Reasoning-Tiefe erfordert, die Pattern-Matching allein nicht produzieren kann — nicht für Chat, nicht für Klassifizierung, nicht für Zusammenfassung, bei der es ohne Wert übermäßig ausgibt.

**Tier-Entscheidungs-Kurzweg**: starten Sie jede neue Workload bei V3 oder V4-Flash. Upgraden Sie nur auf V4-Pro oder R1, wenn eine gehaltene Eval bei Ihrer tatsächlichen Aufgabe zeigt, dass der günstigere Tier fehlschlägt. Die Premium-Tiere existieren für die Fälle, die sie benötigen — der meiste produktive Traffic nicht.

Cache-Hit-Preise: wie 90-98% Rabatt in der Praxis bei DeepSeek funktioniert

DeepSeeks Cache-Hit-Rabatt ist der tiefste von jedem großen Anbieter 2026. Bei V3 und R1werden Cache-Hits mit 10% des Standard-Input abgerechnet (90% Rabatt). Bei V4-Flash werden Cache-Hits mit $0.0028/1M abgerechnet — genau 2% des Standard ($0.14). Bei V4-Pro werden Cache-Hits mit $0.003625/1M abgerechnet — 0,83% des Standard ($0.435), oder ein 99,17% Rabatt auf den gecachten Teil.

Der Cache ist opportunistisch und Server-seitig. DeepSeek berechnet einen Fingerprint Ihres Prompt-Präfixes und cached ihn. Nachfolgende Aufrufe innerhalb des Cache-Fensters, die das gleiche Präfix teilen, lesen aus dem Cache. Die harte Regel, identisch mit jeder anderen Prompt-Cache-Implementierung: **Caching ist eine Präfix-Übereinstimmung, keine Substring-Übereinstimmung**. Platzieren Sie Ihren stabilen System-Prompt, Tool-Definitionen und wiederverwendbare Few-Shot-Beispiele am Anfang des Message-Arrays. Benutzer-spezifisches dynamisches Content geht am Ende.

Ein 1.500-Token-gecachtes Präfix bei V4-Pro fällt von $0.435/1M auf $0.003625/1M — das sind $0.000647 gespart pro Aufruf. Bei 1M Aufrufen/Monat sind das $647 gespart bei einer Workload, die unter $1.000 kostet. Der Compounding-Effekt von DeepSeeks bereits-niedrigem Basis-Preis plus seinem tiefsten-im-Markt Cache-Rabatt macht Cache-verankerte Prompt-Gestaltung zur einzeln höchsten-EV-Optimierung, die auf der Plattform verfügbar ist.

Die meisten LLM-SDKs benötigen keine Code-Änderungen zum Opt-In — Caching aktiviert sich automatisch, sobald Sie Prompts Präfix-zuerst strukturieren. Der größte Fehler, den wir sehen (identisch mit OpenAI): Teams interpolieren dynamischen Kontext (aktuelle Datum, Benutzer-ID, Session-State) in den System-Prompt, was jeden Cache-Hit bricht. Verschieben Sie das zu einer Benutzer-Nachricht und der Cache hält. Unser Prompt-Caching-Tutorial behandelt die strukturelle Umschreibung, die einen nicht-cachenden Prompt zu einem Cache-verankerten umwandelt — die strukturellen Regeln gelten identisch bei DeepSeek.

Die Vorbehalte: wann man DeepSeek NICHT verwenden sollte

DeepSeek ist ein China-basierter Anbieter, mit Sitz und Betrieb unter VR China-Rechtsprechung. Dies ist ein tragender Fakt für jede Workload, bei der Daten-Residency, Jurisdiktions-Exposition oder Anbieter-Souveränität wichtig ist. Die Kostenersparnisse sind real, aber sie löschen Regulatory oder Risiko-Realitäten nicht aus.

**Regulierte Industrien — verwenden Sie DeepSeek generell nicht für die Produktion**: US Healthcare (HIPAA-abgedeckte Daten), US Finanzservices mit PII, EU Workloads unter strikten GDPR Daten-Residency-Interpretationen, US-Bundesverträge unter FedRAMP oder DoD Compliance, jede Workload unter Export-kontrollierten technischen Daten (ITAR/EAR). Der Cost Case für DeepSeek überlebt die Compliance-Überprüfung in diesen Domains nicht. Verwenden Sie OpenAI Enterprise, Azure OpenAI, AWS Bedrock oder Anthropic auf AWS stattdessen — bedeutend teurer, aber mit der Residency und vertraglichen Haltung, die Ihre Auditors erfordern.

**Daten-Exposition**: API-Anfragen an DeepSeek werden auf Infrastruktur im Festland-China verarbeitet. Behandeln Sie jeden Prompt und jede Antwort als möglicherweise vom Anbieter beobachtbar. Senden Sie keine PII, Kundengeldaten, Trade Secrets, unter NDA stehenden Source Code oder irgendetwas, mit dem Sie sich nicht komfortabel fühlen würden, dass es für Modellverbesserung aggregiert wird. DeepSeeks veröffentlichte Bedingungen erlauben Training-Data-Verwendung von API-Submissions in manchen Konfigurationen — lesen Sie die aktuelle ToS, bevor Sie integrieren, nicht danach.

**Zuverlässigkeit und SLA-Haltung**: DeepSeeks kommerzialisierte SLAs und Enterprise-Support sind unreif im Vergleich zu OpenAI, Anthropic oder AWS Bedrock ab Mitte-2026. Für Mission-kritische Workloads, bei denen Ausfallzeiten direkt zu Revenue Loss übersetzen, bauen Sie einen Fallback-Anbieter ein — die meisten Teams, die DeepSeek in Produktion verschiffen, führen es als den primären Cost-Saver mit einem GPT-5.4-mini oder Gemini Fallback-verdrahtet über eine einfache Failover-Schicht aus.

**Wo DeepSeek großartig ist**: interne Tools, Entwickler-gerichtete Automatisierung, Content-Generierungs-Pipelines für nicht-sensitive Material, Prototyping, Eval-Generierung, Batch-Verarbeitung von öffentlichen Daten, Side-Projects, agentic Workflows auf synthetischen oder nicht-sensitive Eingaben, überall dort, wo die Kostenreduktion die bindende Constraint ist und die Compliance/Residency-Oberfläche niedrig ist. Für diese Fälle ist die 35-107x Kostenspanne unmöglich zu ignorieren.

Häufige Fehler, die die DeepSeek-Rechnung inflationieren

**Fehler 1: Standard R1 für alles.** R1 ist ein Reasoning-Modell — es generiert Tausende von Chain-of-Thought-Token vor der sichtbaren Antwort, alle mit der Output-Rate abgerechnet. Eine einfache Klassifizierungs-Aufgabe, die 200 Token Output benötigt, rechnet 3.000+ Output-Token bei R1 ab, weil das Modell zuerst 'denkt'. Verwenden Sie V3 oder V4-Flash, es sei denn, die Aufgabe benötigt wirklich Reasoning.

**Fehler 2: massive System-Prompts, die nie gecacht werden.** Identisches Anti-Pattern zu OpenAI. Wenn Ihr System-Prompt irgendetwas interpoliert, das zwischen Aufrufen wechselt (Zeitstempel, Benutzernamen, Kontext-Zusammenfassungen), wird der Cache nie getroffen — und Sie verlieren den 90-98% Rabatt, der DeepSeeks bereits-niedrige Preise zu eigentlich-kostenlos macht. Restrukturieren Sie so, dass der System-Prompt statisch ist und der dynamische Kontext in Benutzer-Nachrichten lebt.

**Fehler 3: Output nicht begrenzen, speziell bei R1 und V4-Pro.** R1 insbesondere kann 10.000+ Token Reasoning bei schweren Problemen generieren. Ohne `max_tokens` Decke kann ein einzelnes komplexes Query 5-10x kosten, was Sie budgetiert haben. Setzen Sie explizite Output-Caps überall dort, wo Sie die Verbrauch-Form kontrollieren.

**Fehler 4: vollständige Geschichte jeden Durchlauf in einem Chat wiederabspielen.** Fassen Sie frühere Durchläufe zu einer kompakten 200-Token Zusammenfassung zusammen, sobald Kontext 5.000 Token übersteigt. DeepSeeks Input-Preise sind günstig, aber bei 1M-Call-Skalierung summiert sich selbst günstiger Input — und die Cache-Hit-Rate degradiert stark, wenn Kontext unbegrenzt wächst.

**Fehler 5: annahmen, dass DeepSeek + GPT-5.5 bei Ihrer Aufgabe Quality-äquivalent sind, ohne zu messen.** Führen Sie eine gehaltene Eval bei 50-200 repräsentativen Eingaben aus Ihrem eigenen produktiven Traffic durch, bevor Sie migrieren. Der Cost Case ist überwältigend, wenn Quality äquivalent ist; es ist ein Münzwurf, wenn Quality bedeutsam schlechter ist. Nicht annehmen — messen.

Sourcing-Methodologie und wie Sie diese Zahlen aktuell halten

Jeder Preis in diesem Handbuch kommt von DeepSeeks offizieller API-Preisseite bei api-docs.deepseek.com/quick_start/pricing und der Consumer-gerichteten Preisseite bei deepseek.ai/pricing, abgerufen am 2026-06-20. Verifiziert gegen drei unabhängige bestätigende Quellen: Community Pricing-Aggregatoren, kürzliche Integration Commits in beliebten Open-Source-Projekten (LiteLLM, OpenRouter) und die öffentliche DeepSeek Developer Documentation. Wenn eine Zahl nicht gegen die offiziellen Seiten verifiziert werden konnte, wurde sie aus diesem Handbuch weggelassen.

DeepSeek drückt Preisänderungen aggressiver als OpenAI oder Anthropic — wir haben 4-6 Preismoves pro Jahr seit 2024 gesehen, generell abwärts, während das Unternehmen auf Preis konkurriert hat. Die V4-Flash und V4-Pro Tiers wurden 2026 mit den tiefsten Cache-Rabatten auf dem Markt lanciert. Behandeln Sie die Headline-Zahlen als einen Snapshot, nicht einen Vertrag.

**Wie Sie vor dem Budgetieren verifizieren**: öffnen Sie api-docs.deepseek.com/quick_start/pricing in einem Incognito-Fenster, kopieren Sie die Zahlen für Ihre Ziel-Modelle in eine Spreadsheet, vergleichen Sie gegen dieses Handbuch. Wenn sie passen, ist dieses Handbuch aktuell für Ihre Zwecke. Wenn nicht, vertrauen Sie der Live-Seite. Verifizieren Sie quartalsweise neu, wenn Ihre Monatsrechnung über $500 liegt — DeepSeeks Preis-Moves können material sein und sie kommen nicht immer mit formalen Changelog-Einträgen.

**Was wir auslassen**: DeepSeek betreibt einen Inference-Pricing-Tier und eine separate Chat-Plattform mit Consumer-Subscription-Preisen. Dieses Handbuch behandelt nur die API. Wir lassen auch jede Rate-Limit, Durchsatz-Tier oder Volume-Discount Preisgestaltung weg, die direkte Enterprise-Kontakte erfordert — diese werden verhandelt und nicht veröffentlicht. Wenn Sie 10M+ Aufrufe/Monat betrachten, kontaktieren Sie DeepSeek-Sales direkt; veröffentlichte Raten sind üblicherweise bei diesem Volumen auf jedem Anbieter Schlag-für-Schlag.

**Reproduzierbare Methodologie**: das GEO Playbook, das jeden Kostenrechner auf dieser Site treibt, mandatiert Curl-Verifizierung von jedem $ Wert vor der Veröffentlichung. Jede Reihe in der Tabelle oben hat eine Citation; jedes durchgerechnete Beispiel nutzt diese Reihen; jede FAQ-Antwort spiegelt sie. Wenn Sie eine Diskrepanz mit der Live-Seite finden, behandeln Sie die Live-Seite als kanonisch und sagen Sie uns Bescheid — wir rufen ab und aktualisieren.

Wie Sie jede DeepSeek API-Call-Kosten in 5 Schritten abschätzen

1
Schätzen Sie Ihre Input-Token
Nehmen Sie die Character-Count Ihres Prompts und teilen Sie durch 4, oder ihre Word-Count und teilen Sie durch 0,75. Faustregel: 1 Token ≈ 4 Zeichen ≈ 0,75 englische Wörter. Ein 500-Wort System-Prompt + eine 200-Wort Benutzer-Nachricht sind ungefähr (500 + 200) ÷ 0,75 ≈ 933 Input-Token. DeepSeeks Tokenizer ist Byte-Level-BPE, ähnlich genug zu GPT-Tokenizern, dass die Faustregel-Abschätzung für englischen Content innerhalb 5-10% ist.
→ Open the AI Prompt Generator
2
Schätzen Sie Ihre Output-Token (und addieren Sie Reasoning-Overhead für R1/V4-Pro)
Schätzen Sie Output auf die gleiche Weise — Wörter ÷ 0,75. Bei V3 und V4-Flash ist Output, was Sie sehen. Bei R1 und V4-Pro addieren Sie einen 5-15x Multiplikator, um Chain-of-Thought-Reasoning-Token zu berücksichtigen, die als Output abgerechnet werden, aber nicht an Sie zurückgegeben. Wenn Sie eine `max_tokens` Kappe setzen, das ist Ihre Worst-Case-Decke — verwenden Sie sie, um konservativ zu budgetieren, speziell bei Reasoning-Modellen.
3
Suchen Sie den Input- und Output-Preis pro 1M auf
Aus der Tabelle oben (verifiziert Juni 2026): DeepSeek-V3 $0.14 / $0.28, DeepSeek-V4-Flash $0.14 / $0.28, DeepSeek-V4-Pro $0.435 / $0.87, DeepSeek-R1 $0.55 / $2.19. Überprüfen Sie immer api-docs.deepseek.com vor dem Verschiffen — Preise bewegen sich 4-6 mal pro Jahr abwärts bei diesem Anbieter.
4
Wenden Sie die Kostenformel an
cost = (input_tokens / 1,000,000) × input_price + (output_tokens / 1,000,000) × output_price. Ein 1.000-Input / 500-Output Aufruf bei DeepSeek-V3 = 0.001 × $0.14 + 0.0005 × $0.28 = $0.00014 + $0.00014 = $0.00028. Der gleiche Aufruf bei GPT-5.5 kostet $0.020 — DeepSeek ist 71x günstiger end-to-end bei diesem repräsentativen Aufruf.
5
Wenden Sie Cache-Hit-Rabatte auf das gecachte Präfix an
Gecachtes Input wird mit 10% des Standard bei V3 und R1 abgerechnet, 2% bei V4-Flash und 0,83% bei V4-Pro. Strukturieren Sie Prompts Präfix-zuerst: stabiler System-Prompt und Tool-Definitionen am Start, dynamischer Benutzer-Content am Ende. Ein 1.500-Token-gecachtes Präfix bei V4-Pro spart $0.000647 pro Aufruf gegenüber nicht-gecacht. Bei 1M Aufrufen/Monat sind das $647 zusätzliche Ersparnisse auf top eines bereits Industrie-niedrigen Basis-Preises.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

AI Prompt Generator (Token-tight, Modell-optimiert)→OpenAI API Kostenrechner→GPT-5 Kostenrechner→o1 Reasoning Kostenrechner→

Frequently Asked Questions

Wie viel kostet DeepSeek 2026?

Stand Juni 2026 verrechnet DeepSeek-V3 $0.14 pro 1M Input-Token und $0.28 pro 1M Output. DeepSeek-V4-Flash passt V3 bei Headline-Preisen mit tieferen Cache-Rabatten an. DeepSeek-V4-Pro ist $0.435 / $0.87. DeepSeek-R1 (Reasoning) ist $0.55 / $2.19. Cache-Hits werden mit 90-98% Rabatt auf der Standard-Input-Rate abgerechnet. Ein repräsentativer 1.000-Input / 500-Output Aufruf bei V3 kostet $0.00028 — ungefähr 1/71 des gleichen Aufrufs bei OpenAI GPT-5.5. Quelle: DeepSeek API-Preisseite.

DeepSeek V3 vs R1 Preisgestaltung — welche sollte ich verwenden?

Verwenden Sie V3 ($0.14 / $0.28 pro 1M) für allgemeinen Chat, Klassifizierung, Zusammenfassung, Extraktion und die meisten Code-Generierungen — es ist der Workhorse-Tier. Verwenden Sie R1 ($0.55 / $2.19 pro 1M) nur für Aufgaben, die echtes mehrstufiges Reasoning erfordern: komplexe Mathematik, wissenschaftliche Probleme, Code-Synthese mit strikten Correctness-Constraints. R1 generiert 3.000-10.000 Chain-of-Thought-Token vor der sichtbaren Antwort, alle als Output abgerechnet — ein typischer R1-Aufruf kostet 5-30x mehr als der äquivalente V3-Aufruf, sobald Reasoning-Overhead enthalten ist. Standard bei V3; Upgrade zu R1 nur, wenn eine Eval zeigt, dass V3 fehlschlägt.

Ist DeepSeek billiger als GPT-5?

Ja, dramatisch. Bei identischen Workloads ist DeepSeek-V3 Input 35,7x billiger als GPT-5.5 ($0.14 gegenüber $5.00 pro 1M) und DeepSeek-V3 Output ist 107,1x billiger ($0.28 gegenüber $30.00 pro 1M). Ein 1.000-Input / 500-Output Aufruf kostet $0.00028 bei V3 gegenüber $0.020 bei GPT-5.5 — 71x günstiger end-to-end. Bei 1M Aufrufen/Monat sind die Rechnungen $280 gegenüber $20.000 — ein $19.720/Monat Gap. Die Qualität ist auf den meisten Nicht-Reasoning-Aufgaben vergleichbar; führen Sie eine Eval bei Ihrer spezifischen Aufgabe durch, bevor Sie produktiven Traffic migrieren.

Was ist die DeepSeek API-Kosten pro Million Token?

Pro 1M Token, Juni 2026: DeepSeek-V3 Input $0.14 / Cache-Hit $0.014 / Output $0.28. DeepSeek-V4-Flash Input $0.14 / Cache-Hit $0.0028 / Output $0.28. DeepSeek-V4-Pro Input $0.435 / Cache-Hit $0.003625 / Output $0.87. DeepSeek-R1 Input $0.55 / Cache-Hit $0.055 / Output $2.19. Alle vier Modelle sind die günstigsten in ihren jeweiligen Qualitätsstufen unter großen Frontier-Qualitäts-API-Anbietern bei diesem Snapshot.

Was ist DeepSeek V4?

DeepSeek V4 ist die 2026-Generation, verfügbar in zwei SKUs: V4-Flash (billig, Hochdurchsatz, Low-Latency — gleicher $0.14/$0.28 Headline-Preis wie V3 mit tieferen Cache-Rabatten bei 98% Cache-Hits) und V4-Pro ($0.435/$0.87, Premium-Allzweck-Tier mit stärkerem Reasoning, längerer kohärenter Generierung, zuverlässiger agentic Tool-Use). V4-Pro Cache-Hits fallen auf $0.003625/1M — die günstigste Input-Rate von jedem großen Anbieter 2026. V4 ist als DeepSeeks Volume-Tier (V4-Flash) plus Premium-Tier (V4-Pro) positioniert, getrennt vom dedizierten R1-Reasoning-Modell.

DeepSeek vs OpenAI Cost Vergleich bei Skalierung?

Bei 1M Aufrufen/Monat mit einem 1.000-Input / 500-Output Token-Mix: OpenAI GPT-5.5 kostet $20.000/Mo Standard oder ~$8.300/Mo mit Batch+Cache. OpenAI GPT-5.4-mini kostet $3.000/Mo Standard oder ~$1.200/Mo mit Rabatten. DeepSeek-V3 kostet $280/Mo Standard oder ~$200/Mo mit Cache. DeepSeek-V4-Flash kostet $280/Mo oder ~$192/Mo mit tiefem Cache. Selbst der günstigste OpenAI-Tier (gpt-5.4-nano bei $825/Mo) ist 4-5x teurer als DeepSeek-V3. Der Cost Case für DeepSeek ist überwältigend, wenn Quality auf Ihrer spezifischen Aufgabe vergleichbar ist.

Ist DeepSeek sicher für die Produktion?

Das hängt von der Workload ab. DeepSeek ist China-basiert, wird auf PRC-Rechtsordnungs-Infrastruktur verarbeitet und ist nicht angemessen für regulierte Workloads: US HIPAA-abgedeckte Healthcare, US Financial PII, FedRAMP/DoD, EU GDPR-strikte Residency, ITAR/EAR-kontrollierte technische Daten. Verwenden Sie OpenAI Enterprise, Azure OpenAI, AWS Bedrock oder Anthropic auf AWS für diese Fälle. DeepSeek IST angemessen für: interne Tools, Entwickler-Automatisierung, Content-Pipelines auf nicht-sensiblem Material, Prototyping, Batch-Verarbeitung von öffentlichen Daten, Side-Projects, agentic Workflows auf synthetischen Inputs. Bauen Sie einen Fallback-Anbieter für Mission-kritische Nutzung ein — DeepSeeks Enterprise-SLA-Haltung ist unreif gegenüber den Big-Three-Anbietern ab Mitte-2026.

Wie funktioniert der DeepSeek Cache-Hit-Rabatt?

Prompt-Cache-Hits — Teile Ihres Input-Präfixes, die DeepSeek in einem kürzlichen vorherigen Aufruf innerhalb des Cache-Fensters gesehen hat — werden mit einem Bruchteil der Standard-Input-Rate abgerechnet. V3 und R1: 10% des Standard (90% Rabatt). V4-Flash: 2% des Standard (98% Rabatt). V4-Pro: 0,83% des Standard (99,17% Rabatt — der tiefste Cache-Rabatt von jedem großen Anbieter 2026). Der Cache ist opportunistisch und Präfix-nur: platzieren Sie stabile System-Prompts und Tool-Definitionen zuerst in Ihrem Message-Array, dynamischen Benutzer-Content zuletzt. Ein 1.500-Token-gecachtes Präfix bei V4-Pro spart $0.000647 pro Aufruf gegenüber nicht-gecacht — $647/Monat bei 1M Aufrufen.

Bereits auf der günstigsten API. Schreiben Sie jetzt Prompts, die sie nicht verschwenden.

DeepSeek verrechnet Cents. Aber ein aufgeblasener Prompt bei V3 übertrifft einen sauberen bei GPT-5.5. Unser AI Prompt Generator schreibt enge, Modell-optimierte Prompts basierend auf IHREM Business + Task. 14-Tage kostenloser Trial, keine Karte erforderlich.

Browse all prompt tools →