Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Von The DDH Team · Digital Dashboard Hub

RAG Kosten pro Anfrage (2026): Die vollständige Stack-Aufschlüsselung

By The DDH Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

Eine einzelne RAG-Abfrage berührt vier abgerechnete Dienste in Folge: das Embedding-Modell (um die Frage des Benutzers zu vektorisieren), die Vektordatenbank (um relevante Chunks abzurufen), einen optionalen Reranker (um abgerufene Ergebnisse nach Relevanz umzuordnen) und das LLM (um eine begründete Antwort aus dem abgerufenen Kontext zu generieren). Teams, die zum ersten Mal RAG-Systeme erstellen, unterschätzen fast immer die LLM-Schicht und überschätzen die Abrufschicht. Der LLM-Aufruf macht typischerweise 85–95% der Gesamtkosten pro Abfrage aus.

Ab Juni 2026 kostet eine typische produktive RAG-Abfrage $0,015–$0,025 End-to-End bei bescheidenen Kontextlängen (3.000 Eingabe-Token für das LLM, 500 Ausgabe-Token). Die Aufschlüsselung: ~$0,000001–0,000009 Embedding, ~$0,0000083 Vektorbank-Lesezugriff (Pinecone Serverless), ~$0,001 Reranking (optional) und $0,013–0,021 LLM-Generierung. Bei 1M Abfragen/Monat sind das eine Monatsrechnung von $15.000–25.000 – fast vollständig durch das LLM getrieben.

Diese Seite behandelt die Kosten-Stack auf der Abfrageseite. Für die vorgelagerten Kosten beim Aufbau Ihres Vektorindex – was Sie für die Vektorisierung Ihres Corpus und das Speichern der Vektoren gezahlt haben – siehe den Vektordatenbank-Kostenrechner und den Embeddings-Kostenrechner. Für den Embedding-Modell-Vergleich, der sowohl die Corpus-Indexierung als auch die Abfrage-seitige Embedding-Kosten beeinflusst, siehe Cohere vs OpenAI Embedding-Kosten. Für einen funktionierenden RAG-Architektur-Leitfaden siehe unseren RAG-Architektur-Entscheidungsbaum.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Kosten pro RAG-Abfrage-Komponente – Juni 2026

Feature
Komponente
Typische Kosten pro Abfrage
Anbieter-Beispiel
Anmerkungen
Abfrage-Embedding$0,000001–$0,000009OpenAI text-embedding-3-small @ $0,02/1M; Voyage 3-large @ $0,18/1M~50 Token pro Abfrage; vernachlässigbar gegenüber LLM-Schicht
Vektordatenbank-Lesezugriff$0,0000083–$0,00005Pinecone Serverless @ $8,25/1M LesezugriffeWeaviate/Qdrant Cluster-Kosten sind amortisiert, nicht pro Abfrage
Reranker (optional)$0,001Cohere Rerank @ $1/1.000 AbfragenVerbessert Abruf-Präzision; Kosten sind 50–100x der Embedding-Schicht
LLM-Generierung (dominiert)$0,013–$0,070Sonnet 4.6 @ $3/$15 pro M rein/raus; gpt-4.1 @ $2/$8 pro M rein/raus3.000 Eingabe + 500 Ausgabe Token typisch; Kontextlänge treibt die Rechnung
Gesamt (ohne Reranker)$0,013–$0,021Sonnet 4.6 mit Pinecone Serverless + OpenAI Small EmbeddingLLM ist 85–95% der Gesamtkosten
Gesamt (mit Cohere Reranker)$0,014–$0,022Add $0,001/Abfrage auf obenReranker erhöht Gesamt ~5–7%

Quellen Stand Juni 2026: OpenAI Embeddings-Preise (developers.openai.com/api/docs/pricing — text-embedding-3-small $0,02/1M, text-embedding-3-large $0,13/1M); Voyage AI Embeddings (docs.voyageai.com/docs/pricing — voyage-3-large $0,18/1M); Pinecone Serverless Lesezugriffe ($8,25/1M Leseeinheiten, pinecone.io/pricing); Cohere Rerank Preise (cohere.com/pricing — $1/1.000 Abfragen für Rerank v3 auf Production-Ebene); Anthropic Claude Sonnet 4.6 Preise ($3/1M Eingabe, $15/1M Ausgabe — überprüfen auf anthropic.com/pricing, da sich Modellpreise häufig ändern); gpt-4.1 Preise ($2/1M Eingabe, $8/1M Ausgabe — überprüfen auf openai.com/pricing). Verwendete Token-Counts: 50-Token Abfrage-Embedding, 3.000-Token LLM-Eingabe (Abfrage + abgerufener Kontext), 500-Token LLM-Ausgabe. Tatsächliche Kosten variieren mit Kontextlänge und Modellauswahl.

Die RAG-Abfrage-Kostenformel

Jede RAG-Abfrage führt vier Operationen in Folge aus. Hier ist die Formel mit jeder Schicht isoliert:

``` per_query_cost = # Layer 1: embed the user query (query_tokens / 1_000_000) × embed_$/M # Layer 2: vector database read + vector_read_cost_per_query # Layer 3: reranker (optional) + (use_reranker ? rerank_$/query : 0) # Layer 4: LLM generation (this dominates) + (llm_input_tokens / 1_000_000) × llm_input_$/M + (llm_output_tokens / 1_000_000) × llm_output_$/M ```

Die LLM-Eingabe-Token-Anzahl ist die Summe von: dem System-Prompt (geteilt über Abfragen), der Frage des Benutzers und den abgerufenen Kontext-Chunks. Dies ist der Schlüsselhebel. Ein System-Prompt von 800 Token + eine 100-Token-Frage + 5 Chunks von je 400 Token = 2.900 Eingabe-Token. Bei Sonnet 4.6's $3/1M Eingabe-Rate sind das $0,0087 nur in Eingabe-Token – vor der Ausgabe. Addiere 500 Ausgabe-Token bei $15/1M = $0,0075. Gesamt LLM: $0,0162 pro Abfrage.

Die Anzahl der abgerufenen Chunks ist der am meisten kontrollierbare Kostenhebel nach Modellauswahl. Der Wechsel von Top-10 zu Top-5 Chunks reduziert den Kontext um ~40% auf einem typischen RAG, wodurch die LLM-Eingabe-Kosten proportional sinken. Messe Abruf-Präzision, um die Mindest-Chunk-Anzahl zu finden, die die Antwortqualität erhält.


Funktionierendes Beispiel 1: 1.000 Abfragen/Monat – Prototyp oder internes Tool

Bei 1.000 Abfragen/Monat ist die Rechnung vernachlässigbar. Dies ist eine Solo-Entwickler-interne Dokumentsuche oder eine Team-Knowledge-Base mit leichter Nutzung.

**Abfrage-Embedding (OpenAI text-embedding-3-small, 50 Token/Abfrage):** 1.000 × 50 Token = 50.000 Token = 0,05M. 0,05 × $0,02 = **$0,001/Monat**.

**Vektordatenbank-Lesezugriff (Pinecone Serverless):** 1.000 × $8,25/1M = **$0,00825/Monat**.

**LLM (Sonnet 4.6, 3.000 Eingabe + 500 Ausgabe Token):** Eingabe: 1.000 × 3.000 / 1M × $3 = $9. Ausgabe: 1.000 × 500 / 1M × $15 = $7,50. LLM Gesamt: **$16,50/Monat**.

**Gesamt:** ~$16,51/Monat. Die LLM-Schicht ist 99,9% der Rechnung. Bei dieser Skala ist die Modellauswahl die einzige wertvolle Kostenentscheidung.

**Billigere Alternative:** Wechsel zu Claude Haiku 3.5 ($0,80/$4 pro M rein/raus): Eingabe: $2,40, Ausgabe: $2,00. Gesamt LLM: $4,40. Vollständige Abfrage-Kosten: **$4,41/Monat**. Bei 1.000 Abfragen/Monat ist Haiku oft ausreichend für Retrieval-Augmented-Fragenbeantwortung mit sauberen abgerufenen Kontext.


Funktionierendes Beispiel 2: 100.000 Abfragen/Monat – produktives SaaS-Feature

100.000 Abfragen/Monat ist ein Live-Produktions-RAG-Feature in einem B2B SaaS-Produkt – ein Dokumentations-Assistent, ein Support-Ticket-Deflection-Tool, ein Vertragsüberprüfungs-Hilfsmittel.

**Abfrage-Embedding (OpenAI text-embedding-3-small):** 100.000 × 50 / 1M × $0,02 = **$0,10/Monat**.

**Vektordatenbank-Lesezugriff (Pinecone Serverless):** 100.000 × $8,25/1M = **$0,83/Monat**.

**Reranker (Cohere Rerank, optional):** 100.000 × $1/1.000 = **$100/Monat**. Hinweis: Der Reranker ist jetzt die zweitgrößte Kostenkomponente bei diesem Volumen – größer als die Vektordatenbank und Embedding kombiniert. Nur hinzufügen, wenn es die Antwortqualität auf Ihrer Eval messbar verbessert.

**LLM (Sonnet 4.6, 3.000 rein + 500 raus):** Eingabe: 100.000 × 3.000 / 1M × $3 = $900. Ausgabe: 100.000 × 500 / 1M × $15 = $750. LLM Gesamt: **$1.650/Monat**.

**Gesamt (mit Reranker):** $0,10 + $0,83 + $100 + $1.650 = **$1.750,93/Monat** (~$0,0175/Abfrage).

**Gesamt (ohne Reranker):** $0,10 + $0,83 + $1.650 = **$1.650,93/Monat** (~$0,0165/Abfrage).

Bei 100K Abfragen/Monat ist das LLM immer noch 94% der Rechnung. Der Cohere Reranker fügt 6% Kosten für seinen Qualitäts-Lift hinzu – wert, gegen Ihre Eval zu benchmarken, bevor Sie ihn in Produktion aufnehmen.


Funktionierendes Beispiel 3: 1.000.000 Abfragen/Monat – hochvolumige Produktion

1M Abfragen/Monat ist ein Enterprise-Scale RAG-Deployment – ein kundenseitiger KI-Assistent, ein großes internes Knowledge-Management-Tool, eine hochvolumige Dokument-Verarbeitungs-Pipeline.

**Abfrage-Embedding (OpenAI text-embedding-3-small):** 1M × 50 / 1M × $0,02 = **$1,00/Monat**.

**Vektordatenbank-Lesezugriff (Pinecone Serverless):** 1M × $8,25/1M = **$8,25/Monat**.

**Reranker (Cohere Rerank):** 1M × $1/1.000 = **$1.000/Monat**.

**LLM (Sonnet 4.6, 3.000 rein + 500 raus):** Eingabe: 1M × 3.000 / 1M × $3 = $9.000. Ausgabe: 1M × 500 / 1M × $15 = $7.500. LLM Gesamt: **$16.500/Monat**.

**Gesamt (mit Reranker): $17.509/Monat** (~$0,0175/Abfrage).

**Gesamt (ohne Reranker): $16.509/Monat** (~$0,0165/Abfrage).

Bei dieser Skala ist die LLM-Kosten der einzige Optimierungs-Hebel, der zählt. Drei Wege zur Reduzierung: (1) Prompt Caching für den gemeinsamen System-Prompt und statischen Kontext – senkt Eingabe-Kosten um 75–90% auf dem Cached-Teil; (2) Wechsel zu einer billigeren Modell-Ebene (gpt-4.1-mini bei $0,40/$1,60 pro M vs Sonnet 4.6 bei $3/$15); (3) Reduzierung der abgerufenen Kontextlänge von Top-10 auf Top-5 Chunks. Jedes dieser ist unabhängig und zusammensetzbar.


Prompt Caching: die 60–80% Rechnungs-Reduzierung

Prompt Caching ist der höchste-Hebel RAG-Kosten-Optimierung verfügbar in 2026. Sowohl Anthropic als auch OpenAI bieten es an; die Mechanik unterscheidet sich leicht.

**Anthropic Claude (Prompt Cache):** Cache-Schreib: 1,25x der Standard-Eingabe-Preis. Cache-Lese: 0,10x der Standard-Eingabe-Preis – ein 90% Rabatt. Wenn Ihr System-Prompt + jeder statische Kontext insgesamt 1.500 Token sind und über alle Abfragen geteilt sind, schreiben die erste Abfrage auf Cache zu 1,25x; jede nachfolgende Abfrage liest es zu 0,10x.

``` Without caching (Sonnet 4.6, 3,000 input tokens per query at $3/1M): 1M queries × 3,000 tokens = 3B input tokens × $3/1M = $9,000/month With caching (1,500 tokens cached, 1,500 tokens uncached): Cache writes (first hit per cache TTL): ~$1,687 (1.25x rate, amortized) Cache reads: 1M queries × 1,500 cached tokens × $0.30/1M = $450 Uncached: 1M queries × 1,500 tokens × $3/1M = $4,500 Total input: ~$6,637 — 26% cheaper just from caching the system prompt. ```

Wenn Sie aggressiver cachen können – ein großer statischer Knowledge-Base-Präambel von 4.000 Token enthalten in jeder Anfrage – die Ersparnisse zusammensetzen. Bei 4.000 Tokens Cached pro 5.000-Token-Prompt (80% Cached): Cache-Lese = 1M × 4.000 × $0,30/1M = $1.200; Uncached = 1M × 1.000 × $3/1M = $3.000; Total-Eingabe = $4.200 vs $15.000 ohne Caching – eine 72% Eingabe-Kosten-Reduzierung.

**OpenAI (automatisches Prompt Caching):** OpenAI wendet automatisches Prompt Caching auf das längste gemeinsame Präfix von Anfragen an. Der Cached-Teil wird zu 50% der Standard-Eingabe-Rate abgerechnet (versus Anthropics 10%). Weniger aggressiv aber null Konfiguration nötig – es wird automatisch auf Anfragen angewendet, die einen gemeinsamen führenden Kontext teilen.

Caching ist die einzeln-meisten-impactful RAG-Kosten-Optimierung. Wenn Ihr System-Prompt mehr als 1.000 Token ist, aktivieren Sie Prompt Caching heute. Siehe unseren Claude API Kostenrechner für die Caching-Mathematik auf anderen Claude-Modellen.


Kontextlänge ist der versteckte Kosten-Multiplikator

Teams rufen routinemäßig zu viel ab. Ein RAG-System konfiguriert, um Top-10 Chunks von je 400 Token zurückzugeben, injiziert 4.000 Token Kontext pro Abfrage. Auf Top-5 reduzieren und Sie schneiden die Kontext-Injektion um die Hälfte. Bei Sonnet 4.6's $3/1M, ist die Eingabe-Kosten-Differenz $0,006/Abfrage – $6.000/Monat bei 1M Abfragen. Das ist eine Posten-Ersparnisse wert ein Benchmark-Lauf.

``` Context injection cost by chunk configuration (Sonnet 4.6, $3/1M input): top-3 × 400 tokens = 1,200 context tokens → $0.0036/query top-5 × 400 tokens = 2,000 context tokens → $0.0060/query top-10 × 400 tokens = 4,000 context tokens → $0.0120/query top-20 × 400 tokens = 8,000 context tokens → $0.0240/query ```

Die Ausgabe-Token-Anzahl wird oft unterschätzt. Ein KI-Assistent, der umfassende 800-Token-Antworten schreibt, kostet 60% mehr in Ausgabe als einer, der 500-Token-Antworten gibt. Bei Sonnet 4.6 bei $15/1M Ausgabe, ist die Differenz $0,0045/Abfrage – $4.500/Monat bei 1M Abfragen. Addiere System-Level Ausgabe-Zwänge (`max_tokens`, Antwort-Format-Anleitungen) um das zu kontrollieren.

Für einen funktionierenden Leitfaden zur Minimierung der Kontextlänge ohne Degradation der Antwortqualität, siehe unseren RAG-Architektur-Entscheidungsbaum.


Modellauswahl: Kosten vs Qualitäts-Tradeoffs in 2026

Die LLM-Modellauswahl treibt mehr der RAG-Abfrage-Kosten als jede andere einzelne Entscheidung. Die Spanne zwischen billigstem und teuerstem Tier ist 100x:

**Budget-Tier** – Claude Haiku 3.5 ($0,80/$4 pro M rein/raus) oder gpt-4.1-mini ($0,40/$1,60 pro M rein/raus). Bei 3.000 rein + 500 raus Token: Haiku = $0,0024 + $0,002 = $0,0044/Abfrage. gpt-4.1-mini = $0,0012 + $0,0008 = $0,002/Abfrage. Verwende für: einfache Fakten Q&A auf sauberen strukturierten Kontext, Support Ticket Deflection, FAQ-Abfrage, wo die Antwort ein direkter Lift aus abgerufenem Text ist.

**Mid-Tier** – Claude Sonnet 4.6 ($3/$15 pro M) oder gpt-4.1 ($2/$8 pro M). Bei 3.000 rein + 500 raus: Sonnet = $0,009 + $0,0075 = $0,0165/Abfrage. gpt-4.1 = $0,006 + $0,004 = $0,010/Abfrage. Verwende für: Multi-Schritt-Reasoning über abgerufenem Kontext, Synthese über mehrere Chunks, nuancierte Antwort-Generierung, wo Halluzinations-Risiko signifikant ist.

**Premium-Tier** – Claude Opus ($15/$75 pro M) oder Equivalent. Bei 3.000 rein + 500 raus: $0,045 + $0,0375 = $0,0825/Abfrage. Verwende nur wenn der Anwendungsfall es erfordert: komplexes Rechtliches/Medizinisches Reasoning, Multi-Dokument-Synthese in hochrisiko-Entscheidungen. Bei 1M Abfragen/Monat ist das eine $82.500/Monat Rechnung – typischerweise reserviert für geringes-Volumen hochrisiko-Abfragen, nicht Massen-Workloads.

Das Produktions-Muster für hochvolumige RAG: route einfache Abfragen (Keyword-answerable, Single-Chunk-Abruf) zum Budget-Tier; route komplexe Abfragen (Multi-Hop, ambig, Cross-Chunk-Synthese) zum Mid-Tier. Ein 70/30-Split zwischen Haiku und Sonnet senkt die LLM-Kosten um ~50% versus alle-Sonnet, mit minimaler Qualitäts-Regression auf dem einfachen-Abfrage-Segment.

Überprüfe alle Modell-Preise bei anthropic.com/pricing und openai.com/pricing, bevor du endgültige Budgets finaliserst – beide Anbieter passen Preise mit neuen Modell-Generationen an.


Die Reranker-Entscheidung: $0,001/Abfrage wert?

Ein Reranker nimmt die Top-N abgerufenen Chunks aus der Vektorsuche und scored sie nach semantischer Relevanz zur spezifischen Abfrage, bevor er zum LLM übergibt. Cohere Rerank v3 ist $1/1.000 Abfragen auf der Production-Ebene = $0,001/Abfrage.

Der Geschäftsfall: wenn Ihre Vektorsuche Top-10 Chunks zurückgibt, aber nur 3 sind wirklich relevant, verbringt das LLM Token auf 7 irrelevanten Chunks. Ein guter Reranker filtert diese raus, senkt Kontextlänge (und LLM-Kosten) während Antwort-Präzision verbessert. Der Reranker verdient seinen $0,001, wenn er die durchschnittliche Chunk-Anzahl von 10 auf 5 bei 3.000 Gesamt-Kontext-Token reduziert – weil die Reduzierung $0,006 bei Sonnet 4.6 Rates spart, netto eine $0,005 Ersparnisse pro Abfrage.

Wenn Reranking wert ist: hoher-Rückruf, niedriger-Präzision Abruf (dichte Vektorsuche mit vielen nahe-verfehlt Chunks); lange Kontextfenster, die teuer zu füllen sind; Anwendungsfälle, wo Antwort-Präzision gemessen ist (RAG Eval-Scores, Benutzer-Zufriedenheit CSAT, Support Deflection-Genauigkeit).

Wenn Reranking nicht wert ist: sehr saubere, enge Corpora, wo Vektorsuche bereits hoch-präzise Ergebnisse zurückgibt; Budget-Tier LLM Nutzung, wo die Pro-Abfrage LLM-Kosten bereits $0,002–0,004 sind und die $0,001 Reranker-Gebühr ein 25–50% Surcharge ist; Abfrage-Volumen über 100K/Monat, wo die Reranker-Rechnung $100/Monat übersteigt und ein Abruf-Präzisions-Audit dasselbe könnte Gewinne für kostenlos erzielen.

Siehe den Pinecone vs Weaviate vs Qdrant Vergleich für Vektorsuche Präzisions-Benchmarks von Anbieter, die den Reranker-vs-kein-Reranker Tradeoff informieren.


Bei 1M Abfragen pro Monat: die vollständige Optimierungs-Roadmap

Basis-Rechnung bei 1M Abfragen/Monat (Sonnet 4.6, Top-10 Chunks bei je 400 Token, kein Caching, kein Reranker):

``` Embedding: $1/month (negligible) Vector DB: $8/month (negligible) LLM input: 1M × 4,100 tokens × $3/1M = $12,300/month LLM output: 1M × 500 tokens × $15/1M = $7,500/month Total: ~$19,800/month ```

Optimierung 1 – auf Top-5 Chunks reduzieren: LLM-Eingabe senkt auf 2.100 Token. Eingabe = $6.300. Spart **$6.000/Monat**.

Optimierung 2 – Prompt Caching aktivieren (1.000-Token System-Prompt): Cache-Lese bei $0,30/1M vs $3/1M auf dem gemeinsamen Teil. Spart ~$1.800/Monat auf den System-Prompt-Token. Spart **~$1.800/Monat**.

Optimierung 3 – Abfrage-Routing: sende 60% von Abfragen zu Haiku 3.5 ($0,80/$4 pro M). Haiku 60%: 600K × 2.100 rein / 1M × $0,80 = $1.008; 600K × 500 raus / 1M × $4 = $1.200. Sonnet 40%: 400K × 2.100 rein / 1M × $3 = $2.520; 400K × 500 raus / 1M × $15 = $3.000. Gesamt LLM nach Routing: $7.728 vs $13.800. Spart **~$6.072/Monat**.

Kombiniert nach allen drei Optimierungen: ~**$5.736/Monat** vs Original $19.800 – eine **71% Kosten-Reduzierung** ohne Modell-Degradation auf dem einfachen-Abfrage-Segment und verbesserte Präzision auf dem komplexen-Abfrage-Segment.

Die Implementierungs-Reihenfolge: Prompt Caching zuerst (null-Code-Änderung auf Anthropic, nur Konfiguration), dann Chunk-Reduzierung (benchmark Abruf-Qualität, bevor du schneidest), dann Abfrage-Routing (erfordert Klassifikations-Schicht, meiste Engineering-Aufwand, aber höchste Dollar-Ersparnisse).

Wie man seine RAG-Abfrage-Kosten in 5 Schritten schätzt

  1. 1

    Zähle dein monatliches Abfrage-Volumen

    Jede Benutzer-Interaktion, die einen Abruf triggert, ist eine RAG-Abfrage. 10.000 aktive Benutzer bei 2 Abfragen/Tag = 600.000 Abfragen/Monat. Diese Nummer treibt alles – starten Sie hier, bevor Sie irgendeine Modell- oder Anbieter-Entscheidung berühren.

  2. 2

    Miss deine durchschnittliche Kontextlänge

    Addiere: System-Prompt Token + Benutzer-Abfrage Token + abgerufene Chunk Token (N Chunks × durchschnittliche Chunk-Größe). Das ist deine LLM Eingabe-Token-Anzahl pro Abfrage. In den meisten RAG-Systemen sind dies 2.000–6.000 Token. Alle 1.000 Token bei Sonnet 4.6 Eingabe-Rate = $3/1M = $0,003/Abfrage = $3.000/Monat bei 1M Abfragen.

  3. 3

    Preise die LLM-Schicht zuerst

    LLM-Kosten = (Eingabe_Token / 1M × Eingabe_$/M) + (Ausgabe_Token / 1M × Ausgabe_$/M). Das sind 85–95% deiner Gesamt-RAG-Rechnung. Wähle das billigste Modell, das deine Qualitäts-Leiste bei einer 50-Abfrage gehaltenen Eval erfüllt, bevor du annimmst, dass du das Premium-Tier brauchst.

  4. 4

    Addiere Vektordatenbank und Embedding-Kosten

    Abfrage-Embedding: Abfrage_Token × monatliche_Abfragen / 1M × Embedding_$/M. Typischerweise unter $2/Monat bei den meisten Skalen. Vektordatenbank-Lese: hängt vom Anbieter ab – siehe den Vektordatenbank-Kostenrechner. Normalerweise 1–5% der Gesamtkosten.

  5. 5

    Wende Prompt Caching an und miss Ersparnisse

    Aktiviere Prompt Caching auf deinem LLM-Anbieter. Anthropic Cache-Lese sind 0,10x der Standard-Eingabe-Preis – ein 90% Rabatt auf Cached-Token. Wenn dein System-Prompt 1.000 Token ist und du 1M Abfragen/Monat ausführst, spart Caching ~$2.700/Monat bei Sonnet 4.6 Rates. Null Code-Änderung, konfiguriere im API-Aufruf.

Frequently Asked Questions

Wie viel kostet eine RAG-Abfrage in 2026?

Typischer Bereich: $0,013–$0,025/Abfrage. Aufschlüsselung: Abfrage-Embedding ~$0,000001, Vekterdatenbank-Lesezugriff ~$0,0000083 (Pinecone Serverless), LLM-Generierung $0,013–$0,021 (Sonnet 4.6, 3.000 rein + 500 raus Token). Die LLM-Schicht ist 85–95% der Gesamtkosten. Billiger mit Haiku oder gpt-4.1-mini: $0,002–0,005/Abfrage.

Wie viel kostet RAG bei einer Million Abfragen pro Monat?

Bei $0,018/Abfrage Durchschnitt (Sonnet 4.6, 3.000 rein + 500 raus, Top-5 Chunks, Prompt Caching): ~$18.000/Monat. Vor Optimierung mit Top-10 Chunks, kein Caching: ~$19.800/Monat. Nach vollständiger Optimierung (Caching + Chunk-Reduzierung + Abfrage-Routing): ~$5.700/Monat. Die Optimierungs-Hebel sind real und wert implementiert zu werden bei diesem Volumen.

Was ist die größte Kosten in einem RAG-System?

Der LLM-Generierungs-Aufruf – durchgehend 85–95% der Pro-Abfrage-Gesamtkosten. Der Abruf-Stack (Embedding + Vekterdatenbank-Lesezugriff) ist typischerweise unter 1% der Rechnung. Das bedeutet Modellauswahl und Kontextlänge sind die einzigen Kosten-Hebel, die materiell zählen. Optimieren Sie die zuerst.

Funktioniert Anthropic Prompt Caching für RAG?

Ja, und es ist eine der besten ROI Kosten-Optimierungen für RAG. Cache-Schreib: 1,25x der Standard-Eingabe-Preis. Cache-Lese: 0,10x – ein 90% Rabatt. Wenn dein System-Prompt und jeder statische Kontext insgesamt 1.500 Token sind, Caching diese senkt diese Token-Kosten um 90% auf jeder wiederholten Abfrage. Aktiviere es via den cache_control Parameter im Anthropic API.

Sollte ich einen Reranker in meiner RAG-Pipeline verwenden?

Das hängt von deiner Abruf-Präzision ab. Cohere Rerank ist $0,001/Abfrage (Rerank v3 Production-Tier). Wenn Reranking deine durchschnittlichen abgerufenen Chunks von 10 auf 5 senkt, spart das ~$0,006/Abfrage in LLM-Kontext-Kosten bei Sonnet 4.6 Rates – netto eine $0,005 Ersparnisse nach der $0,001 Reranker-Gebühr. Führe ein Abruf-Präzisions-Audit durch, bevor du einen Reranker hinzufügst; wenn deine Vektorsuche bereits hohe-Präzisions-Ergebnisse zurückgibt, ein Reranker fügt Kosten ohne Qualitäts-Gewinn hinzu.

Wie reduziere ich RAG-Kosten ohne Qualität zu degradieren?

Drei zusammensetzbare Optimierungen: (1) Aktiviere Prompt Caching – Null Code-Änderung, 90% Rabatt auf Cached-Token in Anthropic; (2) Reduziere abgerufene Chunk-Anzahl – benchmark Abruf-Qualität mit Top-3 vs Top-5 vs Top-10 Chunks; (3) Route einfache Abfragen zu einem billigeren Modell-Tier – Haiku 3.5 bei $0,80/$4 pro M handhabt straightforward Fakten-Lookups bei 1/8 der Kosten von Sonnet 4.6. Kombiniert, diese typischerweise erzielen eine 60–70% Kosten-Reduzierung.

Welches LLM sollte ich für RAG in 2026 verwenden?

Starte mit dem Mid-Tier: Claude Sonnet 4.6 ($3/$15 pro M rein/raus) oder gpt-4.1 ($2/$8 pro M). Beide handhaben Multi-Chunk-Synthese zuverlässig. Triff Haiku 3.5 oder gpt-4.1-mini für einfache Fakten Q&A – sie sind 6–8x billiger und ausreichend für Direct-Lift-Antworten aus abgerufenem Kontext. Nur zu Opus-Klasse-Modellen escalieren für komplexes Legales/Medizinisches/Finanz-Reasoning, wo die Qualitäts-Lücke auf deinem Eval messbar ist.

Ist die Vektordatenbank oder das Embedding-Modell die Haupt-Kosten in RAG?

Keine – der LLM-Generierungs-Aufruf ist. Das Embedding-Modell kostet einen Bruchteil eines Cent pro Abfrage (50 Token bei $0,02/1M = $0,000001). Der Vekterdatenbank-Lesezugriff auf Pinecone Serverless ist $0,0000083/Abfrage. Das LLM bei 3.000 rein + 500 raus Token bei Sonnet 4.6 ist $0,0165/Abfrage – 1.000–16.000x mehr als jede Abruf-Komponente. Erstelle dein Kosten-Modell um das LLM herum zuerst.

Reduziere deine RAG-Rechnung, bevor du skalierst.

Bessere Abfrage-Prompts reduzieren abgerufene Kontextlänge und senken LLM-Eingabe-Token pro Abfrage. Unser AI Prompt Generator schreibt effiziente RAG-Abfrage-Muster – kürzer, höhere-Präzisions-Abfragen, die weniger Noise abrufen. 14-Tage kostenloses Probieren, keine Karte.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.