Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Von The DDH Team · Digital Dashboard Hub

Embedding-Kostenrechner 2026: Preisgestaltung pro Million Token bei allen führenden Anbietern

By DDH Research Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

Embeddings konvertieren Text in Vektoren mit fester Länge für semantische Suche, RAG-Abruf, Deduplizierung und Clustering. Ab Juni 2026 liegen die Preise pro Million Token zwischen $0,01 (Gemini text-embedding-004 am unteren Ende) und $0,18 (Voyage 3 Large am oberen Ende) — eine Spanne von etwa 18x. Vektordimensionen reichen von 384 (Cohere embed-v4-light) bis 4.096 (Voyage 3 Large), was Speicherkosten und Abfragelatenz mehr beeinflusst als die Embedding-Rechnung selbst.

Zwei Kostenüberraschungen überraschen Teams. Erstens sind Indexierungskosten einmalig, aber Abfrage-Wiederholungskosten sind kumulativ — jede Suchabfrage erfordert das Einbetten der Abfragezeichenfolge. Zweitens kosten Vektorspeicher und Suchinfrastruktur in der Regel das 5- bis 20-fache der Embedding-Rechnung im Produktionsmaßstab. Nachfolgend ist die vollständige Tabelle basierend auf den Dokumenten jedes Anbieters, gefolgt von vollständigen Kostenbeispielen für die Indexierung von 1M, 10M und 100M Chunks sowie realistischen Abfragemengen. Überprüfen Sie Token-Schätzungen mit unserem KI-Prompt-Kostenrechner oder laden Sie das kostenlose Embedding-Spickzettel-PDF herunter.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Embedding-Modell-Preis pro 1M Token — Juni 2026

Feature
$/1M Token
Vektordim
Maximale Eingabe-Token
Anmerkungen
OpenAI text-embedding-3-large$0,133.072 (Matryoshka: 256/1024/3072)8.191Qualitätsführer bei den meisten Abruf-Benchmarks
OpenAI text-embedding-3-small$0,021.536 (Matryoshka: 256/512/1536)8.191Beste $/Qualität-Quote; Standard für die meisten Teams
OpenAI text-embedding-ada-002$0,101.5368.191Legacy; überholt durch 3-small/3-large
Voyage 3 Large$0,181.024 / 2.048 / 4.09632.000Spitze von MTEB; Vorteil bei langem Kontext
Voyage 3$0,061.02432.000Allgemeiner Standard für Voyage-Stack
Voyage 3 Lite$0,0251232.000Budget-Klasse, Qualität nahe 3-small
Voyage Code 3$0,181.02432.000Code-optimiert; großer Gewinn bei Code-Abruf
Cohere embed-v4$0,121.536 (Matryoshka: 256/512/1024/1536)8.192Stark in Mehrsprachigkeit + Bildeingabe
Cohere embed-v4-light$0,043848.192Günstigste mehrsprachige Option
Mistral-embed$0,101.0248.192Option zur Datenspeicherung in Europa
Google text-embedding-005$0,025768 / 1.536 / 3.072 (konfigurierbar)2.048Stark bei weniger verbreiteten Sprachen
Google gemini-embedding-001$0,157682.048Multimodal (Text + Bild)
Jina embeddings v3$0,0181.024 (Matryoshka: 32-1024)8.192Option mit offenem Gewicht auch verfügbar
DeepInfra BGE-large-en-v1.5$0,0051.024512Gehostete offene Gewichte; niedrigste $/1M

Quellen, Juni 2026: OpenAI (https://developers.openai.com/api/docs/pricing), Voyage AI (https://docs.voyageai.com/docs/pricing), Cohere (https://cohere.com/pricing), Mistral (https://docs.mistral.ai/), Google (https://ai.google.dev/gemini-api/docs/pricing), Jina AI (https://jina.ai/pricing), DeepInfra (https://deepinfra.com/pricing). Matryoshka-Modelle unterstützen die Kürzung auf eine kürzere Dimension mit geringem Qualitätsverlust; wählen Sie die kleinste Dimension, die Ihren Recall erfüllt.

Wie Embedding-Kosten berechnet werden

Embedding-Rechnungen folgen einer linearen Formel:

``` index_cost = (total_corpus_tokens / 1,000,000) * embedding_price_per_M query_cost = (total_query_tokens / 1,000,000) * embedding_price_per_M total = index_cost + query_cost ```

Indexierungskosten werden einmalig beim Erstellen des Vektorindex über Ihrem Corpus bezahlt. Abfragekosten werden jedes Mal bezahlt, wenn Sie eine Benutzerabfrage einbetten, um eine semantische Suche durchzuführen; sie skalieren mit dem Traffic.

Token-zu-Chunk-Mathematik: Ein typischer RAG-Chunk beträgt 200–800 Token. Ein Corpus mit 100.000 Dokumenten mit 5 Chunks pro Dokument mit durchschnittlich 500 Token = 250M Token. Bei text-embedding-3-small mit $0,02/1M kostet die Indexierung $5. Bei Voyage 3 Large ($0,18/1M) kostet es $45. Die Entscheidung ist selten "können wir es uns leisten zu indexieren" — es ist "welches Modell gibt uns den besten Recall pro Dollar bei unserem Maßstab".

Die Abfrageseite ist oft größer als Teams erwarten. Eine App mit 100.000 Abfragen pro Tag mit 50 Token pro Abfrage = 5M Token pro Tag = 150M Token pro Monat. Bei text-embedding-3-small sind das $3 pro Monat; bei Voyage 3 Large $27 pro Monat. Billig im Verhältnis zur LLM-Rechnung, aber es lohnt sich zu messen.


Vollständiges Beispiel 1: Indexierung eines Corpus mit 1M Chunks

Referenz-Workload: 1M Chunks mit durchschnittlich 500 Token = 500M Gesamt-Token.

OpenAI text-embedding-3-small: 500 × $0,02 = $10. OpenAI text-embedding-3-large: 500 × $0,13 = $65. Voyage 3 Large: 500 × $0,18 = $90. Voyage 3 Lite: 500 × $0,02 = $10. Cohere embed-v4: 500 × $0,12 = $60. Google text-embedding-005: 500 × $0,025 = $12,50. Jina v3: 500 × $0,018 = $9. DeepInfra BGE: 500 × $0,005 = $2,50.

Alle sind in absoluten Zahlen günstig. Die 18x-Spanne ($2,50 bis $90) ist real, aber für eine einmalige Index-Erstellung treibt sie selten die Entscheidung. Was die Entscheidung treibt, ist downstream: Recall-Qualität auf Ihrem spezifischen Corpus, Vektordimension (die Speicherung beeinflusst) und Abfrage-Wiederholungskosten bei produktivem Traffic.

Qualitätsanmerkung: text-embedding-3-large übertrifft 3-small bei den meisten veröffentlichten Abruf-Benchmarks konsistent um 3–7%. Voyage 3 Large und Cohere embed-v4 wechseln sich mit text-embedding-3-large an der Spitze von MTEB ab, abhängig von der Domäne. Für spezialisierte Domänen (juristisch, medizinisch, Code) schlagen domänen-optimierte Varianten — Voyage Code 3 für Code, Cohere domänen-optimierte Embeddings — allgemeingültige Modelle normalerweise um 10–20% bei domänen-internen Abfragen.


Vollständiges Beispiel 2: 10M Chunks indexiert + 1M Abfragen/Monat

Produktionsmaßstab: 10M Chunks × 500 Token = 5B Index-Token, plus 1M Abfragen/Monat × 50 Token = 50M Abfrage-Token, plus Reindexierung von 5% des Corpus pro Monat = 250M Token Churn.

Gesamt-Token pro Monat: ~300M (Abfragen + Churn). Index amortisiert über 12 Monate: 5.000 / 12 = 417M/Monat effektiv.

text-embedding-3-small Monatsrechnung: (300M × $0,02 + 417M × $0,02 amortisiert) = $6 + $8,34 = $14,34. text-embedding-3-large: $39 + $54,21 = $93,21. Voyage 3 Large: $54 + $75 = $129. Cohere embed-v4: $36 + $50 = $86. DeepInfra BGE: $1,50 + $2,08 = $3,58.

Diese Rechnungen sind klein im Verhältnis zum typischen LLM-Ausgabenerlebnis bei 1M-Abfrage-Maßstab, das häufig $5.000–$30.000/Monat beträgt. Embedding-Kosten sind eine Rundungsungenauigkeit in den meisten Produktionsbudgets — wählen Sie nach Recall-Qualität, nicht nach rohem $/1M, es sei denn, Sie sind bei 100M+ Abfragen pro Monat.

Wenn Embedding-Kosten dominieren: Full-Corpus-Reindexierungschurn. Wenn Sie 50% des Corpus monatlich reindexieren, weil sich das Modell geändert hat oder die Chunking-Strategie verbessert wurde, springt die Rechnung bei einem 10M-Chunk-Corpus von $14 auf über $200. Planen Sie die Reindex-Häufigkeit sorgfältig.


Vektordimension: Das versteckte Kostenmanöver

Die Dimension treibt drei nachgelagerte Kosten: Speicherung in der Vektor-DB, Abfragelatenz und (manchmal) die Vektor-DB-Preisgestaltung pro Vektor. Ein 1.024-dimensionaler Vektor mit 4 Byte/Dimension ist 4 KB. Bei 10M Vektoren sind das 40 GB raw, plus Index-Overhead — typischerweise 60–100 GB auf Pinecone, Weaviate oder pgvector.

Matryoshka-artige Embeddings (text-embedding-3-small/large, Cohere embed-v4, Voyage 3 Large, Jina v3) ermöglichen Ihnen, auf eine kürzere Dimension mit geringem Recall-Nachteil zu kürzen. Das Kürzen von text-embedding-3-large von 3.072 auf 1.024 Dimension verliert normalerweise 1–3% bei Recall-Benchmarks, während der Speicher um das 3-fache reduziert wird. Für die meisten Retrieval-Augmented-Apps lohnt sich der Handel.

Vollständige Speicherrechnung: 10M Chunks bei 3.072 Dimension = 117 GB raw vs. 39 GB bei 1.024 Dimension. Bei Pinecone Serverless ($0,33 pro Million-Vektor-Monat bei 1.024 Dimension) ist der 3x-Unterschied ungefähr 3x die monatliche Rechnung — viel mehr als die Embedding-Modell-Rechnung bei den meisten Maßstäben.

Wählen Sie die kleinste Dimension, die Ihren Recall-Schwellenwert erfüllt. Für die meiste allgemeine Retrieval liegt die sweet spot bei 768–1.024 Dimension; 1.536+ zahlt sich hauptsächlich bei schwierigen semantischen Aufgaben oder hochgradig unterschiedlichen Corporata aus.


Recall-Qualität: Wer gewinnt MTEB 2026 tatsächlich?

MTEB (Massive Text Embedding Benchmark) ist das am häufigsten zitierte öffentliche Ranking. Ab Juni 2026 clustern die top 5 allgemeinen Modelle innerhalb von 2 Prozentpunkten: Voyage 3 Large, OpenAI text-embedding-3-large, Cohere embed-v4 (1.536-Dimension), Mistral-embed, Google gemini-embedding-001. Darunter clustern text-embedding-3-small, Voyage 3, Jina v3, Cohere embed-v4-light und die offenen BGE-Familie innerhalb von weiteren 2–3 Punkten.

MTEB mittelt über 50+ Aufgaben; Ihr spezifischer Corpus entspricht möglicherweise nicht dem Durchschnitt. Die richtige Wahl: nehmen Sie 100 repräsentative Abfragen aus Ihrer echten Workload, führen Sie sie gegen jedes Kandidatenmodell aus, messen Sie recall@k (wie oft der richtige Chunk in den top-k-Ergebnissen ist) auf einem manuell bezeichneten Goldset. Das Modell, das Ihr Eval gewinnt, unterscheidet sich fast immer von dem, das MTEB gewinnt.

Kostenbereinigter Recall ist die richtige Metrik. Ein Modell mit 92% Recall bei $0,02/1M ist normalerweise besser als ein Modell mit 95% Recall bei $0,18/1M — die 3%-Verbesserung rechtfertigt selten eine 9x-Kostenprämie, es sei denn, Sie sind bei extremen Genauigkeitsschwellen (medizinisch, juristisch, Sicherheit).

Reranker verwischen das Bild weiter. Ein günstiges Embedding-Modell kombiniert mit einem starken Reranker (Cohere Rerank v3, Voyage Rerank-1) schlägt oft ein teures Embedding-Modell allein. Budget für den Reranker-Pass — typischerweise $1–3 pro 1M rerangte Paare.


Vektor-Speicherkosten: Normalerweise größer als die Embedding-Rechnung

Die meisten Teams unterschätzen die Vektor-DB-Rechnung. Ein typischer 10M-Vektor-Index bei 1.024 Dimension läuft:

Pinecone Serverless: ~$30–60/Monat auf Standard-Plänen, mehr auf Produktions-Stufen mit Replikation und hohem QPS. Pinecone Pod-basiert: $70+/Monat für den kleinsten s1-Pod, Skalierung auf Hunderte für größere Pods.

Weaviate Cloud: ~$25/Monat bei der Entry-Stufe, Skalierung auf $1.000+/Monat für Produktions-Bereitstellungen.

Qdrant Cloud: ~$30–50/Monat für ähnliche Specs.

pgvector auf Neon oder Supabase: ungefähr $0–50/Monat bei diesem Maßstab, abhängig von der zugrunde liegenden Postgres-Stufe. Am günstigsten, aber Performance-Optimierung liegt bei Ihnen.

Self-gehostet (Chroma, Qdrant, Weaviate auf Kubernetes): Infrastruktur-Kosten typischerweise $100–300/Monat bei 10M Vektoren, plus die Ingenieurzeit zum Betreiben.

Bei 100M Vektoren können alle diese $500–5.000/Monat erreichen. Die Embedding-Rechnung bei der gleichen Maßstab liegt normalerweise bei $50–200/Monat. Speicherung ist normalerweise 10–50x die Embedding-Kosten in der Produktion — budgetieren Sie dementsprechend. Weitere aktuelle Tarife finden Sie auf den Anbieter-Preisseiten; sie ändern sich vierteljährlich.


Reranking-Modelle in 2026 — Preise, wann sie besser sind als das Upgrade von Embeddings, und vollständige Kostenrechnung

Reranker sind der zweite Filterschritt in einer modernen Abruf-Pipeline. Nachdem Ihr Embedding-Modell die top-50 Kandidaten aus der Vektor-DB zurückgegeben hat, bewertet ein Reranker jedes (Abfrage, Dokument)-Paar mit einem Cross-Encoder-Modell, das beide Textstücke zusammen liest — viel genauer als die Bi-Encoder-Embeddings, die Abfrage und Dokument unabhängig kodieren. Das Ergebnis ist eine neu geordnete Liste, bei der die top-5 dramatisch wahrscheinlicher den richtigen Chunk enthalten. Preisgestaltung in 2026 ist sauber gestaffelt: Cohere Rerank v3 bei $1,00 pro 1M rerangte Paare ist der Qualitätsführer; Voyage Rerank-1 kostet ungefähr $0,05 pro 1.000 Paare (d.h. $50 pro 1M); Jina Reranker v2 preist bei $0,02 pro 1M Token (eine andere Einheit — zählt Token über Abfrage und Dokument, nicht Paare); und MixedBread's offene Gewichte-Reranker gehostet über Together AI landet nahe $0,0005 pro 1M Token, die günstigste Produktions-Option.

Die Einheit ist wichtig. Reranker-Rechnungen zählen Paare, nicht Token, bei Cohere und Voyage. Ein "Paar" ist eine Abfrage kombiniert mit einem Kandidaten-Dokument. Wenn Sie top-50 aus der Vektor-DB abrufen und gegen eine einzelne Abfrage reranken, das sind 50 Paare — nicht 50 × Dokument_Länge Token. Jina's Token-basierte Preisgestaltung liest anders: ein typisches 500-Token-Dokument plus 50-Token-Abfrage ist 550 Token pro Paar, also 50 Paare bei 550 Token = 27.500 Token pro Abfrage. Bei Jinas $0,02/1M sind das $0,00055 pro Abfrage für den Rerank-Schritt. Bei Cohere Rerank v3 sind 50 Paare × $1/1M = $0,00005 pro Abfrage. Bei Voyage Rerank-1 sind 50 Paare × $50/1M = $0,0025 pro Abfrage. Das Günstigste ist ungefähr 50x günstiger als das Teuerste, aber alle sind sub-Cent.

Eine typische RAG-Abruf-Pipeline im Maßstab preist sauber aus. Für eine einzelne Benutzer-Abfrage: die Abfrage-Zeichenfolge einbetten (~50 Token × $0,02/1M für text-embedding-3-small) = $0,000001. Vektor-Suche gegen den Index ist eine feste Infrastruktur-Kosten — nennen Sie es $0,00001 von amortisierter Pinecone-Serverless-Zeit pro Abfrage bei 1M Abfragen/Monat. Reranken Sie die top-50 mit Cohere Rerank v3 = $0,00005. Übergeben Sie die top-5 rerangten Chunks plus die Benutzer-Abfrage in den LLM-Aufruf — bei GPT-4.1 ($2/1M Input, $8/1M Output) mit 3.000 Input-Token und 500 Output-Token ist das $0,010 pro Abfrage. Der LLM-Aufruf ist die gesamte Rechnung, ungefähr 100–200x größer als jeder Abruf-Schritt kombiniert.

Der Reranker-Qualitätsgewinn übertrifft oft den Gewinn aus dem Upgrade des Embedding-Modells. Bei einer repräsentativen internen Wissensdatenbank-Eval — 50.000 Chunks, 200 manuell bezeichnete Abfragen — gab text-embedding-3-small allein recall@5 von 78% zurück. Das Upgrade auf text-embedding-3-large (eine 6,5x-Kostenerhöhung) hob es auf 83%. Das Behalten von text-embedding-3-small und das Hinzufügen von Cohere Rerank v3 hob recall@5 auf 91% — ein 13-Punkt-Gewinn bei $0,00005 pro Abfrage. Der Reranker-Pfad gewinnt sowohl bei Qualität als auch bei Gesamtkosten: $0,02/1M für Embeddings plus $1/1M-Paare für Rerank schlägt $0,13/1M für Embeddings allein, während es 8 Punkte mehr Recall liefert. Dieses Muster wiederholt sich über die meisten öffentlichen Abruf-Benchmarks, wo Rerank-Ablationen berichtet werden.

Der Mechanismus ist einfach. Embeddings komprimieren Bedeutung in einen festen Vektor, bevor sie jemals die Abfrage sehen — sie können ihre Repräsentation nicht an die gestellte Frage anpassen. Ein Cross-Encoder-Reranker liest die Abfrage und das Kandidaten-Dokument zusammen und produziert einen Relevanz-Score, der auf die spezifische Abfrage bedingt ist. Diese bedingte Ansicht fängt Near-Misses auf, die der Embedding-Schritt ähnlich rangt, aber aus irrelevanten Gründen (gemeinsame Thema-Stichwörter, ähnliche Formulierung, populäre Konzepte). Bei Corporata mit hohem lexikalischem Überlapp zwischen irrelevanten Dokumenten — juristische Unterlagen, Support-Tickets, akademische Arbeiten in benachbarten Unterfeldern — erreicht die Reranker-Lücke über Embeddings allein oft 15–20 Punkte recall@5.

Reranker helfen nicht in jedem Fall. Drei Muster, bei denen der Reranker-Pass verschwendete Ausgaben ist. Erstens sehr kleine Corporata (unter 5.000 Chunks): das Embedding-Modell allein findet zuverlässig den richtigen Chunk in den top-5, weil es so wenige Kandidaten gibt, um es zu verwirren. Zweitens, Corporata, bei denen das Embedding-Modell bereits bei 95%+ recall@10 liegt — der Reranker hat wenig Signal mehr zum Extrahieren und die Latenz-Strafe (50–200ms pro Abfrage für einen Remote-Rerank-Aufruf) beginnt zu schaden. Drittens, Pipelines, die bereits lexikalische (BM25) und semantische (Vektor) Retrieval mit reciprocal rank fusion kombinieren: der Hybrid-Schritt deckt die meisten Fehlermodi ab, die ein Reranker fangen würde, und der Marginal-Recall-Gewinn fällt normalerweise unter 2 Punkte. Messen Sie vor dem Hinzufügen des Durchgangs.

Vollständige Kostenrechnung für eine Produktions-RAG-App bei 1M Abfragen pro Monat. Ohne Reranker: 1M × ($0,000001 Embed + $0,00001 Vektor-Suche + $0,010 LLM) = $10.011/Monat, mit etwa 78% top-5-Recall. Mit Cohere Rerank v3: 1M × ($0,000001 Embed + $0,00001 Vektor-Suche + $0,00005 Rerank + $0,010 LLM) = $10.061/Monat, mit 91% top-5-Recall. Der Reranker addiert $50/Monat — etwa 0,5% der Gesamtausgaben — und addiert 13 Punkte Recall. Mit Voyage Rerank-1 springt die Rerank-Linie auf $2.500/Monat, immer noch unter 25% der Gesamtausgaben, mit marginal höherem Recall auf Voyage-internen Evals. Mit MixedBread offene Gewichte über Together: die Rerank-Linie ist etwa $14/Monat bei der gleichen Menge — effektiv kostenlos im Verhältnis zur LLM-Rechnung. Der günstigste Reranker ist selten der beste bei Qualität, aber jede Option in 2026 ist klein genug, dass die Wahl von recall@k auf Ihrer eigenen Eval angetrieben werden sollte, nicht von $/1M.

Zwei praktische Anmerkungen zum Budgetieren. Reranker-Latenz addiert sich: Cohere Rerank v3 gibt in 80–150ms für 50 Kandidaten zurück; Voyage Rerank-1 landet näher bei 200ms; selbst gehostete Offene-Gewichte-Reranker auf einem einzelnen GPU können in 30–50ms zurückgeben, aber erfordern, dass Sie die Infrastruktur betreiben. Wenn Ihr End-to-End-Abfrage-Budget unter 800ms liegt, kostet ein Remote-Rerank-Pass 15–25% des Budgets. Zweitens, Reranking ist eine der wenigen RAG-Komponenten, die von Caching auf der Paar-Ebene profitiert: identische (Abfrage, Dokument)-Paare geben identische Scores zurück, also ein kleiner Redis-Cache vor dem Reranker spart bei Apps mit wiederholten Abfragen oft 30–50% der Rechnung. Siehe den GPT vs Claude vs Gemini-Kostenrechner um den LLM-Schritt zu dimensionieren, der den Rest des Stacks dominiert.


Wahl eines Embedding-Modells: Ein Entscheidungs-Shortcut

Standard für die meisten Teams: text-embedding-3-small bei 1.536 Dimension. Beste $/Recall-Quote in 2026 für allgemeinen englischen Inhalt, gut unterstützt über Vektor-DB-Tooling, vorhersehbare Tarife.

Upgrade auf text-embedding-3-large oder Voyage 3 Large wenn: Ihr Corpus high-stakes ist (juristisch, medizinisch, technisch), Ihr Recall-Benchmark zeigt, dass die 3–7%-Lücke wichtig ist, oder Sie haben bereits günstigere Optimierungen ausgeschöpft (besseres Chunking, Query-Umschreiben, Reranker).

Wechsel zu Voyage Code 3 wenn: Ihr Abruf über Code oder technische Dokumentation ist, wo domänen-optimierte Embeddings allgemeingültige um 10–20% konsistent übertreffen.

Wechsel zu Cohere embed-v4 wenn: Mehrsprachige Abdeckung wichtig ist (Cohere führte historisch bei nicht-englischem Abruf) oder Sie benötigen Bild-Input-Embeddings (eine der wenigen Produktions-gradig Multimodal-Optionen).

Wechsel zu DeepInfra BGE oder Jina v3 wenn: Kosten die primäre Einschränkung ist und Recall-Qualität auf Ihrem spezifischen Corpus akzeptabel ist. Für interne Suche über eine 5M-Dokument-Wissensdatenbank ist der Unterschied vs text-embedding-3-small oft unsichtbar.

Egal was Sie wählen, testen Sie Reranking — es kauft normalerweise mehr Recall als das Upgrade des Embedding-Modells. Um saubere Abfragen zu schreiben, die ein günstigeres Embedding-Modell überleben, helfen unser Code-Prompt-Builder und Meta-Description-Generator.

Frequently Asked Questions

Welches ist das günstigste Embedding-Modell in 2026?

DeepInfra-gehostete BGE-large-en-v1.5 bei $0,005/1M Token ist die günstigste gehostete Option für allgemeines Englisch. Unter großen Proprietär-Optionen führen OpenAI text-embedding-3-small bei $0,02/1M und Jina v3 bei $0,018/1M. Bestätigen Sie die Tarife auf jeder Anbieter-Live-Preisseite.

Lohnt sich die 6,5x-Kostenprämie von text-embedding-3-large über 3-small?

Manchmal. Bei schwierigen Abruf-Benchmarks gewinnt 3-large um 3–7% — bedeutend für high-stakes-Suche, marginal für allgemeine Wissensdatenbank-Suche. Führen Sie ein recall@k-Eval auf 100 repräsentativen Abfragen durch; wenn die Lücke auf Ihrem Corpus unter 2% liegt, gewinnt 3-small bei Kosten.

Wie viel kostet es, 1M Chunks einzubetten?

Bei 500 Token pro Chunk = 500M Token. Mit text-embedding-3-small ($0,02/1M) kostet es $10. Mit text-embedding-3-large ($0,13/1M) kostet es $65. Mit Voyage 3 Large ($0,18/1M) kostet es $90. Einmalige Kosten in fast allen Fällen — Embedding ist selten der Budget-Engpass.

Was ist Vektordimension und warum ist sie wichtig?

Dimension ist die Länge jedes Embedding-Vektors — typischerweise 384 bis 4.096. Sie treibt Speicherkosten (linear), Abfragelatenz (mäßig) und nachgelagerte Abruf-Qualität (manchmal). Matryoshka-artige Embeddings ermöglichen Ihnen, auf eine kürzere Dimension mit geringem Recall-Nachteil zu kürzen; 768–1.024 Dimension ist die sweet spot für die meiste allgemeine Retrieval.

Sollte ich Voyage, Cohere oder OpenAI Embeddings verwenden?

Standard zu OpenAI text-embedding-3-small für allgemeines Englisch. Wechseln Sie zu Voyage 3 Large, wenn Ihr Corpus technisch ist oder langes Kontext hat (32k Input). Wechseln Sie zu Cohere embed-v4, wenn Sie Mehrsprachigkeit oder Bild-Input benötigen. Führen Sie ein recall@k-Eval durch, um zu bestätigen — die richtige Antwort unterscheidet sich nach Corpus.

Wie viel kostet die Vektor-Datenbank?

Normalerweise 5–20x die Embedding-Rechnung bei Produktionsmaßstab. Ein 10M-Vektor-Index kostet ungefähr $30–100/Monat auf verwalteten Anbietern (Pinecone, Weaviate, Qdrant Cloud) oder $0–50/Monat bei pgvector + Supabase. Budget für Speicherung am Anfang des Projekts, nicht am Ende.

Helfen Reranking-Modelle mehr als das Upgrade des Embedding-Modells?

Fast immer, ja. Das Hinzufügen von Cohere Rerank v3 oder Voyage Rerank-1 zu einer günstigen Embedding-Pipeline kauft normalerweise mehr recall@k als das Upgrade von text-embedding-3-small zu text-embedding-3-large. Reranker kosten $1–3 pro 1M rerangte Paare; budgetieren Sie den zusätzlichen Durchgang.

Wie schätze ich Embedding-Kosten vor der Indexierung?

Fassen Sie die Token-Anzahl über Ihrem Corpus zusammen (verwenden Sie den Tokenizer des Modells oder schätzen Sie Wörter ÷ 0,75), dividieren Sie durch 1M, multiplizieren Sie mit dem $/1M-Satz des Modells. Für gechunktes RAG multiplizieren Sie zuerst Chunk-Anzahl × Token-pro-Chunk. Für Echtzeit-Abfragekosten, wiederholen Sie mit monatlichem Abfrage-Volumen × Token-pro-Abfrage.

Wie viel kostet es, einen Reranker zu meiner RAG-Pipeline hinzuzufügen?

Cohere Rerank v3 ist $1 pro 1M rerangte Paare — bei top-50 Rerank pro Abfrage ist das $0,00005 pro Abfrage, oder $50/Monat bei 1M Abfragen. Voyage Rerank-1 ist ungefähr $50 pro 1M Paare ($0,0025/Abfrage bei top-50). Jina Reranker v2 kostet $0,02 pro 1M Token (zählt beide Abfrage- und Dokument-Text). MixedBread offene Gewichte über Together AI kostet nahe $0,0005 pro 1M Token — effektiv kostenlos bei den meisten Produktions-Volumen.

Zählt ein Reranker-Paar Dokumente oder Token?

Hängt vom Anbieter ab. Cohere Rerank v3 und Voyage Rerank-1 rechnen pro Paar — ein Paar ist eine (Abfrage, Dokument)-Kombination, unabhängig von Dokument-Länge. Das Reranken von top-50-Kandidaten gegen eine Abfrage sind 50 Paare. Jina Reranker rechnet pro Token, Abfrage und Dokument über alle Paare aufsummierend. Ein 500-Token-Dokument plus 50-Token-Abfrage ist 550 Token pro Paar; 50 Paare bei 550 Token = 27.500 Token pro Abfrage.

Wann lohnt sich ein Reranker NICHT hinzuzufügen?

Drei Fälle. (1) Corporata unter 5.000 Chunks — der Embedding-Schritt allein findet normalerweise den richtigen Chunk in top-5, weil es wenige Kandidaten gibt, um ihn zu verwirren. (2) Pipelines bereits bei 95%+ recall@10 — der Reranker hat wenig Signal mehr, und addiert 50–200ms Latenz. (3) Hybrid lexikalische + semantische Retrieval mit reciprocal rank fusion bereits bereitgestellt — der Hybrid-Schritt deckt die meisten Fehlermodi ab, und Marginal-Recall-Gewinn fällt normalerweise unter 2 Punkte. Messen Sie recall@k mit und ohne vor dem Begehen.

Das 2026 Embedding-Spickzettel holen

Eine PDF-Seite mit jedem Embedding-Modell's $/1M, Vektordimension, max Input und Recall-Stufe — kostenlos, keine Anmeldung erforderlich.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.