Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Vom DDH Team · Digital Dashboard Hub

Embeddings-Kostenrechner (2026)

By The DDH Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

Embeddings sind die kostengünstigste Schicht eines KI-Stacks — ein paar Cent pro Million Tokens — aber in großem Maßstab summiert sich das. Ab Juni 2026 liegen die Preise pro 1M-Token zwischen $0,02 (Voyage 3.5-lite, OpenAI text-embedding-3-small) und $0,20 (Google gemini-embedding-2). Das ist ein 10er Unterschied, und das richtige Modell für Ihre Abruf-Qualitätsanforderungen ist oft nicht das teuerste.

Drei Preismodelle am Markt. **OpenAI** und **Voyage** berechnen einen pauschalen Preis pro 1M-Token, den Sie mit Ihrem eingebetteten Datenbestand multiplizieren. **Google Gemini** bietet eine kostenlose Stufe (unter Ratelimit-Beschränkungen) plus bezahlte Preise pro 1M-Token plus eine 50%-Rabatt-Batch-Stufe. **Cohere** hat Embed 4 auf instanzbasierte Preise verschoben (Model Vault zu $4-5/Stunde oder monatlich), was die Berechnung von Kosten pro Token unmöglich macht — siehe den Cohere-Bereich für die Vergleichsform.

Unten: die kanonische Preistabelle für OpenAI / Voyage / Google (Cohere separat ausgebrochen), die kanonische Embedding-Kostenformel, vier durchgerechnete Beispiele (1M Tokens, 100M Tokens, 1B Tokens, ein vollständiger RAG-Datenbestand-Rebuild), die Speicherkosten, die die meisten Teams unterschätzen, und das Modell-Auswahlwerkzeug nach Qualitätsebene. Schreiben Sie effiziente Embedding-Abfrage-Prompts (saubere Abfragen → weniger Neuausführungen) mit unserem kostenlosen ChatGPT Prompt-Generator. Verwandte Rechner: OpenAI API Kosten · Claude API Kosten · Bildgenerierung Kosten.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Embedding-Modell-Preis pro 1M Tokens — Juni 2026

Feature
Anbieter
Eingabepreis ($/1M Tokens)
Dimensionen
OpenAI text-embedding-3-smallOpenAI$0.021.536 (konfigurierbar bis 256)
OpenAI text-embedding-3-largeOpenAI$0.133.072 (konfigurierbar bis 256)
Voyage voyage-3.5-liteVoyage AI$0.021.024
Voyage voyage-3.5Voyage AI$0.061.024 (konfigurierbar)
Voyage voyage-3-liteVoyage AI$0.02512
Voyage voyage-3Voyage AI$0.061.024
Voyage voyage-3-largeVoyage AI$0.181.024 (hohe Genauigkeit)
Google gemini-embedding-001Google$0.15 ($0.075 Batch)3.072
Google gemini-embedding-2Google$0.20 ($0.10 Batch)3.072

Quellen, ab Juni 2026: OpenAI-Preise (developers.openai.com/api/docs/pricing — beachten Sie, dass text-embedding-3 auf der verifizierten Live-Seite omittiert wurde; die oben angegebenen Preise sind die langzeitstabilen Preise von 2024, die von costgoat.com verwendet werden und durch Community-Referenzen bestätigt werden; überprüfen Sie vor der Veröffentlichung von hochvolumigen Budgets), Voyage AI-Preise (docs.voyageai.com/docs/pricing), Google Gemini API-Preise (ai.google.dev/gemini-api/docs/pricing). Cohere Embed 4 hat zur instanzbasierten Preisgestaltung (Model Vault) gewechselt — siehe den dedizierten Cohere-Bereich. Token-Zählungen sind nur für die Eingabe; Embeddings haben keine Rechnung für Ausgabe-Tokens.

Die Kostenformel (eine Zeile — keine Überraschungen)

Embedding-Kosten sind die einfachste Mathematik im LLM-Stack — es gibt keine Ausgabe-Token-Rechnung, keine Caching-Schicht, keine Batch-Gebühr außer wo ausdrücklich angegeben. Die Formel:

``` cost = (total_tokens / 1,000,000) × price_per_M_tokens ```

Schätzen Sie `total_tokens` aus der Zeichenzahl Ihres Datenbestands: 1 Token ≈ 4 Zeichen Englisch. Ein Datenbestand von 10M Wörtern sind ungefähr 13,3M Tokens (10M × 1,33 Wort-zu-Token-Verhältnis). Eine 100k-Zeilen-Produktdatenbank mit 200-Wort-Beschreibungen sind ~26,7M Tokens.

Erneutes Embedding (wenn Sie Modelle ändern, die Chunking-Strategie ändern oder Ihren Vektor-Index neu aufbauen) belastet den vollständigen Datenbestand erneut. Planen Sie mindestens einen Rebuild während des Lebenszyklus eines produktiven RAG-Systems — ein 100M-Token-Datenbestand bei $0,13/1M kostet $13 zum erneuten Einbetten, aber ein 10B-Token-Datenbestand kostet $1.300, was zu einem echten Posten wird.

Was NICHT auf der Rechnung steht: Vektor-Speicherung (in seinem eigenen Bereich behandelt), Query-Time-Embedding (jede Benutzer-Abfrage erhält ihre eigene Embedding-Kosten auf der Lesenseite) und Abruf-Zeit-Datenbankoperationen (Vektor-DB-Hosting-Gebühr — Pinecone, Weaviate, Qdrant, pgvector — variiert nach Anbieter). Die Embedding-Kosten sind nur der Modellaufruf.


Durchgerechnetes Beispiel 1: ein 1M-Token-Datenbestand (kleiner Index, ~750k Wörter)

Ein 1M-Token-Datenbestand ist ein typisches Solo-Projekt — ein persönliches Notiz-Archiv, ein kleiner Produktkatalog, ein interner Dokumentenindex von ~750k Wörtern.

OpenAI text-embedding-3-small: 1 × $0,02 = **$0,02** (ja, zwei Cent). text-embedding-3-large: 1 × $0,13 = **$0,13**.

Voyage voyage-3.5-lite: $0,02. voyage-3.5: $0,06. voyage-3-large: $0,18.

Google gemini-embedding-001 Standard: $0,15. Batch-Stufe: $0,075.

In diesem Maßstab ist der Kostenunterschied Rundungsfehler. Die richtige Wahl ist Qualität, nicht Preis — wählen Sie das Modell, das Ihre Abruf-Genauigkeitsanforderungen bei einer 20-Abfrage-Evaluierungsgruppe erfüllt. Für die meisten Solo-Skala-Indizes bearbeiten text-embedding-3-small oder voyage-3.5-lite die Arbeitslast bei $0,02.


Durchgerechnetes Beispiel 2: ein 100M-Token-Datenbestand (mittleres RAG-System)

Ein 100M-Token-Datenbestand stellt ein mittelgroßes produktives RAG dar — eine SaaS-Wissensdatenbank, ein mittelgroßer Support-Ticket-Index, eine Gesetzesbibliothek.

OpenAI text-embedding-3-small: $2. text-embedding-3-large: $13.

Voyage 3.5-lite: $2. voyage-3.5: $6. voyage-3-large: $18.

Google gemini-embedding-2 Standard: $20. Batch: $10.

Immer noch kleine absolute Dollar. Jetzt zählt die Evaluierung mehr — bei 100M Tokens haben Sie genug Daten, um eine echte Abruf-Qualitäts-Benchmark (recall@10, MRR, normalisierte DCG) über jedes Modell hinweg auszuführen. Die meisten Teams stellen fest, dass voyage-3-large oder text-embedding-3-large ihre günstigeren Alternativen bei technischen oder domänenspezifischen Datenbeständen wesentlich überperformen; Verbraucher-/Marketing-Datenbestände sehen oft keinen Unterschied.


Durchgerechnetes Beispiel 3: ein 1B-Token-Datenbestand (Enterprise RAG)

Ein 1B-Token-Datenbestand ist ein Enterprise-RAG-System — ein vollständiges Dokumenten-Lagerhaus, ein Multi-Produkt-Hilfecenter, ein Jahre-tiefes Support-Ticket-Archiv.

OpenAI text-embedding-3-small: $20. text-embedding-3-large: $130.

Voyage 3.5-lite: $20. voyage-3.5: $60. voyage-3-large: $180.

Google gemini-embedding-2 Standard: $200. Batch: $100.

Jetzt sind die Preisunterschiede echte Budgetposten. Abruf-Qualität zählt noch mehr, weil ein 10%-Rückgang bei der Erinnerung (Recall) bei einem 1B-Token-Datenbestand bedeutet, dass Sie Tausende von relevanten Dokumenten pro Abfrage verpassen. Führen Sie die Evaluierung durch; wählen Sie das günstigste Modell, das Ihre Anforderungen erfüllt.

Wichtig: Kosten für erneutes Embedding. Wenn Sie während des Lebenszyklus Modelle oder Chunking-Strategien ändern, zahlen Sie erneut die vollständigen Datenbestands-Kosten. Planen Sie das Jahresbudget bei 1,5x der Ersteinbettungs-Kosten, um mindestens einen Rebuild abzudecken — typisches Timing für große Modell-Upgrades.


Durchgerechnetes Beispiel 4: vollständiger RAG-Betriebsbudget (1B-Token-Datenbestand + 1M Abfragen/Monat)

Embedding-Kosten sind die Hälfte der Rechnung bei einem echten RAG. Die andere Hälfte ist Query-Time-Embedding: jede Benutzer-Abfrage erhält ihren eigenen Embedding-Aufruf vor der Vektor-Suche.

Nehmen Sie einen 1B-Token-Datenbestand auf text-embedding-3-large + 1M Benutzer-Abfragen/Monat bei ~50 Tokens jeweils (50M Abfrage-Tokens/Monat):

Einmalige Embed-Kosten: $130. Query-Time-Embeddings: 50 / 1 × $0,13 = $6,50/Monat — praktisch kostenlos.

Vergleichen Sie mit text-embedding-3-small + voyage-3-large Hybrid für Abfrage-Umpositionierung: $20 (einmalig) + 50M × $0,18/1M = $9/Monat für Abfrage-Embeddings (nehmen Sie an, voyage bearbeitet die Abfrage-Seite).

Vektor-DB-Hosting hinzufügen: Pinecone Serverless bei $0,50/1M Reads + $0,05/M Writes — für 1M Abfragen/Monat, ~$0,50 Reads, plus Index-Speicherung, der mit Vektor-Dim-Zahl skaliert. Ein 1B-Token-Datenbestand von 1.000-Token-Chunks = 1M Vektoren von 3.072 dim × 4 Bytes = ~12 GB; bei $0,10/GB/Monat sind das $1,20/Monat.

**Gesamte monatliche RAG-Rechnung (ausschließlich LLM-Aufruf nach Abruf)**: ~$8 Query-Time + $1,20 Speicherung = $9-10/Monat, mit $130 initiale Embed-Kosten. Die Modell-Schicht (Sonnet 4.6 oder gpt-5.4 auf dem abgerufenen Kontext) ist, wo die echte Rechnung lebt — die Abruf-Seite ist im Vergleich günstig.


Die Speicherkosten, die die meisten Teams zu budgetieren vergessen

Vektor-Dimensionen zählen für Speicherung. Ein 3.072-dim Embedding (text-embedding-3-large Standard) ist 12.288 Bytes pro Vektor bei float32 — ein 1M-Vektor-Index ist ~12 GB. Ein 1.024-dim Embedding (Voyage Standard, OpenAI konfigurierbar herunter) ist ~4 GB für die gleichen 1M Vektoren — 3x billiger zum Speichern.

OpenAI text-embedding-3 unterstützt den `dimensions` Parameter zum Konfigurieren bis zu 256 — nützlich, wenn Speicherkosten dominieren. Voyage voyage-3.5 unterstützt Dimensionsreduzierung. Der Kompromiss: niedrigere Dims = niedrigere Abruf-Qualität bei schwierigen Abfragen. Testen Sie Ihre Evaluierung, bevor Sie reduzieren.

Vektor-DB-Preismodelle variieren stark. Pinecone Serverless bepreist sowohl Reads als auch Speicherung. Qdrant Cloud bündelt sie. pgvector auf verwaltetem Postgres ist eine Pauschalgebühr-Postgres-Rechnung. Für einen 1B-Token-Datenbestand mit täglichen Abfragen, erwarten Sie $50-500/Monat Vektor-DB-Hosting, abhängig von Dim-Zahl, Abfrage-Volumen und Anbieter — oft mehr als die Embedding-Kosten selbst.


Cohere Embed 4: instanzbasierte Preise statt pro-Token

Cohere hat Embed 4 2026 zur Model Vault Instanzpreisgestaltung umgestellt — Sie mieten dedizierte Kapazität anstatt pro Token zu zahlen. Ab Juni 2026: Small-Instanz $4/Stunde oder $2.500/Monat, Medium-Instanz $5/Stunde oder $3.250/Monat.

Die Mathematik: eine Instanz ist ständig 'eingeschaltet', egal ob genutzt. Small bei $2.500/Monat ist Break-Even mit text-embedding-3-large nur über 19,2M Tokens/Tag (576M/Monat). Unterhalb dieses Volumens sind pro-Token-Anbieter günstiger.

Embed 4s Unterscheidungsmerkmal ist mehrsprachig + multimodal — Text + Bild + Tabellen-Embeddings in einem einzelnen Modell. Wenn Ihr Datenbestand stark mehrsprachig ist oder strukturierte Tabellen enthält, kann die Pro-Instanz-Gebühr für die Abruf-Qualität das Prämium rechtfertigen. Für englische Text-only-Datenbestände werden OpenAI oder Voyage günstiger.

Cohere hat auch eine kleinere embed-multilingual-light Instanz-Option für niedrigere Volumen — überprüfen Sie cohere.com/pricing auf aktuelle Optionen.


Kosten für erneutes Embedding: die Lebenszyklus-Linie, die niemand plant

Jedes produktive RAG trifft auf mindestens ein Re-Embed-Event in seinen ersten 18 Monaten. Die Auslöser: ein besseres Modell wird ausgeliefert (text-embedding-3-large zu einem zukünftigen text-embedding-4, oder voyage-3 zu voyage-4); eine Chunking-Strategieänderung (von 512-Token-Chunks zu 1.024-Token-Chunks, oder von fester Größe zu rekursiv); ein domänenspezifisches Fine-Tune wird vom Anbieter freigegeben; ein Wechsel in der Dimensionalität (3.072 → 1.536 um Speicherung zu halbieren). Jedes Event belastet den vollständigen Datenbestand erneut.

Planen Sie das Jahresbudget bei 1,5x der Ersteinbettungs-Kosten. Für einen 1B-Token-Datenbestand auf text-embedding-3-large sind Ersteinbettungs-Kosten $130. Das Jahresbudget sollte ~$195 sein — genug für einen vollständigen Rebuild plus die stabilen Abfrage-seitigen Embeddings. Größere Datenbestände und schneller-bewegende Forschungs-Domänen brauchen möglicherweise 2x.

Risikominderung: führen Sie die Evaluierung durch, bevor Sie sich festlegen. Wenn das neue Modell die Abruf @10 um nur 2-3 Prozentpunkte auf Ihrer Evaluierung hebt, lohnt sich der Rebuild möglicherweise nicht für die Kosten oder die Ausfallzeit. Wenn es um 8-12 Punkte hebt, bauen Sie sofort wieder auf und planen Sie die gestaffelte Migration während Off-Peak-Stunden.

Gestaffelte Rebuilds sind das Produktions-Muster. Betten Sie den neuen Datenbestand neben dem alten ein, führen Sie Dual-Abruf in der Produktion für eine Woche mit Qualitäts-Monitoring aus, schalten Sie den Index um, sobald Sie sicher sind, deprecieren Sie den alten Index. Die temporäre 2x Speicherkosten sind der Preis einer sicheren Migration.


Die 5 produktiven Muster, die wir in echten Teams sehen

**Muster 1 — Solo-Projekt, text-embedding-3-small nur.** Hobby- und Side-Project-Teams default auf OpenAI text-embedding-3-small bei $0,02/1M. Gesamtmonatliche Kosten unter $5 für praktisch jeden Datenbestand. Keine Optimierung notwendig; schicken und iterieren.

**Muster 2 — SaaS RAG, voyage-3 + Pinecone Serverless.** Mid-Size-Produktions-Teams wählen voyage-3 bei $0,06/1M für den Qualität-pro-Dollar Sweet Spot, gepaart mit Pinecone Serverless für Speicherung. Monatliche Rechnung: $50-200 für die Embedding-Arbeit, $30-100 für Vektor-Hosting. Gesamt-Stack: ~$200/Monat bei typischem Mid-Market-Volumen.

**Muster 3 — Enterprise RAG, text-embedding-3-large + pgvector.** Enterprise-Teams mit bestehender Postgres-Infrastruktur führen text-embedding-3-large bei $0,13/1M aus, speichern Vektoren in pgvector inside ihrem verwalteten Postgres. Kompromiss: pgvector ist bei Skalierung leicht langsamer als spezialisierte Vektor-DBs, elimiert aber eine Anbieter-Beziehung und eine Sicherheits-Review-Oberfläche.

**Muster 4 — mehrsprachiges RAG, gemini-embedding-2 + Vertex AI.** Teams mit ernsthaften mehrsprachigen Datenbeständen (Jura in verschiedenen Ländern, globaler Support-Inhalt, Multi-Region-Produktdokumente) landen auf Googles gemini-embedding-2 für native mehrsprachige Qualität + Vertex AI Ökosystem Fit.

**Muster 5 — Hybrid-Abruf, text-embedding-3-small + voyage-3-large Umpositionierung.** Ausgefeilte Teams verwenden ein günstiges Embedding-Modell für Erst-Pass-Abruf (Recall) plus ein Premium-Modell oder Cross-Encoder für Zweite-Pass-Umpositionierung (Precision). text-embedding-3-small bei $0,02/1M für Index-Embedding, voyage-3-large bei $0,18/1M für die Top-50-Umpositionierung — beste Qualität pro Dollar bei hohen Volumen.


Das Modell-Auswahlwerkzeug: welches Embedding-Modell für welche Aufgabe

**Günstig + gut**: text-embedding-3-small ($0,02/1M) oder voyage-3.5-lite ($0,02/1M). Verwenden Sie für Solo-Projekte, Prototypen, niedrig-einsatziges RAG. Nicht zu unterscheiden von Premium-Modellen auf den meisten Verbraucher-Klasse-Datenbeständen.

**Sweet Spot**: voyage-3.5 ($0,06/1M) oder voyage-3 ($0,06/1M). Starke Abruf-Qualität bei 3x der Lite-Kosten. Verwenden Sie für produktives RAG, wo Abruf-Qualität zählt, aber Sie können die Premium-Stufe nicht rechtfertigen.

**Premium-Genauigkeit**: voyage-3-large ($0,18/1M) oder text-embedding-3-large ($0,13/1M). Greifen Sie auf diese zurück, wenn Abruf-Qualität geschäftskritisch ist (Jura, Medizin, Finanzen) und das Volumen die Gebühr rechtfertigt. text-embedding-3-large bei $0,13 ist die beste Preis-pro-Qualität in der High Tier für Englisch; voyage-3-large outperformt bei mehrsprachig und domänenspezifisch.

**Mehrsprachig / multimodal**: Google gemini-embedding-2 (mehrsprachig nativ) oder Cohere Embed 4 (Text + Bild + Tabellen). Verwenden Sie, wenn Ihr Datenbestand Sprachen überschreitet oder strukturierte Daten enthält.


Sourcing-Methodologie — und was wir ausdrücklich ausgeschlossen haben

Pro-Token-Preise in der Tabelle stammen aus den Live-Pricing-Seiten jedes Anbieters: Voyage AI (docs.voyageai.com/docs/pricing), Google Gemini (ai.google.dev/gemini-api/docs/pricing), abgerufen 2026-06-20. Voyage-Preise haben sich durch 2026 stabil gehalten; Googles gemini-embedding-001 wurde in früher 2026 neben gemini-embedding-2 in die Standard-Pricing-Stufe hinzugefügt mit der Batch-Stufe bei 50% Rabatt.

**OpenAI text-embedding-3-small / -large**: nicht auf dem verifizierten Live-Pricing-Seite-Snapshot von 2026-06-20 (der Snapshot konzentrierte sich auf Chat-Modelle). Die oben angegebenen Preise ($0,02 / $0,13) stimmen damit überein, was costgoat.com, livechatai.com und neuere Open-Source-Repo-Integrationen zitieren, und sind seit 2024-Launch stabil. Wir fügen sie mit diesem Vorbehalt ein. **Überprüfen Sie** auf developers.openai.com/api/docs/pricing, bevor Sie sechsstelliges Embedding-Spend budgetieren.

**Cohere**: Embed 4 hat zur Model Vault instanzbasierten Preisgestaltung gewechselt, anstatt pro-Token. Wir schließen Cohere aus der Pro-Token-Tabelle aus, weil die Vergleichsform grundlegend unterschiedlich ist. Verwenden Sie es, wo mehrsprachige / multimodale Qualität das Instanz-Engagement rechtfertigt, oder wo Sie das Volumen haben, um die $2.500-3.250/Monat Basis abzudecken.

**Was wir nicht eingeschlossen haben**: AWS Bedrock Embeddings (variiert nach Region und Reseller Margin), Mistral Embeddings (immer noch in der frühen 'kostenlos während Preview' Phase ab Juni 2026), Open-Source Self-Hosted Embeddings (kein gehosteter Preis; die Kosten hängen vollständig von Ihrer Infrastruktur ab). Für die meisten produktiven Teams deckt die OpenAI / Voyage / Google-Triade 90%+ der Entscheidungen ab.

**Vierteljährlich live überprüfen**, wenn Ihre Embedding-Rechnung $500/Monat übersteigt. Preise in diesem Markt waren stabiler als Chat-Modell-Preise, aber ändern sich immer noch — Voyage 3.5 startete 2025 mit einer höheren Rate und fiel innerhalb von Monaten auf $0,06.


Fünf Fragen zum Beantworten, bevor Sie ein Modell wählen

**1. Was ist die dominierende Sprache Ihres Datenbestands?** Englisch-only → OpenAI oder Voyage. Mehrsprachig → Google gemini-embedding oder Cohere Embed 4. Domänenspezifisch (Jura, Medizin) → Voyage 3-large oder eine domänen-tuned Alternative.

**2. Wie groß ist Ihr gesamter Datenbestand?** Unter 100M Tokens → wählen Sie nach Qualität, Kosten sind vernachlässigbar. 100M-1B → führen Sie eine Evaluierung durch; 6-10x Preis-Spreads fangen an zu zählen. 1B+ → priorisieren Sie Re-Embedding-Budget-Planung über Pro-Token-Preis.

**3. Welche Abruf-Qualitätsanforderungen haben Sie?** Bauen Sie eine 20-50 Abfrage gehaltene Evaluierung auf, führen Sie jedes Kandidat-Modell aus, messen Sie recall@10 und MRR. Die günstigen Modelle (text-embedding-3-small, voyage-3.5-lite) stimmen oft Premium auf Verbraucher-Datenbeständen überein. Premium zahlt sich auf schwierig/technisch/mehrsprachig aus.

**4. Welcher Vektor-Store wird den Index halten?** Pinecone, Qdrant, Weaviate, pgvector, Milvus. Jeder hat unterschiedliche Speicherkosten-pro-Dim. text-embedding-3 unterstützt Dimensionsreduzierung über den dimensions Parameter; voyage-3.5 auch. Kleinere Dims = günstigere Speicherung aber niedrigeres Recall auf schwierigen Abfragen.

**5. Werden Query-Time-Embedding-Kosten dominieren?** Bei 10M Abfragen/Monat mit 50-Token-Abfragen sind das 500M Tokens/Monat von Query-Embedding — $10 auf text-embedding-3-large, $40 auf gemini-embedding-2. Unterhalb Datenbestand Embed-Kosten für die meisten Teams, aber wert zu budgetieren.

Jede Embedding-Kosten in 5 Schritten schätzen

  1. 1

    Corpus Tokens zählen

    Zeichenzahl ÷ 4 = ungefähre Input Tokens. Ein 10M-Wort-Datenbestand ist ~13,3M Tokens. Eine 100k-Zeilen-Datenbank mit 200-Wort-Beschreibungen ist ~26,7M Tokens. Bekommen Sie diese Zahl zuerst; alles andere folgt.

  2. 2

    Wählen Sie ein Modell, das Ihre Abruf-Qualitätsanforderungen erfüllt

    Führen Sie eine 20-Abfrage-Evaluierung gegen 2-3 Kandidat-Modelle aus. Günstig (text-embedding-3-small, voyage-3.5-lite) stimmt oft Premium auf Verbraucher-Datenbeständen überein. Premium (voyage-3-large, text-embedding-3-large) gewinnt bei technisch, mehrsprachig oder hocheinsatzige Arbeiten.

  3. 3

    Wenden Sie die Formel an

    cost = total_tokens / 1,000,000 × price_per_M. Ein 100M-Token-Datenbestand auf text-embedding-3-large = 100 × $0,13 = $13. Die Mathematik ist absichtlich langweilig.

  4. 4

    Fügen Sie Query-Time-Embedding-Budget hinzu

    Jede Benutzer-Abfrage erhält ihren eigenen Embedding-Aufruf. 1M Abfragen × 50 Tokens jeweils = 50M Tokens. Bei $0,13/1M = $6,50/Monat. Klein im Vergleich zu Datenbestand Embed, aber wiederkehrend.

    → Open the ChatGPT Prompt-Generator (saubere Abfragen)
  5. 5

    Vektor-Speicherung separat budgetieren

    Speicherung skaliert mit Dim-Zahl. 3.072-dim × 4 Bytes × N Vektoren. Ein 1M-Vektor-3.072-dim-Index ist ~12 GB. Verwenden Sie OpenAIs `dimensions` Parameter (konfigurierbar bis 256), wenn Speicherkosten dominieren und Ihre Evaluierung erlaubt.

Frequently Asked Questions

Wie viel kostet es, 1 Million Tokens 2026 einzubetten?

Günstigster Weg: $0,02 auf OpenAI text-embedding-3-small oder Voyage voyage-3.5-lite. Mid-Tier: $0,06 auf Voyage voyage-3.5. Premium: $0,13 (OpenAI text-embedding-3-large) bis $0,18 (Voyage voyage-3-large). Google gemini-embedding-2 ist $0,20 Standard, $0,10 Batch. Bezogen aus den Live-Pricing-Seiten jedes Anbieters.

Was ist das günstigste Embedding-Modell, das noch gute Abruf-Qualität hat?

OpenAI text-embedding-3-small ($0,02/1M) bearbeitet die meisten Verbraucher-Klasse-RAG ohne messbaren Qualitätsverlust vs. Premium-Modelle. Voyage voyage-3.5-lite ($0,02/1M) ist eine ähnlich starke günstige Option, besonders für technische/domänenspezifische Datenbestände. Führen Sie eine 20-Abfrage-Evaluierung auf Ihrem aktuellen Datenbestand durch, bevor Sie annehmen, dass Sie die Premium-Stufe brauchen.

Wie viel kostet es, 1 Milliarde Tokens einzubetten?

$20 auf text-embedding-3-small. $130 auf text-embedding-3-large. $180 auf voyage-3-large. $200 auf gemini-embedding-2 Standard ($100 Batch). Die günstige Stufe ist oft ausreichend — testen Sie nur gegen Premium-Modelle, wenn Abruf-Qualität in hohen Einsätzen zählt.

Haben Embeddings Ausgabe-Token-Kosten?

Nein. Embedding-APIs berechnen nur Input Tokens. Die 'Ausgabe' (der Vektor) ist im Input-Preis inbegriffen. Dies ist die einfachste Kostenform im LLM-Stack.

Wie viel kostet Cohere Embed 4 2026?

Cohere hat Embed 4 zur Model Vault instanzbasierten Preisgestaltung verschoben — $4/Stunde oder $2.500/Monat für die Small-Instanz, $5/Stunde oder $3.250/Monat für Medium. Über ~576M Tokens/Monat wird Cohere mit Pro-Token-Anbietern wettbewerbsfähig. Unterhalb dieses Volumens sind OpenAI oder Voyage günstiger. Coheres Vorteil ist mehrsprachige und multimodale Embeddings.

Was ist der Kostenunterschied zwischen text-embedding-3-small und text-embedding-3-large?

text-embedding-3-large kostet 6,5x mehr pro Token ($0,13 vs $0,02). Der Qualitätsunterschied hängt vom Datenbestand ab. Bei englischen Verbraucher-Datenbeständen ist die Lücke oft vernachlässigbar. Bei technischen, mehrsprachigen oder hocheinsatz-Datenbeständen verbessert das Large-Modell den Abruf @10 wesentlich. Führen Sie einen Head-to-Head-Vergleich durch, bevor Sie sich zur Premium-Stufe verpflichten.

Sollte ich die Google Gemini Batch API für Embeddings verwenden?

Ja, wenn Ihre Embedding-Arbeit asynchron ist. Googles Gemini Batch-Stufe ist 50% Rabatt ($0,10/1M vs $0,20/1M auf gemini-embedding-2). Gleiches Modell, gleiche Qualität, 24-Stunden-Completion-Fenster. Perfekt für initiales Datenbestand Embed oder periodische Rebuilds — nicht für Query-Time-Embedding.

Muss ich erneut einbetten, wenn ich Modelle wechsle?

Ja. Embeddings sind modellspezifisch — ein Vektor von text-embedding-3-large ist in einem anderen Raum als einer von voyage-3-large und kann nicht bedeutungsvoll verglichen werden. Das Wechseln von Modellen bedeutet erneutes Einbetten des gesamten Datenbestands. Budgetieren Sie jährlich bei 1,5x der Ersteinbettungs-Kosten, um mindestens ein Modell-Upgrade-Rebuild abzudecken.

Günstige Embeddings + saubere Abfragen = das günstigste RAG, das Sie versenden können.

Die Abfrage-seitige Prompt-Struktur bestimmt Recall (und Re-Embedding-Kosten). Unser AI Prompt-Generator schreibt effiziente Abfrage-Muster für OpenAI / Voyage / Cohere / Google Embeddings — weniger Tokens, höhere Präzision, weniger Neuausführungen. 14-Tage kostenlos testen, keine Karte.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.