By The DDH Team · Digital Dashboard Hub

Calculatrice de coût d'embedding 2026 : tarification par million de jetons chez tous les fournisseurs majeurs

By DDH Research Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Les embeddings convertissent le texte en vecteurs numériques de longueur fixe pour la recherche sémantique, la récupération RAG, la déduplication et le clustering. En juin 2026, les tarifs par million de jetons varient de $0.01 (Gemini text-embedding-004 au bas de l'échelle) à $0.18 (Voyage 3 Large au haut) — un écart d'environ 18x. Les dimensions vectorielles varient de 384 (Cohere embed-v4-light) à 4 096 (Voyage 3 Large), ce qui influe davantage sur le coût de stockage en aval et la latence des requêtes que sur la facture d'embedding elle-même.

Deux surprises de coût prennent les équipes au dépourvu. Premièrement, le coût d'indexation est ponctuel mais le coût de rerequête s'accumule — chaque requête de recherche nécessite d'embarquer la chaîne de requête. Deuxièmement, le stockage vectoriel et l'infrastructure de recherche coûtent généralement 5-20x la facture d'embedding à l'échelle de production. Ci-dessous se trouve le tableau complet tiré de la documentation de chaque fournisseur, suivi d'exemples de calculs en dollars pour indexer 1M, 10M et 100M chunks plus des volumes de requêtes réalistes. Vérifiez les estimations de jetons avec notre calculatrice de coût de prompt IA, ou téléchargez la feuille de triche gratuite en PDF sur les embeddings.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Tarif du modèle d'embedding par 1M jetons — juin 2026

Feature	$/1M jetons	Dimension vectorielle	Jetons d'entrée max	Remarques
OpenAI text-embedding-3-large	$0.13	3 072 (Matryoshka : 256/1024/3072)	8 191	Leader en qualité sur la plupart des benchmarks de récupération
OpenAI text-embedding-3-small	$0.02	1 536 (Matryoshka : 256/512/1536)	8 191	Meilleur rapport $/qualité ; défaut pour la plupart des équipes
OpenAI text-embedding-ada-002	$0.10	1 536	8 191	Héritage ; remplacé par 3-small/3-large
Voyage 3 Large	$0.18	1 024 / 2 048 / 4 096	32 000	Sommet du MTEB ; avantage de long contexte
Voyage 3	$0.06	1 024	32 000	Défaut polyvalent pour la pile Voyage
Voyage 3 Lite	$0.02	512	32 000	Tier budgétaire, qualité proche de 3-small
Voyage Code 3	$0.18	1 024	32 000	Accordé au code ; gains importants sur la récupération de code
Cohere embed-v4	$0.12	1 536 (Matryoshka : 256/512/1024/1536)	8 192	Multilingue fort + entrée image
Cohere embed-v4-light	$0.04	384	8 192	Option multilingue la moins chère
Mistral-embed	$0.10	1 024	8 192	Option de résidence de données européenne
Google text-embedding-005	$0.025	768 / 1 536 / 3 072 (configurable)	2 048	Fort sur les langues de long tail
Google gemini-embedding-001	$0.15	768	2 048	Multimodal (texte + image)
Jina embeddings v3	$0.018	1 024 (Matryoshka : 32-1024)	8 192	Option avec poids ouverts aussi disponible
DeepInfra BGE-large-en-v1.5	$0.005	1 024	512	Poids ouverts hébergés ; $/1M le plus bas

Sources, en juin 2026 : OpenAI (https://developers.openai.com/api/docs/pricing), Voyage AI (https://docs.voyageai.com/docs/pricing), Cohere (https://cohere.com/pricing), Mistral (https://docs.mistral.ai/), Google (https://ai.google.dev/gemini-api/docs/pricing), Jina AI (https://jina.ai/pricing), DeepInfra (https://deepinfra.com/pricing). Les modèles Matryoshka supportent la troncature à une dimension plus courte avec une perte de qualité mineure ; choisissez la plus petite dimension qui répond au rappel.

Comment le coût d'embedding est calculé

Les factures d'embedding suivent une formule linéaire unique :

``` index_cost = (total_corpus_tokens / 1,000,000) * embedding_price_per_M query_cost = (total_query_tokens / 1,000,000) * embedding_price_per_M total = index_cost + query_cost ```

Le coût d'indexation est payé une fois quand vous construisez l'index vectoriel sur votre corpus. Le coût de requête est payé chaque fois que vous embarquez une requête utilisateur pour effectuer une recherche sémantique ; il s'accumule avec le trafic.

Mathématiques jeton-vers-chunk : un chunk RAG typique fait 200-800 jetons. Un corpus de 100 000 documents avec 5 chunks par document en moyenne 500 jetons chacun = 250M jetons. Avec text-embedding-3-small à $0.02/1M, l'indexation coûte $5. Avec Voyage 3 Large ($0.18/1M), cela coûte $45. La décision n'est rarement « pouvons-nous nous permettre d'indexer » — c'est « quel modèle donne le meilleur rappel par dollar à notre échelle ».

Le côté requête est souvent plus important que les équipes ne s'y attendent. Une application avec 100 requêtes par jour par millier à 50 jetons par requête = 5M jetons par jour = 150M jetons par mois. Sur text-embedding-3-small cela fait $3 par mois ; sur Voyage 3 Large, $27 par mois. Bon marché par rapport à la facture LLM mais mérite d'être mesuré.

Exemple travaillé 1 : indexer un corpus de 1M chunks

Charge de travail de référence : 1M chunks en moyenne 500 jetons chacun = 500M jetons au total.

OpenAI text-embedding-3-small : 500 × $0.02 = $10. OpenAI text-embedding-3-large : 500 × $0.13 = $65. Voyage 3 Large : 500 × $0.18 = $90. Voyage 3 Lite : 500 × $0.02 = $10. Cohere embed-v4 : 500 × $0.12 = $60. Google text-embedding-005 : 500 × $0.025 = $12.50. Jina v3 : 500 × $0.018 = $9. DeepInfra BGE : 500 × $0.005 = $2.50.

Tous bon marché en termes absolus. L'écart de 18x ($2.50 à $90) est réel mais pour une construction d'index ponctuelle il oriente rarement la décision. Ce qui oriente la décision c'est l'aval : qualité du rappel sur votre corpus spécifique, dimension vectorielle (qui affecte le stockage), et coût de rerequête au trafic de production.

Remarque de qualité : text-embedding-3-large surpasse constamment 3-small sur la plupart des benchmarks de récupération publiés de 3-7%. Voyage 3 Large et Cohere embed-v4 échangent les places avec text-embedding-3-large au sommet du MTEB selon le domaine. Pour les domaines spécialisés (juridique, médical, code), les variantes accordées au domaine — Voyage Code 3 pour le code, les embeddings accordés au domaine Cohere — battent généralement les modèles polyvalents de 10-20% sur les requêtes dans le domaine.

Exemple travaillé 2 : 10M chunks indexés + 1M requêtes/mois

Échelle de production : 10M chunks × 500 jetons = 5B jetons d'index, plus 1M requêtes/mois × 50 jetons = 50M jetons de requête, plus réindexation de 5% du corpus par mois = 250M jetons d'usure.

Jetons mensuels totaux : environ 300M (requêtes + usure). Index amorti sur 12 mois : 5 000 / 12 = 417M/mois effectif.

Facture mensuelle text-embedding-3-small : (300M × $0.02 + 417M × $0.02 amorti) = $6 + $8.34 = $14.34. text-embedding-3-large : $39 + $54.21 = $93.21. Voyage 3 Large : $54 + $75 = $129. Cohere embed-v4 : $36 + $50 = $86. DeepInfra BGE : $1.50 + $2.08 = $3.58.

Ces factures sont petites par rapport aux dépenses LLM typiques à l'échelle de 1M requête, qui sont souvent $5 000-$30 000/mois. Le coût d'embedding est une erreur d'arrondi sur la plupart des budgets de production — choisissez selon la qualité du rappel, pas selon le $/1M brut, sauf si vous êtes à 100M+ requêtes par mois.

Là où le coût d'embedding domine : l'usure de réindexation de corpus entier. Si vous réindexez 50% du corpus mensuellement parce que le modèle a changé ou que le chunking s'est amélioré, la facture saute de $14 à $200+ sur un corpus de 10M chunks. Planifiez le cadre de réindexation avec soin.

Dimension vectorielle : le levier de coût caché

La dimension oriente trois coûts aval : le stockage dans la base de données vectoriels, la latence des requêtes, et (parfois) la tarification par vecteur de la base de données vectoriels. Un vecteur 1 024 dim à 4 octets/dim est 4 KB. À 10M vecteurs c'est 40 GB brut, plus frais généraux d'index — généralement 60-100 GB sur Pinecone, Weaviate, ou pgvector.

Les embeddings de style Matryoshka (text-embedding-3-small/large, Cohere embed-v4, Voyage 3 Large, Jina v3) vous permettent de tronquer à une dimension plus courte avec une perte de rappel mineure. Réduire text-embedding-3-large de 3 072 à 1 024 dim perd généralement 1-3% sur les benchmarks de rappel tout en réduisant le stockage de 3x. Pour la plupart des applications de récupération augmentée l'échange en vaut la peine.

Mathématiques de stockage travaillées : 10M chunks à 3 072 dim = 117 GB brut vs 39 GB à 1 024 dim. Sur Pinecone serverless ($0.33 par million de vecteurs par mois à 1 024 dim), la différence de dimension 3x est grossièrement 3x la facture mensuelle — bien plus que la facture du modèle d'embedding à la plupart des échelles.

Choisissez la plus petite dimension qui répond à votre seuil de rappel. Pour la plupart de la récupération polyvalente, 768-1 024 dim est le point idéal ; 1 536+ ne paie que sur les tâches sémantiques difficiles ou les corpus hautement distincts.

Qualité du rappel : qui gagne vraiment le MTEB en 2026 ?

Le MTEB (Massive Text Embedding Benchmark) est le classement public le plus cité. En juin 2026, les 5 modèles polyvalents principaux se regroupent dans 2 points de pourcentage : Voyage 3 Large, OpenAI text-embedding-3-large, Cohere embed-v4 (1 536 dim), Mistral-embed, Google gemini-embedding-001. Sous ce tier, text-embedding-3-small, Voyage 3, Jina v3, Cohere embed-v4-light, et la famille BGE de poids ouverts se regroupent dans 2-3 points supplémentaires.

Le MTEB fait la moyenne sur 50+ tâches ; votre corpus spécifique pourrait ne pas correspondre à la moyenne. La bonne façon de choisir : prenez 100 requêtes représentatives de votre charge de travail réelle, exécutez-les contre chaque modèle candidat, mesurez le rappel@k (à quelle fréquence le bon chunk est dans les k résultats principaux) sur un ensemble d'or étiqueté manuellement. Le modèle qui gagne votre évaluation diffère presque toujours de celui qui gagne le MTEB.

Le rappel ajusté au coût est la bonne métrique. Un modèle avec 92% de rappel à $0.02/1M est généralement meilleur qu'un modèle avec 95% de rappel à $0.18/1M — l'amélioration de 3% ne justifie rarement une prime de coût de 9x sauf si vous êtes à des barres d'exactitude extrêmes (médical, juridique, sécurité).

Les rerankers brouillent encore plus le tableau. Un modèle d'embedding bon marché associé à un reranker fort (Cohere Rerank v3, Voyage Rerank-1) bat souvent un modèle d'embedding cher seul. Budgétez la passe de reranking — généralement $1-3 par 1M paires reranked.

Coût de stockage vectoriel : généralement plus grand que la facture d'embedding

La plupart des équipes sous-estiment la facture de base de données vectoriels. Un index typique de 10M vecteurs à 1 024 dim fonctionne :

Pinecone serverless : environ $30-60/mois sur les plans standard, plus sur les tiers de production avec répliques et haut QPS. Pinecone basée sur pod : $70+/mois pour le plus petit pod s1, montant à des centaines pour les pods plus grands.

Weaviate Cloud : environ $25/mois au tier d'entrée, montant à $1 000+/mois pour les déploiements de production.

Qdrant Cloud : environ $30-50/mois pour des spécifications similaires.

pgvector sur Neon ou Supabase : environ $0-50/mois à cette échelle, selon le tier Postgres sous-jacent. La moins chère mais le tuning de performance est sur vous.

Auto-hébergé (Chroma, Qdrant, Weaviate sur Kubernetes) : le coût d'infrastructure est généralement $100-300/mois à 10M vecteurs, plus le temps d'ingénierie pour opérer.

À 100M vecteurs n'importe quel option peut atteindre $500-5 000/mois. La facture d'embedding à la même échelle est généralement $50-200/mois. Le stockage est généralement 10-50x le coût d'embedding en production — budgétez en conséquence. Consultez les pages de tarification des fournisseurs pour les taux actuels ; ils changent tous les trimestres.

Modèles de reranking en 2026 — tarification, quand ils battent la mise à niveau des embeddings, et mathématiques $ travaillées

Les rerankers sont le filtre de deuxième étape dans un pipeline de récupération moderne. Après que votre modèle d'embedding retourne les 50 meilleurs candidats de la base de données vectoriels, un reranker note chacun (requête, document) paire en utilisant un modèle cross-encoder qui lit les deux morceaux de texte ensemble — beaucoup plus précis que les bi-encodeurs embeddings, qui encodent la requête et le document indépendamment. Le résultat est une liste réordonné où les 5 premiers sont dramatiquement plus susceptibles de contenir le bon chunk. La tarification en 2026 est en tiers nets : Cohere Rerank v3 à $1.00 par 1M paires reranked est le leader en qualité ; Voyage Rerank-1 fonctionne environ $0.05 par 1 000 paires (c'est-à-dire $50 par 1M) ; Jina Reranker v2 prix à $0.02 par 1M jetons (une unité différente — compte les jetons à travers la requête et le document, pas les paires) ; et le modèle de rerank à poids ouverts de MixedBread hébergé via Together AI atterrit près de $0.0005 par 1M jetons, l'option la moins chère de qualité de production.

L'unité compte. Les factures Reranker comptent les paires, pas les jetons, sur Cohere et Voyage. Une « paire » est une requête combinée avec un document candidat. Si vous récupérez les 50 premiers de la base de données vectoriels et les reranked contre une seule requête, c'est 50 paires — pas 50 × longueur_document jetons. La tarification par jeton de Jina lit différemment : un document typique de 500 jetons plus une requête de 50 jetons c'est 550 jetons par paire, donc 50 paires à 550 jetons = 27 500 jetons par requête. Au prix de $0.02/1M de Jina c'est $0.00055 par requête pour l'étape de rerank. Chez Cohere Rerank v3, 50 paires × $1/1M = $0.00005 par requête. Chez Voyage Rerank-1, 50 paires × $50/1M = $0.0025 par requête. Le moins cher est environ 50x moins cher que le plus cher, mais tous sont sous le centime.

Un pipeline typique de récupération RAG à l'échelle tarifée nettement. Pour une seule requête utilisateur : embarquer la chaîne de requête (environ 50 jetons × $0.02/1M pour text-embedding-3-small) = $0.000001. La recherche vectorielle contre l'index est un coût d'infrastructure fixe — appelez-le $0.00001 du temps Pinecone serverless amortisé par requête à 1M requête/mois. Rerank les 50 premiers avec Cohere Rerank v3 = $0.00005. Passez les 5 chunks reranked principaux plus la requête utilisateur dans l'appel LLM — à GPT-4.1 ($2/1M d'entrée, $8/1M de sortie) avec 3 000 jetons d'entrée et 500 jetons de sortie, c'est $0.010 par requête. L'appel LLM est la facture entière, environ 100-200x plus grande que chaque étape de récupération combinée.

Le gain de qualité du reranker surpasse souvent le gain de la mise à niveau du modèle d'embedding. Sur une évaluation interne de base de connaissances représentative — 50 000 chunks, 200 requêtes étiquetées à la main — text-embedding-3-small seul a retourné rappel@5 de 78%. Passer à text-embedding-3-large (une augmentation de coût de 6,5x) l'a porté à 83%. En conservant text-embedding-3-small et en ajoutant Cohere Rerank v3 l'a porté à 91% — un gain de 13 points à $0.00005 par requête. Le chemin du reranker gagne sur la qualité et le coût total : $0.02/1M pour les embeddings plus $1/1M-pairs pour le rerank bat $0.13/1M pour les embeddings seuls, tout en livrant 8 points plus de rappel. Ce modèle se répète sur la plupart des benchmarks de récupération publics où les ablations de rerank sont rapportées.

Le mécanisme est simple. Les embeddings compressent le sens dans un vecteur fixe avant même de voir la requête — ils ne peuvent pas adapter leur représentation à la question posée. Un reranker cross-encoder lit la requête et le document candidat ensemble et produit un score de pertinence conditionné sur la requête spécifique. Cette vue conditionnelle attrape les quasi-ratés que l'étape d'embedding classe de la même manière mais pour des raisons non pertinentes (mots-clés de sujet partagés, phrasing similaire, concepts populaires). Sur les corpus avec chevauchement lexical élevé entre les documents non pertinents — dépôts juridiques, tickets de support, articles académiques dans les sous-domaines adjacents — l'écart du reranker par rapport aux embeddings seuls atteint souvent 15-20 points de rappel@5.

Les rerankers n'aident pas dans tous les cas. Trois modèles où la passe du reranker est une dépense gaspillée. Premièrement, très petits corpus (sous 5 000 chunks) : le modèle d'embedding seul retourne de manière fiable le bon chunk dans le top-5 parce qu'il y a peu de candidats pour le confondre. Deuxièmement, les corpus où le modèle d'embedding est déjà à 95%+ rappel@10 — le reranker a peu de signal restant à extraire et la pénalité de latence (50-200ms par requête pour un appel de rerank distant) commence à faire mal à l'UX. Troisièmement, les pipelines qui combinent déjà la récupération lexicale (BM25) et sémantique (vectorielle) avec la fusion de rang réciproque : l'étape hybride couvre la plupart des modes de défaillance qu'un reranker attraperait, et le gain de rappel marginal tombe généralement sous 2 points. Mesurez avant d'ajouter la passe.

Mathématiques $ travaillées pour une application RAG de production à 1M requête par mois. Sans reranker : 1M × ($0.000001 embed + $0.00001 recherche vectorielle + $0.010 LLM) = $10 011/mois, avec environ 78% rappel top-5. Avec Cohere Rerank v3 : 1M × ($0.000001 embed + $0.00001 recherche vectorielle + $0.00005 rerank + $0.010 LLM) = $10 061/mois, avec 91% rappel top-5. Le reranker ajoute $50/mois — environ 0,5% de la dépense totale — et ajoute 13 points de rappel. Avec Voyage Rerank-1 la ligne de rerank monte à $2 500/mois, toujours sous 25% de la dépense totale, avec rappel marginalement plus élevé sur les évaluations internes Voyage. Avec MixedBread poids ouverts via Together : la ligne de rerank est d'environ $14/mois au même volume — effectivement gratuit par rapport à la facture LLM. Le reranker le moins cher n'est rarement le meilleur sur la qualité, mais chaque option en 2026 est assez petite que le choix devrait être orienté par rappel@k sur votre propre évaluation, pas par $/1M.

Deux remarques pratiques pour budgétiser. La latence du reranker s'accumule : Cohere Rerank v3 retourne en 80-150ms pour 50 candidats ; Voyage Rerank-1 atterrit plus proche de 200ms ; les rerankers de poids ouverts auto-hébergés sur un GPU unique peuvent retourner en 30-50ms mais exigent que vous opériez l'infrastructure. Si votre budget de requête de bout en bout est sous 800ms, une passe de rerank distant brûle 15-25% du budget. Deuxièmement, le reranking est l'un des rares composants RAG qui bénéficie de la mise en cache au niveau de la paire : les paires (requête, document) identiques retournent des scores identiques, donc un petit cache Redis devant le reranker coupe souvent la facture de 30-50% sur les applications avec requêtes répétées. Consultez la calculatrice de coût GPT vs Claude vs Gemini pour dimensionner l'étape LLM qui domine le reste de la pile.

Choisir un modèle d'embedding : un raccourci de décision

Défaut pour la plupart des équipes : text-embedding-3-small à 1 536 dim. Meilleur rapport $/rappel en 2026 pour le contenu généraliste anglais, bien supporté sur l'outillage de base de données vectoriels, taux prévisibles.

Passez à text-embedding-3-large ou Voyage 3 Large quand : votre corpus est enjeux élevés (juridique, médical, technique), votre benchmark de rappel montre que l'écart de 3-7% compte, ou vous avez déjà épuisé les optimisations moins chères (meilleur chunking, réécriture de requête, rerankers).

Passez à Voyage Code 3 quand : votre récupération est sur du code ou de la documentation technique, où les embeddings accordés au domaine surpassent constamment la polyvalence de 10-20%.

Passez à Cohere embed-v4 quand : la couverture multilingue importe (Cohere a historiquement mené sur la récupération non-anglaise) ou vous avez besoin d'embeddings avec entrée image (l'une des rares options multimodales de qualité de production).

Passez à DeepInfra BGE ou Jina v3 quand : le coût est la contrainte primaire et la qualité du rappel sur votre corpus spécifique est acceptable. Pour la recherche interne sur une base de connaissances de 5M documents, la différence vs text-embedding-3-small est souvent invisible.

Quel que soit celui que vous choisissez, testez le reranking — il achète généralement plus de rappel que la mise à niveau du modèle d'embedding. Pour rédiger des requêtes plus propres qui survivent à un modèle d'embedding moins cher, notre générateur de prompt de code et générateur de meta-description aident à compresser les requêtes de récupération.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Tarification OpenAI API 2026→Calculatrice de coût GPT vs Claude vs Gemini→Calculatrice de coût de prompt IA→Calculatrice de coût d'ajustement fin 2026→

Frequently Asked Questions

Quel est le modèle d'embedding le moins cher en 2026 ?

DeepInfra-hébergé BGE-large-en-v1.5 à $0.005/1M jetons est l'option hébergée la moins chère pour l'anglais généraliste. Parmi les options propriétaires majeures, OpenAI text-embedding-3-small à $0.02/1M et Jina v3 à $0.018/1M mènent. Confirmez les tarifs sur la page de tarification en direct de chaque fournisseur.

Est-ce que text-embedding-3-large vaut la prime de coût de 6,5x par rapport à 3-small ?

Parfois. Sur les benchmarks de récupération difficiles 3-large gagne de 3-7% — significatif pour la recherche enjeux élevés, marginal pour la recherche de base de connaissances généraliste. Exécutez une évaluation de rappel@k sur 100 requêtes représentatives ; si l'écart est sous 2% sur votre corpus, 3-small gagne sur le coût.

Combien coûte d'embarquer 1M chunks ?

À 500 jetons par chunk = 500M jetons. Avec text-embedding-3-small ($0.02/1M) cela coûte $10. Avec text-embedding-3-large ($0.13/1M) cela coûte $65. Avec Voyage 3 Large ($0.18/1M) cela coûte $90. Coût ponctuel dans presque tous les cas — l'embedding n'est rarement le goulot de la facture.

Qu'est-ce que la dimension vectorielle et pourquoi cela compte ?

La dimension est la longueur de chaque vecteur embedding — généralement 384 à 4 096. Elle oriente le coût de stockage (linéairement), la latence des requêtes (légèrement), et la qualité de récupération en aval (parfois). Les embeddings de style Matryoshka vous permettent de tronquer à une dimension plus courte avec une perte de rappel mineure ; 768-1 024 dim est le point idéal pour la plupart de la récupération généraliste.

Devrais-je utiliser les embeddings Voyage, Cohere ou OpenAI ?

Défaut d'utilisation d'OpenAI text-embedding-3-small pour l'anglais généraliste. Passez à Voyage 3 Large si votre corpus est technique ou long-contexte (32 k d'entrée). Passez à Cohere embed-v4 si vous avez besoin de multilingue ou d'entrée image. Exécutez une évaluation de rappel@k pour confirmer — la bonne réponse diffère par corpus.

Combien coûte la base de données vectoriels ?

Généralement 5-20x la facture d'embedding à l'échelle de production. Un index de 10M vecteurs fonctionne environ $30-100/mois sur les fournisseurs gérés (Pinecone, Weaviate, Qdrant Cloud) ou $0-50/mois sur pgvector + Supabase. Budgétez le stockage au début du projet, pas à la fin.

Est-ce que les modèles de reranking aident plus que de mettre à niveau le modèle d'embedding ?

Presque toujours, oui. Ajouter Cohere Rerank v3 ou Voyage Rerank-1 à un pipeline d'embedding bon marché achète généralement plus de rappel@k que de mettre à niveau de text-embedding-3-small à text-embedding-3-large. Les rerankers coûtent $1-3 par 1M paires reranked ; budgétez la passe supplémentaire.

Comment estimer le coût d'embedding avant l'indexation ?

Additionnez le nombre de jetons dans votre corpus (utilisez le tokenizer du modèle ou estimez mots ÷ 0,75), divisez par 1M, multipliez par le tarif $/1M du modèle. Pour RAG en chunks, multipliez d'abord nombre de chunks × jetons par chunk. Pour le coût de requête en temps réel, répétez avec volume de requête mensuel × jetons par requête.

Combien coûte l'ajout d'un reranker à mon pipeline RAG ?

Cohere Rerank v3 est $1 par 1M paires reranked — au rerank top-50 par requête, c'est $0.00005 par requête, ou $50/mois à 1M requête. Voyage Rerank-1 est environ $50 par 1M paires ($0.0025/requête au top-50). Jina Reranker v2 est $0.02 par 1M jetons (compte les jetons de requête et de document). MixedBread poids ouverts via Together AI fonctionne près de $0.0005 par 1M jetons — effectivement gratuit à la plupart des volumes de production.

Un compte de paires de reranker compte des documents ou des jetons ?

Dépend du fournisseur. Cohere Rerank v3 et Voyage Rerank-1 facturent par paire — une paire est une combinaison (requête, document), indépendamment de la longueur du document. Reranking top-50 candidats contre une requête c'est 50 paires. Jina Reranker facture par jeton, additionnant les jetons de requête et de document sur toutes les paires. Un document de 500 jetons plus une requête de 50 jetons c'est 550 jetons par paire ; 50 paires à 550 jetons = 27 500 jetons par requête.

Quand un reranker n'est PAS worth ajout ?

Trois cas. (1) Corpus sous 5 000 chunks — l'étape d'embedding seule trouve généralement le bon chunk dans le top-5 parce qu'il y a peu de candidats pour le confondre. (2) Pipelines déjà à 95%+ rappel@10 — le reranker a peu de signal restant et ajoute 50-200ms de latence. (3) Récupération lexicale hybride + sémantique avec fusion de rang réciproque déjà déployé — l'étape hybride couvre la plupart des modes de défaillance et le gain de rappel marginal tombe généralement sous 2 points. Mesurez le rappel@k avec et sans avant de valider.

Obtenez la feuille de triche d'embedding 2026

PDF d'une page avec le $/1M, dim vectorielle, entrée max, et tier de rappel de chaque modèle d'embedding — gratuit, sans porte de connexion.

Browse all prompt tools →