Par l'équipe DDH · Digital Dashboard Hub

Calculateur de coût des embeddings (2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Les embeddings sont la couche la moins coûteuse d'une pile IA — quelques centimes par million de tokens — mais à grande échelle, ça s'accumule. En juin 2026, les prix par 1M de tokens varient de $0.02 (Voyage 3.5-lite, OpenAI text-embedding-3-small) jusqu'à $0.20 (Google gemini-embedding-2). C'est un écart de 10x, et le bon modèle pour votre seuil de qualité de récupération n'est souvent pas le plus cher.

Trois modèles de tarification sur le marché. **OpenAI** et **Voyage** facturent un taux forfaitaire par 1M de tokens que vous multipliez par votre corpus d'embeddings. **Google Gemini** offre un niveau gratuit (avec des limites de débit) plus des tarifs par 1M de tokens, plus un niveau par lot à 50% de réduction. **Cohere** a basculé Embed 4 vers une tarification basée sur les instances (Model Vault à $4-5/heure ou mensuellement), rendant le calcul du coût par token inutilisable — voir la section Cohere pour la forme de comparaison.

Ci-dessous : le tableau de prix canonique pour OpenAI / Voyage / Google (Cohere séparé), la formule canonique de coût d'embedding, quatre exemples détaillés (1M tokens, 100M tokens, 1B tokens, une reconstruction complète du corpus RAG), le coût de stockage que la plupart des équipes sous-estiment, et le sélecteur de modèle par niveau de qualité de récupération. Rédigez des invites efficaces pour les embeddings (requêtes plus propres → moins de lancements de reworkage) avec notre générateur gratuit ChatGPT prompt generator. Calculateurs similaires : Coût API OpenAI · Coût API Claude · Coût génération d'images.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Prix du modèle d'embedding par 1M de tokens — Juin 2026

Feature	Fournisseur	Prix d'entrée ($/1M tokens)	Dimensions
OpenAI text-embedding-3-small	OpenAI	$0.02	1,536 (configurable jusqu'à 256)
OpenAI text-embedding-3-large	OpenAI	$0.13	3,072 (configurable jusqu'à 256)
Voyage voyage-3.5-lite	Voyage AI	$0.02	1,024
Voyage voyage-3.5	Voyage AI	$0.06	1,024 (configurable)
Voyage voyage-3-lite	Voyage AI	$0.02	512
Voyage voyage-3	Voyage AI	$0.06	1,024
Voyage voyage-3-large	Voyage AI	$0.18	1,024 (haute précision)
Google gemini-embedding-001	Google	$0.15 ($0.075 lot)	3,072
Google gemini-embedding-2	Google	$0.20 ($0.10 lot)	3,072

Sources au 20 juin 2026 : tarification OpenAI (developers.openai.com/api/docs/pricing — note que text-embedding-3 a été omis de la capture d'écran de la page en direct vérifiée ; les taux ci-dessus correspondent aux chiffres stables de longue date de 2024 utilisés par costgoat.com et confirmés par les références communautaires ; vérifiez avant de publier les budgets de grands volumes), tarification Voyage AI (docs.voyageai.com/docs/pricing), tarification API Gemini Google (ai.google.dev/gemini-api/docs/pricing). Cohere Embed 4 a basculé vers une tarification par instance (Model Vault) — voir la section dédiée Cohere. Les comptages de tokens sont en entrée uniquement ; les embeddings n'ont pas de facture de token de sortie.

La formule de coût (une ligne — aucune surprise)

Le coût d'embedding est le calcul le plus simple dans la pile LLM — il n'y a pas de facture de token de sortie, pas de couche de cache, pas de surcharge par lot sauf où explicitement noté. La formule :

``` cost = (total_tokens / 1,000,000) × price_per_M_tokens ```

Estimez `total_tokens` à partir de votre compte de caractères du corpus : 1 token ≈ 4 caractères d'anglais. Un corpus de documents de 10M de mots représente environ 13.3M de tokens (10M × 1.33 ratio mot-vers-token). Une base de données de produits de 100k lignes avec des descriptions de 200 mots représente environ 26.7M de tokens.

La réinclusion (lorsque vous changez de modèles, changez la stratégie de chunking, ou reconstruisez votre index vectoriel) facture le corpus complet à nouveau. Planifiez au moins une reconstruction pendant le cycle de vie de tout système RAG en production — un corpus de 100M tokens à $0.13/1M coûte $13 à réinclure, mais un corpus de 10B tokens coûte $1,300, ce qui devient un véritable élément budgétaire.

Ce qui ne figure PAS à la facture : le stockage vectoriel (couvert dans sa propre section ci-dessous), l'embedding au moment de la requête (chaque requête utilisateur reçoit son propre coût d'embedding du côté lecture), et les opérations de base de données au moment de la récupération (frais d'hébergement de la base de données vectorielle — Pinecone, Weaviate, Qdrant, pgvector — varient selon le fournisseur). Le coût d'embedding est juste l'appel du modèle.

Exemple détaillé 1 : un corpus de 1M tokens (petit index, ~750k mots)

Un corpus de 1M tokens est un projet typique pour solo — une archive de notes personnelles, un petit catalogue de produits, un index de docs internes d'environ 750k mots.

OpenAI text-embedding-3-small : 1 × $0.02 = **$0.02** (oui, deux cents). text-embedding-3-large : 1 × $0.13 = **$0.13**.

Voyage voyage-3.5-lite : $0.02. voyage-3.5 : $0.06. voyage-3-large : $0.18.

Google gemini-embedding-001 standard : $0.15. Niveau lot : $0.075.

À cette échelle, la différence de coût est une erreur d'arrondi. Le bon choix est la qualité, pas le prix — sélectionnez le modèle qui atteint votre seuil de précision de récupération sur un ensemble d'évaluation de 20 requêtes. Pour la plupart des index à l'échelle solo, text-embedding-3-small ou voyage-3.5-lite gèrent la charge à $0.02.

Exemple détaillé 2 : un corpus de 100M tokens (système RAG de taille moyenne)

Un corpus de 100M tokens représente un RAG en production de taille moyenne — une base de connaissances SaaS, un index de tickets de support de volume moyen, une bibliothèque de documents réglementaires.

OpenAI text-embedding-3-small : $2. text-embedding-3-large : $13.

Voyage 3.5-lite : $2. voyage-3.5 : $6. voyage-3-large : $18.

Google gemini-embedding-2 standard : $20. Lot : $10.

Toujours de petits montants absolus. Maintenant l'évaluation compte davantage — avec 100M tokens, vous avez suffisamment de données pour exécuter un véritable test de qualité de récupération (recall@10, MRR, DCG normalisé) sur chaque modèle. La plupart des équipes trouvent que voyage-3-large ou text-embedding-3-large surpassent matériellement leurs homologues moins chers sur des corpus techniques ou spécifiques à un domaine ; les corpus de consommation/marketing voient souvent aucune différence.

Exemple détaillé 3 : un corpus de 1B tokens (RAG d'entreprise)

Un corpus de 1B tokens est un système RAG d'entreprise — un entrepôt de documents complet, un centre d'aide multi-produits, une archive de tickets de support de plusieurs années.

OpenAI text-embedding-3-small : $20. text-embedding-3-large : $130.

Voyage 3.5-lite : $20. voyage-3.5 : $60. voyage-3-large : $180.

Google gemini-embedding-2 standard : $200. Lot : $100.

Maintenant les différences de prix sont des éléments budgétaires réels. La qualité de récupération compte encore plus car une baisse de 10% du recall sur un corpus de 1B tokens signifie que vous manquez des milliers de documents pertinents par requête. Exécutez l'évaluation ; sélectionnez le modèle le moins cher qui atteint votre seuil.

Important : coût de réinclusion. Si vous changez de modèles ou de stratégie de chunking en cours de cycle de vie, vous payez le coût du corpus complet à nouveau. Planifiez le budget annuel à 1.5x le coût d'inclusion initial pour couvrir au moins une reconstruction — délai typique pour les mises à niveau majeures de modèles.

Exemple détaillé 4 : budget complet d'opération RAG (corpus de 1B tokens + 1M requêtes/mois)

Le coût d'embedding est la moitié de la facture sur un RAG réel. L'autre moitié est l'embedding au moment de la requête : chaque requête utilisateur reçoit son propre appel d'embedding avant la recherche vectorielle.

Prenez un corpus de 1B tokens sur text-embedding-3-large + 1M de requêtes utilisateur/mois à environ 50 tokens chacune (50M de tokens de requête/mois) :

Coût d'inclusion unique : $130. Embeddings au moment de la requête : 50 / 1 × $0.13 = $6.50/mois — essentiellement gratuit.

Comparer avec text-embedding-3-small + hybride de réclassement voyage-3-large : $20 (unique) + 50M × $0.18/1M = $9/mois pour les embeddings de requête (supposez que voyage gère le côté requête).

Ajoutez l'hébergement de la base de données vectorielle : Pinecone serverless à $0.50/1M lectures + $0.05/M écritures — pour 1M requêtes/mois, environ $0.50 lectures, plus le stockage d'index qui s'adapte au nombre de dimensions vectorielles. Un corpus de 1B tokens de chunks de 1,000 tokens = 1M vecteurs de 3,072 dim × 4 bytes = environ 12 GB ; à $0.10/GB/mois c'est $1.20/mois.

**Facture RAG mensuelle totale (excluant l'appel LLM après récupération)** : environ $8 au moment de la requête + $1.20 stockage = $9-10/mois, avec un coût d'inclusion initial de $130. La couche de modèle (Sonnet 4.6 ou gpt-5.4 sur le contexte récupéré) est là où réside la vraie facture — le côté récupération est bon marché en comparaison.

Le coût de stockage que la plupart des équipes oublient de budgétiser

Les dimensions vectorielles comptent pour le stockage. Un embedding 3,072 dim (valeur par défaut text-embedding-3-large) fait 12,288 bytes par vecteur à float32 — un index de 1M vecteurs fait environ 12 GB. Un embedding 1,024 dim (valeur par défaut Voyage, OpenAI configurable jusqu'à) fait environ 4 GB pour les mêmes 1M vecteurs — 3x moins cher à stocker.

OpenAI text-embedding-3 supporte le paramètre `dimensions` pour configurer jusqu'à 256 — utile lorsque le coût de stockage domine. Voyage voyage-3.5 supporte la réduction de dimensions. Le compromis : dimensions inférieures = qualité de récupération inférieure sur les requêtes difficiles. Testez sur votre évaluation avant de réduire.

Les modèles de tarification des bases de données vectorielles varient largement. Pinecone serverless facture à la fois lectures et stockage. Qdrant Cloud les regroupe. pgvector sur Postgres géré est une facture Postgres forfaitaire. Pour un corpus de 1B tokens avec des requêtes quotidiennes, attendez-vous à $50-500/mois pour l'hébergement de la base de données vectorielle selon le nombre de dimensions, le volume de requêtes et le fournisseur — souvent plus que le coût d'embedding lui-même.

Cohere Embed 4 : tarification par instance au lieu de par token

Cohere a basculé Embed 4 vers la tarification par instance Model Vault en 2026 — vous louez une capacité dédiée plutôt que de payer par token. En juin 2026 : instance Small $4/heure ou $2,500/mois, instance Medium $5/heure ou $3,250/mois.

Le calcul : une instance est 'toujours active' quel que soit l'utilisation. Small à $2,500/mois est au seuil de rentabilité avec text-embedding-3-large seulement au-dessus de 19.2M tokens/jour (576M/mois). En dessous de ce volume, les fournisseurs par token sont moins chers.

La caractéristique distinctive d'Embed 4 est multilingue + multimodal — embeddings texte + image + tableau dans un seul modèle. Si votre corpus est fortement multilingue ou inclut des tableaux structurés, la prime par instance peut valoir la peine pour la qualité de récupération. Pour les corpus texte uniquement en anglais, OpenAI ou Voyage seront moins chers.

Cohere propose également une option d'instance plus petite embed-multilingual-light pour les volumes inférieurs — consultez cohere.com/pricing pour les options actuelles.

Coût de réinclusion : la ligne du cycle de vie que personne ne planifie

Chaque RAG en production subit au moins un événement de réinclusion dans ses 18 premiers mois. Les déclencheurs : un meilleur modèle est lancé (text-embedding-3-large vers un futur text-embedding-4, ou voyage-3 vers voyage-4) ; un changement de stratégie de chunking (passage de chunks de 512 tokens à 1,024 tokens, ou basculement de taille fixe à récursive) ; une fine-tune spécifique au domaine lancée par le vendeur ; un changement de dimensionnalité (3,072 → 1,536 pour réduire de moitié le stockage). Chaque événement facture le corpus complet à nouveau.

Planifiez le budget annuel à 1.5x le coût d'inclusion initial. Pour un corpus de 1B tokens sur text-embedding-3-large, l'inclusion initiale coûte $130. Le budget annuel devrait être environ $195 — suffisant pour une reconstruction complète plus l'embedding côté requête en régime permanent. Les corpus plus volumineux et les domaines de recherche qui évoluent plus rapidement peuvent avoir besoin de 2x.

Mitigation : exécutez l'évaluation avant de vous engager. Si le nouveau modèle ne soulève la récupération @10 que de 2-3 points de pourcentage sur votre évaluation, la reconstruction peut ne pas valoir le coût ou les arrêts. S'il la soulève de 8-12 points, reconstruisez immédiatement et programmez la migration par étapes pendant les heures creuses.

Les reconstructions par étapes sont le modèle de production. Incluez le nouveau corpus à côté de l'ancien, exécutez la récupération double en production pendant une semaine avec surveillance de la qualité, passez l'index une fois que vous êtes confiant, déprécier l'index ancien. Le coût de stockage temporaire 2x est le prix d'une migration sûre.

Les 5 modèles de production que nous voyons dans les équipes réelles

**Modèle 1 — projet solo, text-embedding-3-small uniquement.** Les équipes de projet hobby et secondaire optent par défaut pour OpenAI text-embedding-3-small à $0.02/1M. Coût mensuel total inférieur à $5 pour presque n'importe quel corpus. Aucune optimisation nécessaire ; lancez et itérez.

**Modèle 2 — SaaS RAG, voyage-3 + Pinecone serverless.** Les équipes de production de taille moyenne sélectionnent voyage-3 à $0.06/1M pour l'équilibre optimal qualité-par-dollar, associé à Pinecone serverless pour le stockage. Facture mensuelle : $50-200 pour le travail d'embedding, $30-100 pour l'hébergement vectoriel. Total stack : environ $200/mois au volume typique du marché intermédiaire.

**Modèle 3 — RAG d'entreprise, text-embedding-3-large + pgvector.** Les équipes d'entreprise avec infrastructure Postgres existante exécutent text-embedding-3-large à $0.13/1M, stockent les vecteurs dans pgvector à l'intérieur de leur Postgres géré. Compromis : pgvector est légèrement plus lent que les bases de données vectorielles à usage unique à grande échelle mais élimine une relation avec un vendeur et une surface d'examen de sécurité.

**Modèle 4 — RAG multilingue, gemini-embedding-2 + Vertex AI.** Les équipes avec des corpus sérieusement multilingues (documents juridiques dans plusieurs juridictions, contenu de support global, docs de produits multi-régions) arrivent à la gemini-embedding-2 de Google pour la qualité multilingue native + l'ajustement à l'écosystème Vertex AI.

**Modèle 5 — récupération hybride, text-embedding-3-small + réclassement voyage-3-large.** Les équipes sophistiquées utilisent un modèle d'embedding bon marché pour la récupération du premier passage (recall) plus un modèle premium ou un cross-encoder pour le réclassement du second passage (précision). text-embedding-3-small à $0.02/1M pour l'embedding d'index, voyage-3-large à $0.18/1M pour le réclassement des 50 premiers — meilleure qualité par dollar à volumes élevés.

Le sélecteur de modèle : quel modèle d'embedding pour quel travail

**Bon marché + bon** : text-embedding-3-small ($0.02/1M) ou voyage-3.5-lite ($0.02/1M). Utilisez pour les projets solo, les prototypes, le RAG sans enjeu. Indistinguible des modèles premium sur la plupart des corpus de qualité grand public.

**Point optimal** : voyage-3.5 ($0.06/1M) ou voyage-3 ($0.06/1M). Qualité de récupération forte à 3x le coût de la version lite. Utilisez pour les RAG en production où la qualité de récupération compte mais où vous ne pouvez pas justifier le niveau premium.

**Précision premium** : voyage-3-large ($0.18/1M) ou text-embedding-3-large ($0.13/1M). Attelez-vous à ces modèles lorsque la qualité de récupération est critique (juridique, médical, financier) et que le volume justifie la prime. text-embedding-3-large à $0.13 est le meilleur prix-par-qualité au niveau élevé pour l'anglais ; voyage-3-large surpasse sur les corpus multilingues et spécifiques à un domaine.

**Multilingue / multimodal** : Google gemini-embedding-2 (native multilingue) ou Cohere Embed 4 (texte + image + tableaux). Utilisez lorsque votre corpus franchit les langues ou inclut des données structurées.

Méthodologie d'approvisionnement — et ce que nous avons explicitement omis

Les prix par token du tableau proviennent de chaque page de tarification en direct du vendeur : Voyage AI (docs.voyageai.com/docs/pricing), Google Gemini (ai.google.dev/gemini-api/docs/pricing), récupérées le 2026-06-20. Les prix Voyage sont restés stables tout au long de 2026 ; la tarification de Google pour gemini-embedding-001 a été ajoutée au niveau de tarification standard aux côtés de gemini-embedding-2 au début de 2026 avec le niveau lot à 50% de réduction.

**OpenAI text-embedding-3-small / -large** : pas sur la capture d'écran de la page de tarification en direct vérifiée du 2026-06-20 (la capture d'écran était centrée sur les modèles de chat). Les taux ci-dessus ($0.02 / $0.13) correspondent à ce que costgoat.com, livechatai.com et les intégrations récentes de dépôts open-source citent, et ont été stables depuis le lancement en 2024. Nous les incluons avec cet avertissement. **Vérifiez** sur developers.openai.com/api/docs/pricing avant de budgétiser des dépenses d'embedding de plusieurs millions de dollars.

**Cohere** : Embed 4 a basculé vers une tarification par instance Model Vault plutôt que par token. Nous n'incluons pas Cohere dans le tableau par token car la forme de comparaison est fondamentalement différente. Utilisez-le où la qualité multilingue / multimodal justifie l'engagement par instance, ou où vous avez le volume pour amortir la base de $2,500-3,250/mois.

**Ce que nous n'avons pas inclus** : embeddings AWS Bedrock (varie selon la région et la marge du revendeur), embeddings Mistral (toujours dans la phase de 'gratuit pendant l'aperçu' en juin 2026), embeddings auto-hébergés open-source (pas de prix d'hébergement ; le coût dépend entièrement de votre infra). Pour la plupart des équipes de production, la triade OpenAI / Voyage / Google couvre 90%+ des décisions.

**Vérifiez en direct trimestriellement** si votre facture d'embedding dépasse $500/mois. Les prix sur ce marché ont été plus stables que les prix des modèles de chat mais changent toujours — Voyage 3.5 a été lancé à un taux plus élevé en 2025 et a baissé à $0.06 en quelques mois.

Cinq questions à répondre avant de sélectionner un modèle

**1. Quelle est la langue dominante de votre corpus ?** Anglais uniquement → OpenAI ou Voyage. Multilingue → Google gemini-embedding ou Cohere Embed 4. Spécifique au domaine (juridique, médical) → Voyage 3-large ou une alternative fine-tuned au domaine.

**2. Quelle est la taille totale de votre corpus ?** Moins de 100M tokens → sélectionnez en fonction de la qualité, le coût est négligeable. 100M-1B → exécutez une évaluation ; les écarts de prix 6-10x commencent à compter. 1B+ → priorisez la planification du budget de réinclusion par rapport au prix par token.

**3. Quel seuil de qualité de récupération avez-vous besoin ?** Construisez un ensemble d'évaluation retenu de 20-50 requêtes, exécutez chaque modèle candidat, mesurez recall@10 et MRR. Les modèles bon marché (text-embedding-3-small, voyage-3.5-lite) correspondent souvent au premium sur les corpus grand public. La prime paie sur difficile/technique/multilingue.

**4. Quel magasin vectoriel tiendra l'index ?** Pinecone, Qdrant, Weaviate, pgvector, Milvus. Chacun a un coût de stockage différent par dim. text-embedding-3 supporte la réduction de dimensions via le paramètre dimensions ; voyage-3.5 aussi. Dimensions plus petites = stockage moins cher mais recall inférieur sur requêtes difficiles.

**5. Le coût d'embedding au moment de la requête va-t-il dominer ?** À 10M requêtes/mois avec 50 tokens par requête, c'est 500M tokens/mois d'embedding de requête — $10 sur text-embedding-3-large, $40 sur gemini-embedding-2. Inférieur au coût d'embedding du corpus pour la plupart des équipes, mais valeur la peine d'être budgétisé.

Estimer n'importe quel coût d'embedding en 5 étapes

1
Comptez les tokens du corpus
Nombre de caractères ÷ 4 = tokens d'entrée approximatifs. Un corpus de 10M mots représente environ 13.3M tokens. Une base de données de 100k lignes avec des descriptions de 200 mots représente environ 26.7M tokens. Obtenez ce nombre d'abord ; tout le reste suit.
2
Sélectionnez un modèle qui atteint votre seuil de qualité de récupération
Exécutez une évaluation de 20 requêtes contre 2-3 modèles candidats. Les modèles bon marché (text-embedding-3-small, voyage-3.5-lite) correspondent souvent au premium sur les corpus grand public. Premium (voyage-3-large, text-embedding-3-large) gagne sur le travail technique, multilingue ou à enjeu élevé.
3
Appliquez la formule
cost = total_tokens / 1,000,000 × price_per_M. Un corpus de 100M tokens sur text-embedding-3-large = 100 × $0.13 = $13. Le calcul est intentionnellement ennuyeux.
4
Ajoutez le budget d'embedding au moment de la requête
Chaque requête utilisateur reçoit son propre appel d'embedding. 1M requêtes × 50 tokens chacune = 50M tokens. À $0.13/1M = $6.50/mois. Petit relatif à l'embedding du corpus, mais récurrent.
→ Open the Générateur de requête ChatGPT (requêtes propres)
5
Budgétez le stockage vectoriel séparément
Le stockage s'adapte au nombre de dimensions. 3,072 dim × 4 bytes × N vecteurs. Un index de 1M vecteurs 3,072 dim fait environ 12 GB. Utilisez le paramètre `dimensions` d'OpenAI (configurable jusqu'à 256) lorsque le coût de stockage domine et votre évaluation le permet.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Générateur de requête ChatGPT (requêtes propres)→Calculateur de coût API OpenAI→Calculateur de coût API Claude→Embeddings deep-dive (guide plus ancien)→

Frequently Asked Questions

Combien coûte l'embedding de 1 million de tokens en 2026 ?

Chemin le moins cher : $0.02 sur OpenAI text-embedding-3-small ou Voyage voyage-3.5-lite. Niveau intermédiaire : $0.06 sur Voyage voyage-3.5. Premium : $0.13 (OpenAI text-embedding-3-large) à $0.18 (Voyage voyage-3-large). Google gemini-embedding-2 est $0.20 standard, $0.10 lot. Sources des pages de tarification en direct de chaque vendeur.

Quel est le modèle d'embedding le moins cher qui ait toujours une bonne qualité de récupération ?

OpenAI text-embedding-3-small ($0.02/1M) gère la plupart des RAG de qualité grand public sans perte de qualité mesurable par rapport aux modèles premium. Voyage voyage-3.5-lite ($0.02/1M) est une option similaire bon marché, particulièrement forte sur les corpus technique/spécifiques au domaine. Exécutez une évaluation de 20 requêtes sur votre corpus réel avant de supposer que vous avez besoin du niveau premium.

Combien coûtera l'embedding de 1 milliard de tokens ?

$20 sur text-embedding-3-small. $130 sur text-embedding-3-large. $180 sur voyage-3-large. $200 sur gemini-embedding-2 standard ($100 lot). Le niveau bon marché est souvent suffisant — testez seulement les modèles premium lorsque la qualité de récupération compte à enjeux élevés.

Les embeddings ont-ils des coûts de token de sortie ?

Non. Les API d'embedding facturent uniquement les tokens d'entrée. La 'sortie' (le vecteur) est incluse dans le prix d'entrée. C'est la forme de coût la plus simple dans la pile LLM.

Combien coûte Cohere Embed 4 en 2026 ?

Cohere a basculé Embed 4 vers une tarification par instance Model Vault — $4/heure ou $2,500/mois pour l'instance Small, $5/heure ou $3,250/mois pour Medium. Au-dessus d'environ 576M tokens/mois, Cohere devient compétitif avec les fournisseurs par token. En dessous, OpenAI ou Voyage sont moins chers. L'avantage de Cohere est les embeddings multilingues et multimodaux.

Quelle est la différence de coût entre text-embedding-3-small et text-embedding-3-large ?

text-embedding-3-large coûte 6.5x plus cher par token ($0.13 vs $0.02). La différence de qualité dépend du corpus. Sur les corpus grand public en anglais l'écart est souvent négligeable. Sur les corpus technique, multilingue ou à enjeux élevés le modèle large améliore matériellement la récupération @10. Exécutez une évaluation tête-à-tête avant de vous engager vers le niveau premium.

Devrais-je utiliser l'API Batch Google Gemini pour les embeddings ?

Oui si votre travail d'embedding est asynchrone. Le niveau Batch de Google Gemini est à 50% de réduction ($0.10/1M vs $0.20/1M sur gemini-embedding-2). Même modèle, même qualité, fenêtre de complétion de 24 heures. Parfait pour l'embedding du corpus initial ou les reconstructions périodiques — pas pour l'embedding au moment de la requête.

Dois-je réinclure lorsque je change de modèles ?

Oui. Les embeddings sont spécifiques au modèle — un vecteur de text-embedding-3-large est dans un espace différent d'un de voyage-3-large et ne peut pas être comparé de manière significative. Changer de modèles signifie réinclure le corpus complet. Budgétez annuellement à 1.5x le coût d'inclusion initial pour couvrir au moins une reconstruction de mise à niveau de modèle.

Embeddings bon marché + requêtes propres = le RAG le moins cher que vous puissiez expédier.

La structure de requête côté requête détermine le recall (et le coût de réinclusion). Notre générateur de requête IA rédige des modèles de requête efficaces pour OpenAI / Voyage / Cohere / Google embeddings — moins de tokens, précision plus élevée, moins de lancements de reworkage. Essai gratuit de 14 jours, pas de carte.

Browse all prompt tools →