Par l'équipe DDH · Digital Dashboard Hub

Coût RAG par requête (2026) : la décomposition complète de la pile

By The DDH Team at Digital Dashboard Hub·Updated June 20, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Une seule requête RAG sollicite quatre services payants en séquence : le modèle d'embedding (pour vectoriser la question de l'utilisateur), la base de données vectorielle (pour récupérer les chunks pertinents), un reclasseur optionnel (pour réordonner les résultats récupérés par pertinence), et l'LLM (pour générer une réponse fondée sur le contexte récupéré). Les équipes qui construisent des systèmes RAG pour la première fois sous-estiment presque toujours la couche LLM et surestiment la couche de récupération. L'appel LLM représente généralement 85-95 % du coût total par requête.

Depuis juin 2026, une requête RAG typique en production coûte 0,015–0,025 $ de bout en bout avec des longueurs de contexte modestes (3 000 tokens d'entrée vers l'LLM, 500 tokens de sortie). La décomposition : ~0,000001–0,000009 $ embedding, ~0,0000083 $ lecture vectorielle (Pinecone Serverless), ~0,001 $ reclassement (optionnel), et 0,013–0,021 $ génération LLM. À 1M requêtes/mois, cela représente une facture mensuelle de 15 000–25 000 $ — presque entièrement due à l'LLM.

Cette page couvre la pile de coûts côté requête. Pour le coût amont de la construction de votre index vectoriel — ce que vous avez payé pour intégrer votre corpus et stocker les vecteurs — voir la calculatrice de coût BD vectorielle et la calculatrice de coût embeddings. Pour la comparaison des modèles d'embedding qui affecte l'indexation du corpus et le coût d'embedding côté requête, voir Cohere vs OpenAI embedding cost. Pour un guide d'architecture RAG travaillé, voir notre arbre de décision d'architecture RAG.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Coût par composant de requête RAG — juin 2026

Feature	Composant	Coût typique par requête	Exemple de fournisseur
Embedding de requête	0,000001–0,000009 $	OpenAI text-embedding-3-small @ 0,02 $/1M ; Voyage 3-large @ 0,18 $/1M	~50 tokens par requête ; négligeable par rapport à la couche LLM
Lecture BD vectorielle	0,0000083–0,00005 $	Pinecone Serverless @ 8,25 $/1M lectures	Le coût cluster Weaviate/Qdrant est amorti, non par requête
Reclasseur (optionnel)	0,001 $	Cohere Rerank @ 1 $/1 000 requêtes	Améliore la précision de rappel ; le coût est 50-100x l'étape d'embedding
Génération LLM (domine)	0,013–0,070 $	Sonnet 4.6 @ 3/15 $ par M entrée/sortie ; gpt-4.1 @ 2/8 $ par M entrée/sortie	3 000 entrée + 500 sortie tokens typiques ; la longueur du contexte conduit la facture
Total (sans reclasseur)	0,013–0,021 $	Sonnet 4.6 avec Pinecone Serverless + embedding OpenAI petit	L'LLM représente 85-95 % du coût total
Total (avec reclasseur Cohere)	0,014–0,022 $	Ajouter 0,001 $/requête au-dessus	Le reclasseur augmente le total ~5-7 %

Sources au juin 2026 : tarification embeddings OpenAI (developers.openai.com/api/docs/pricing — text-embedding-3-small 0,02 $/1M, text-embedding-3-large 0,13 $/1M) ; embeddings Voyage AI (docs.voyageai.com/docs/pricing — voyage-3-large 0,18 $/1M) ; lectures Pinecone Serverless (8,25 $/1M unités de lecture, pinecone.io/pricing) ; tarification Cohere Rerank (cohere.com/pricing — 1 $/1 000 requêtes pour Rerank v3 sur le tier production) ; tarification Anthropic Claude Sonnet 4.6 (3 $/1M entrée, 15 $/1M sortie — vérifier sur anthropic.com/pricing car le tarif des modèles change fréquemment) ; tarification gpt-4.1 (2 $/1M entrée, 8 $/1M sortie — vérifier sur openai.com/pricing). Nombre de tokens utilisé : 50-token embedding de requête, 3 000-token entrée LLM (requête + contexte récupéré), 500-token sortie LLM. Les coûts réels varient selon la longueur du contexte et la sélection du modèle.

La formule de coût de requête RAG

Chaque requête RAG exécute quatre opérations en séquence. Voici la formule avec chaque couche isolée :

``` per_query_cost = # Couche 1 : intégrer la requête utilisateur (query_tokens / 1_000_000) × embed_$/M # Couche 2 : lecture base de données vectorielle + vector_read_cost_per_query # Couche 3 : reclasseur (optionnel) + (use_reranker ? rerank_$/query : 0) # Couche 4 : génération LLM (cela domine) + (llm_input_tokens / 1_000_000) × llm_input_$/M + (llm_output_tokens / 1_000_000) × llm_output_$/M ```

Le nombre de tokens d'entrée LLM est la somme de : le prompt système (partagé entre les requêtes), la question de l'utilisateur, et les chunks de contexte récupérés. C'est le levier clé. Un prompt système de 800 tokens + une question de 100 tokens + 5 chunks de 400 tokens chacun = 2 900 tokens d'entrée. Au taux d'entrée de Sonnet 4.6 de 3 $/1M, cela représente 0,0087 $ en tokens d'entrée seuls — avant la sortie. Ajoutez 500 tokens de sortie à 15 $/1M = 0,0075 $. Total LLM : 0,0162 $ par requête.

Le nombre de chunks récupérés est le levier de coût le plus contrôlable après la sélection du modèle. Passer des 10 meilleurs aux 5 meilleurs chunks réduit le contexte d'environ 40 % sur un RAG typique, réduisant le coût d'entrée LLM proportionnellement. Mesurez la précision de la récupération pour trouver le nombre minimum de chunks qui maintient la qualité des réponses.

Exemple travaillé 1 : 1 000 requêtes/mois — prototype ou outil interne

À 1 000 requêtes/mois, la facture est négligeable. C'est une recherche de documents interne d'un développeur solo ou une base de connaissances d'équipe avec une utilisation légère.

**Embedding de requête (OpenAI text-embedding-3-small, 50 tokens/requête) :** 1 000 × 50 tokens = 50 000 tokens = 0,05M. 0,05 × 0,02 $ = **0,001 $/mois**.

**Lecture BD vectorielle (Pinecone Serverless) :** 1 000 × 8,25 $/1M = **0,00825 $/mois**.

**LLM (Sonnet 4.6, 3 000 entrée + 500 sortie tokens) :** Entrée : 1 000 × 3 000 / 1M × 3 $ = 9 $. Sortie : 1 000 × 500 / 1M × 15 $ = 7,50 $. Total LLM : **16,50 $/mois**.

**Total :** ~16,51 $/mois. La couche LLM représente 99,9 % de la facture. À cette échelle, la sélection du modèle est la seule décision de coût qui vaut la peine d'être prise.

**Alternative moins chère :** Basculez vers Claude Haiku 3.5 (0,80 $/4 $ par M entrée/sortie) : Entrée : 2,40 $, Sortie : 2,00 $. Total LLM : 4,40 $. Coût total de requête : **4,41 $/mois**. À 1 000 requêtes/mois, Haiku est souvent suffisant pour les questions augmentées par récupération avec un contexte récupéré propre.

Exemple travaillé 2 : 100 000 requêtes/mois — fonctionnalité SaaS production

100 000 requêtes/mois est une fonctionnalité RAG en production en direct dans un produit SaaS B2B — un assistant de documentation, un outil de déviation de tickets de support, une aide d'examen de contrats.

**Embedding de requête (OpenAI text-embedding-3-small) :** 100 000 × 50 / 1M × 0,02 $ = **0,10 $/mois**.

**Lecture BD vectorielle (Pinecone Serverless) :** 100 000 × 8,25 $/1M = **0,83 $/mois**.

**Reclasseur (Cohere Rerank, optionnel) :** 100 000 × 1 $/1 000 = **100 $/mois**. Remarque : le reclasseur est maintenant la deuxième plus grande composante de coût à ce volume — plus grande que la BD vectorielle et l'embedding combinés. Incluez-le uniquement s'il améliore mesurément la qualité des réponses sur votre évaluation.

**LLM (Sonnet 4.6, 3 000 entrée + 500 sortie) :** Entrée : 100 000 × 3 000 / 1M × 3 $ = 900 $. Sortie : 100 000 × 500 / 1M × 15 $ = 750 $. Total LLM : **1 650 $/mois**.

**Total (avec reclasseur) :** 0,10 + 0,83 + 100 + 1 650 = **1 750,93 $/mois** (~0,0175 $/requête).

**Total (sans reclasseur) :** 0,10 + 0,83 + 1 650 = **1 650,93 $/mois** (~0,0165 $/requête).

À 100K requêtes/mois, l'LLM représente toujours 94 % de la facture. Le reclasseur Cohere ajoute 6 % de coût pour son amélioration de qualité — vaut la peine de benchmarker par rapport à votre évaluation avant de l'inclure en production.

Exemple travaillé 3 : 1 000 000 requêtes/mois — production à volume élevé

1M requêtes/mois est un déploiement RAG à l'échelle de l'entreprise — un assistant IA orienté client, un outil de gestion des connaissances interne à grande volume, un pipeline de traitement de documents à volume élevé.

**Embedding de requête (OpenAI text-embedding-3-small) :** 1M × 50 / 1M × 0,02 $ = **1,00 $/mois**.

**Lecture BD vectorielle (Pinecone Serverless) :** 1M × 8,25 $/1M = **8,25 $/mois**.

**Reclasseur (Cohere Rerank) :** 1M × 1 $/1 000 = **1 000 $/mois**.

**LLM (Sonnet 4.6, 3 000 entrée + 500 sortie) :** Entrée : 1M × 3 000 / 1M × 3 $ = 9 000 $. Sortie : 1M × 500 / 1M × 15 $ = 7 500 $. Total LLM : **16 500 $/mois**.

**Total (avec reclasseur) : 17 509 $/mois** (~0,0175 $/requête).

**Total (sans reclasseur) : 16 509 $/mois** (~0,0165 $/requête).

À cette échelle, le coût LLM est le seul levier d'optimisation qui importe. Trois chemins pour le réduire : (1) cache de prompts pour le prompt système partagé et le contexte statique — réduit le coût d'entrée de 75-90 % sur la portion en cache ; (2) passage à un tier de modèle moins cher (gpt-4.1-mini à 0,40 $/1,60 $ par M vs Sonnet 4.6 à 3 $/15 $) ; (3) réduction de la longueur du contexte récupéré des 10 meilleurs aux 5 meilleurs chunks. Chacune de ces optimisations est indépendante et cumulable.

Cache de prompts : la réduction de facture de 60-80 %

Le cache de prompts est le levier d'optimisation de coût RAG à plus haut rendement disponible en 2026. Anthropic et OpenAI l'offrent tous les deux ; les mécaniques diffèrent légèrement.

**Anthropic Claude (prompt cache) :** Écriture en cache : 1,25x le prix d'entrée standard. Lecture en cache : 0,10x le prix d'entrée standard — une réduction de 90 %. Si votre prompt système + tout contexte statique totalise 1 500 tokens et est partagé entre toutes les requêtes, la première requête l'écrit en cache à 1,25x ; chaque requête suivante le lit à 0,10x.

``` Sans cache (Sonnet 4.6, 3 000 tokens d'entrée par requête à 3 $/1M) : 1M requêtes × 3 000 tokens = 3B tokens d'entrée × 3 $/1M = 9 000 $/mois Avec cache (1 500 tokens en cache, 1 500 tokens non en cache) : Écritures en cache (premier accès par TTL de cache) : ~1 687 $ (taux 1,25x, amorti) Lectures en cache : 1M requêtes × 1 500 tokens en cache × 0,30 $/1M = 450 $ Non en cache : 1M requêtes × 1 500 tokens × 3 $/1M = 4 500 $ Total entrée : ~6 637 $ — 26 % moins cher juste en cachant le prompt système. ```

Si vous pouvez utiliser le cache plus agressivement — un grand préambule de base de connaissances statique de 4 000 tokens inclus dans chaque requête — les économies se composent. À 4 000 tokens en cache sur un prompt de 5 000 tokens (80 % en cache) : lectures en cache = 1M × 4 000 × 0,30 $/1M = 1 200 $ ; non en cache = 1M × 1 000 × 3 $/1M = 3 000 $ ; total entrée = 4 200 $ vs 15 000 $ sans cache — une réduction de coût d'entrée de 72 %.

**OpenAI (cache de prompts automatique) :** OpenAI applique le cache de prompts automatique au plus long préfixe commun des requêtes. La portion en cache est facturée à 50 % du taux d'entrée standard (contre 10 % pour Anthropic). Moins agressif mais aucune configuration nécessaire — il s'applique automatiquement aux requêtes qui partagent un contexte initial commun.

Le cache est la seule optimisation de coût RAG la plus impactante. Si votre prompt système dépasse 1 000 tokens, activez le cache de prompts dès aujourd'hui. Voir notre calculatrice de coût Claude API pour les calculs de cache sur d'autres modèles Claude.

La longueur du contexte est le multiplicateur de coût caché

Les équipes récupèrent systématiquement trop de résultats. Un système RAG configuré pour retourner les 10 meilleurs chunks de 400 tokens chacun injecte 4 000 tokens de contexte par requête. Réduire à 5 et vous coupez l'injection de contexte de moitié. Au taux d'entrée de Sonnet 4.6 de 3 $/1M, la différence de coût d'entrée est 0,006 $/requête — 6 000 $/mois à 1M requêtes. C'est une économie de ligne visant la peine d'une exécution de benchmark.

``` Coût d'injection de contexte par configuration de chunk (Sonnet 4.6, 3 $/1M d'entrée) : top-3 × 400 tokens = 1 200 tokens contexte → 0,0036 $/requête top-5 × 400 tokens = 2 000 tokens contexte → 0,0060 $/requête top-10 × 400 tokens = 4 000 tokens contexte → 0,0120 $/requête top-20 × 400 tokens = 8 000 tokens contexte → 0,0240 $/requête ```

Le nombre de tokens de sortie est souvent sous-estimé. Un assistant IA qui rédige des réponses complètes de 800 tokens coûte 60 % plus cher en sortie qu'un qui donne des réponses de 500 tokens. Sur Sonnet 4.6 à 15 $/1M de sortie, la différence est 0,0045 $/requête — 4 500 $/mois à 1M requêtes. Ajoutez des contraintes de sortie au niveau système (`max_tokens`, guidage du format de réponse) pour contrôler cela.

Pour un guide travaillé de minimisation de la longueur du contexte sans dégrader la qualité des réponses, voir notre arbre de décision d'architecture RAG.

Sélection du modèle : compromis coût vs qualité en 2026

Le choix du modèle LLM conduit plus du coût de requête RAG que toute autre décision unique. L'écart entre le tier le moins cher et le plus cher est 100x :

**Tier budget** — Claude Haiku 3.5 (0,80 $/4 $ par M entrée/sortie) ou gpt-4.1-mini (0,40 $/1,60 $ par M entrée/sortie). À 3 000 entrée + 500 tokens de sortie : Haiku = 0,0024 + 0,002 = 0,0044 $/requête. gpt-4.1-mini = 0,0012 + 0,0008 = 0,002 $/requête. Utilisez pour : simple Q&A factuelle sur contexte structuré propre, déviation de tickets de support, récupération de FAQ où la réponse est un prélèvement direct du texte récupéré.

**Tier intermédiaire** — Claude Sonnet 4.6 (3 $/15 $ par M) ou gpt-4.1 (2 $/8 $ par M). À 3 000 entrée + 500 sortie : Sonnet = 0,009 + 0,0075 = 0,0165 $/requête. gpt-4.1 = 0,006 + 0,004 = 0,010 $/requête. Utilisez pour : raisonnement multi-étapes sur contexte récupéré, synthèse entre multiples chunks, génération de réponses nuancées où le risque d'hallucination est significatif.

**Tier premium** — Claude Opus (15 $/75 $ par M) ou équivalent. À 3 000 entrée + 500 sortie : 0,045 + 0,0375 = 0,0825 $/requête. Utilisez uniquement lorsque le cas d'usage l'exige : raisonnement juridique/médical complexe, synthèse multi-documents dans les décisions à forts enjeux. À 1M requêtes/mois c'est une facture de 82 500 $/mois — généralement réservée aux requêtes à faible volume mais à forts enjeux, pas aux charges de travail en masse.

Le modèle de production pour RAG haute volume : routez les requêtes simples (répondables par mot-clé, récupération d'un seul chunk) vers le tier budget ; routez les requêtes complexes (multi-hop, ambiguës, synthèse entre chunks) vers le tier intermédiaire. Une répartition 70/30 entre Haiku et Sonnet réduit le coût LLM d'environ 50 % par rapport à tout-Sonnet, avec une régression de qualité minimale sur le segment requêtes simples.

Vérifiez tous les prix des modèles sur anthropic.com/pricing et openai.com/pricing avant de finaliser tout budget — les deux fournisseurs ajustent les prix avec les nouvelles générations de modèles.

La décision reclasseur : 0,001 $/requête ça vaut le coup ?

Un reclasseur prend les N meilleurs chunks récupérés de la recherche vectorielle et les note par pertinence sémantique à la requête spécifique avant de les passer à l'LLM. Cohere Rerank v3 coûte 1 $/1 000 requêtes sur le tier production = 0,001 $/requête.

Le cas commercial : si votre recherche vectorielle retourne les 10 meilleurs chunks mais seulement 3 sont vraiment pertinents, l'LLM dépense des tokens sur 7 chunks non pertinents. Un bon reclasseur les filtre, réduisant la longueur du contexte (et le coût LLM) tout en améliorant la précision des réponses. Le reclasseur gagne ses 0,001 $ s'il réduit le nombre moyen de chunks de 10 à 5 à 3 000 tokens de contexte total — parce que la réduction économise 0,006 $ au taux Sonnet 4.6, obtenant une économie nette de 0,005 $ par requête.

Quand le reclassement vaut le coup : récupération à haut rappel mais faible précision (recherche vectorielle dense avec de nombreux chunks quasi-hit) ; fenêtres de contexte longues coûteuses à remplir ; cas d'usage où la précision des réponses est mesurée (scores RAG eval, CSAT satisfaction utilisateur, précision de déviation de support).

Quand le reclassement ne vaut pas le coup : corpus très propres et étroits où la recherche vectorielle retourne déjà des résultats très précis ; utilisation de modèle tier budget où le coût LLM par requête est déjà 0,002–0,004 $ et les frais du reclasseur de 0,001 $ représentent une surcharge de 25-50 % ; volumes de requête supérieurs à 100K/mois où la facture du reclasseur dépasse 100 $/mois et un audit de précision de récupération pourrait produire les mêmes gains gratuitement.

Voir la comparaison Pinecone vs Weaviate vs Qdrant pour les benchmarks de précision de recherche vectorielle par fournisseur qui informent le compromis reclasseur-vs-pas-reclasseur.

À 1M requêtes par mois : la feuille de route d'optimisation complète

Facture de base à 1M requêtes/mois (Sonnet 4.6, top-10 chunks à 400 tokens chacun, pas de cache, pas de reclasseur) :

``` Embedding : 1 $/mois (négligeable) BD vectorielle : 8 $/mois (négligeable) Entrée LLM : 1M × 4 100 tokens × 3 $/1M = 12 300 $/mois Sortie LLM : 1M × 500 tokens × 15 $/1M = 7 500 $/mois Total : ~19 800 $/mois ```

Optimisation 1 — réduire aux 5 meilleurs chunks : l'entrée LLM descend à 2 100 tokens. Entrée = 6 300 $. Économise **6 000 $/mois**.

Optimisation 2 — activer le cache de prompts (prompt système de 1 000 tokens) : lectures en cache à 0,30 $/1M vs 3 $/1M sur la portion partagée. Économise ~1 800 $/mois sur les tokens de prompt système. Économise **~1 800 $/mois**.

Optimisation 3 — routage des requêtes : envoyez 60 % des requêtes à Haiku 3.5 (0,80 $/4 $ par M). Haiku 60 % : 600K × 2 100 entrée / 1M × 0,80 $ = 1 008 $ ; 600K × 500 sortie / 1M × 4 $ = 1 200 $. Sonnet 40 % : 400K × 2 100 entrée / 1M × 3 $ = 2 520 $ ; 400K × 500 sortie / 1M × 15 $ = 3 000 $. Total LLM après routage : 7 728 $ vs 13 800 $. Économise **~6 072 $/mois**.

Combiné après les trois optimisations : ~**5 736 $/mois** vs 19 800 $ d'origine — une **réduction de coût de 71 %** sans dégradation du modèle sur le segment requêtes simples et précision améliorée sur le segment requêtes complexes.

L'ordre d'implémentation : cache de prompts en premier (changement sans code sur Anthropic, configuration seulement), puis réduction de chunks (benchmark la qualité de récupération avant de réduire), puis routage des requêtes (nécessite une couche de classification, effort d'ingénierie le plus important mais économies en dollars les plus élevées).

Comment estimer le coût de votre requête RAG en 5 étapes

1
Comptez votre volume de requêtes mensuels
Chaque interaction utilisateur qui déclenche une récupération est une requête RAG. 10 000 utilisateurs actifs à 2 requêtes/jour = 600 000 requêtes/mois. Ce nombre conduit tout — commencez ici avant de toucher à toute décision de modèle ou fournisseur.
2
Mesurez votre longueur de contexte moyenne
Additionnez : tokens du prompt système + tokens de la requête utilisateur + tokens des chunks récupérés (N chunks × taille moyenne du chunk). C'est votre nombre de tokens d'entrée LLM par requête. Dans la plupart des systèmes RAG c'est 2 000–6 000 tokens. Chaque 1 000 tokens au taux d'entrée Sonnet 4.6 = 3 $/1M = 0,003 $/requête = 3 000 $/mois à 1M requêtes.
3
Tarifez la couche LLM en premier
Coût LLM = (input_tokens / 1M × input_$/M) + (output_tokens / 1M × output_$/M). C'est 85-95 % de votre facture RAG totale. Choisissez le modèle le moins cher qui atteint votre barre de qualité sur une évaluation retenue de 50 requêtes avant d'assumer que vous avez besoin du tier premium.
4
Ajoutez les coûts BD vectorielle et embedding
Embedding de requête : query_tokens × requêtes_mensuelles / 1M × embed_$/M. Généralement moins de 2 $/mois à la plupart des échelles. Lectures BD vectorielle : dépend du fournisseur — voir la calculatrice de coût BD vectorielle. Généralement 1-5 % du coût total.
5
Appliquez le cache de prompts et mesurez les économies
Activez le cache de prompts chez votre fournisseur LLM. Les lectures en cache d'Anthropic sont 0,10x le prix d'entrée standard — une réduction de 90 % sur les tokens en cache. Si votre prompt système fait 1 000 tokens et vous exécutez 1M requêtes/mois, le cache économise ~2 700 $/mois au taux Sonnet 4.6. Aucun changement de code, configurez dans l'appel API.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Calculatrice de coût BD vectorielle→Calculatrice de coût embeddings→Calculatrice de coût Claude API→Coût embedding Cohere vs OpenAI→Arbre de décision d'architecture RAG→

Frequently Asked Questions

Combien coûte une requête RAG en 2026 ?

Plage typique : 0,013–0,025 $/requête. Décomposition : embedding de requête ~0,000001 $, lecture BD vectorielle ~0,0000083 $ (Pinecone Serverless), génération LLM 0,013–0,021 $ (Sonnet 4.6, 3 000 entrée + 500 sortie tokens). La couche LLM est 85-95 % du coût total. Moins cher avec Haiku ou gpt-4.1-mini : 0,002–0,005 $/requête.

Combien coûte le RAG à un million de requêtes par mois ?

À 0,018 $/requête en moyenne (Sonnet 4.6, 3 000 entrée + 500 sortie, top-5 chunks, cache de prompts) : ~18 000 $/mois. Avant optimisation avec top-10 chunks, sans cache : ~19 800 $/mois. Après optimisation complète (cache + réduction de chunks + routage des requêtes) : ~5 700 $/mois. Les leviers d'optimisation sont réels et vaut la peine de les implémenter à ce volume.

Quel est le coût le plus important dans un système RAG ?

L'appel de génération LLM — consistément 85-95 % du coût total par requête. La pile de récupération (embedding + lecture BD vectorielle) est généralement moins de 1 % de la facture. Cela signifie que la sélection du modèle et la longueur du contexte sont les seuls leviers de coût qui importent matériellement. Optimisez d'abord ceux-ci.

Le cache de prompts Anthropic fonctionne-t-il pour RAG ?

Oui, et c'est une des optimisations de coût RAG avec le meilleur ROI. Écriture en cache : 1,25x le prix d'entrée standard. Lecture en cache : 0,10x — une réduction de 90 %. Si votre prompt système et tout contexte statique totalisent 1 500 tokens, les mettre en cache réduit le coût de ces tokens de 90 % à chaque requête répétée. Activez-le via le paramètre `cache_control` dans l'API Anthropic.

Devrais-je utiliser un reclasseur dans mon pipeline RAG ?

Ça dépend de votre précision de récupération. Cohere Rerank coûte 0,001 $/requête (Rerank v3 tier production). Si le reclassement réduit vos chunks récupérés moyens de 10 à 5, il économise ~0,006 $/requête en coûts de contexte LLM au taux Sonnet 4.6 — obtenant une économie nette de 0,005 $ après les frais du reclasseur de 0,001 $. Exécutez un audit de précision de récupération avant d'ajouter un reclasseur ; si votre recherche vectorielle retourne déjà des résultats haute précision, un reclasseur ajoute du coût sans gain de qualité.

Comment réduire le coût RAG sans dégrader la qualité ?

Trois optimisations cumulables : (1) Activez le cache de prompts — aucun changement de code, réduction de 90 % sur les tokens en cache chez Anthropic ; (2) Réduisez le nombre de chunks récupérés — benchmark la qualité de récupération avec top-3 vs top-5 vs top-10 chunks ; (3) Routez les requêtes simples vers un tier de modèle moins cher — Haiku 3.5 à 0,80 $/4 $ par M gère les lookups factuels simples à 1/8 du coût de Sonnet 4.6. Combinées, ces optimisations réalisent généralement une réduction de coût de 60-70 %.

Quel LLM devrais-je utiliser pour RAG en 2026 ?

Commencez par le tier intermédiaire : Claude Sonnet 4.6 (3 $/15 $ par M entrée/sortie) ou gpt-4.1 (2 $/8 $ par M). Tous les deux gèrent la synthèse multi-chunk fiablement. Baissez vers Haiku 3.5 ou gpt-4.1-mini pour le Q&A factuel simple — ils sont 6-8x moins chers et suffisants pour les réponses qui prélèvent directement du contexte récupéré. Escaladez vers les modèles de classe Opus seulement pour le raisonnement juridique/médical/financier complexe où l'écart de qualité est mesurable sur votre évaluation.

La BD vectorielle ou le modèle d'embedding est-ce le coût principal dans RAG ?

Ni l'un ni l'autre — l'appel de génération LLM. Le modèle d'embedding coûte une fraction de cent par requête (50 tokens à 0,02 $/1M = 0,000001 $). La lecture BD vectorielle sur Pinecone Serverless coûte 0,0000083 $/requête. L'LLM à 3 000 entrée + 500 sortie tokens sur Sonnet 4.6 coûte 0,0165 $/requête — 1 000–16 000x plus que l'un ou l'autre composant de récupération. Construisez votre modèle de coût autour de l'LLM en premier.

Réduisez votre facture RAG avant de scaler.

De meilleurs prompts de requête réduisent la longueur du contexte récupéré et coupent les tokens d'entrée LLM par requête. Notre générateur de prompts IA rédige des modèles de requête RAG efficaces — requêtes plus courtes, plus haute précision qui récupèrent moins de bruit. Essai gratuit de 14 jours, pas de carte.

Browse all prompt tools →