La formule de coût (une ligne — aucune surprise)
Le coût d'embedding est le calcul le plus simple dans la pile LLM — il n'y a pas de facture de token de sortie, pas de couche de cache, pas de surcharge par lot sauf où explicitement noté. La formule :
``` cost = (total_tokens / 1,000,000) × price_per_M_tokens ```
Estimez `total_tokens` à partir de votre compte de caractères du corpus : 1 token ≈ 4 caractères d'anglais. Un corpus de documents de 10M de mots représente environ 13.3M de tokens (10M × 1.33 ratio mot-vers-token). Une base de données de produits de 100k lignes avec des descriptions de 200 mots représente environ 26.7M de tokens.
La réinclusion (lorsque vous changez de modèles, changez la stratégie de chunking, ou reconstruisez votre index vectoriel) facture le corpus complet à nouveau. Planifiez au moins une reconstruction pendant le cycle de vie de tout système RAG en production — un corpus de 100M tokens à $0.13/1M coûte $13 à réinclure, mais un corpus de 10B tokens coûte $1,300, ce qui devient un véritable élément budgétaire.
Ce qui ne figure PAS à la facture : le stockage vectoriel (couvert dans sa propre section ci-dessous), l'embedding au moment de la requête (chaque requête utilisateur reçoit son propre coût d'embedding du côté lecture), et les opérations de base de données au moment de la récupération (frais d'hébergement de la base de données vectorielle — Pinecone, Weaviate, Qdrant, pgvector — varient selon le fournisseur). Le coût d'embedding est juste l'appel du modèle.