Les rerankers sont le filtre de deuxième étape dans un pipeline de récupération moderne. Après que votre modèle d'embedding retourne les 50 meilleurs candidats de la base de données vectoriels, un reranker note chacun (requête, document) paire en utilisant un modèle cross-encoder qui lit les deux morceaux de texte ensemble — beaucoup plus précis que les bi-encodeurs embeddings, qui encodent la requête et le document indépendamment. Le résultat est une liste réordonné où les 5 premiers sont dramatiquement plus susceptibles de contenir le bon chunk. La tarification en 2026 est en tiers nets : Cohere Rerank v3 à $1.00 par 1M paires reranked est le leader en qualité ; Voyage Rerank-1 fonctionne environ $0.05 par 1 000 paires (c'est-à-dire $50 par 1M) ; Jina Reranker v2 prix à $0.02 par 1M jetons (une unité différente — compte les jetons à travers la requête et le document, pas les paires) ; et le modèle de rerank à poids ouverts de MixedBread hébergé via Together AI atterrit près de $0.0005 par 1M jetons, l'option la moins chère de qualité de production.
L'unité compte. Les factures Reranker comptent les paires, pas les jetons, sur Cohere et Voyage. Une « paire » est une requête combinée avec un document candidat. Si vous récupérez les 50 premiers de la base de données vectoriels et les reranked contre une seule requête, c'est 50 paires — pas 50 × longueur_document jetons. La tarification par jeton de Jina lit différemment : un document typique de 500 jetons plus une requête de 50 jetons c'est 550 jetons par paire, donc 50 paires à 550 jetons = 27 500 jetons par requête. Au prix de $0.02/1M de Jina c'est $0.00055 par requête pour l'étape de rerank. Chez Cohere Rerank v3, 50 paires × $1/1M = $0.00005 par requête. Chez Voyage Rerank-1, 50 paires × $50/1M = $0.0025 par requête. Le moins cher est environ 50x moins cher que le plus cher, mais tous sont sous le centime.
Un pipeline typique de récupération RAG à l'échelle tarifée nettement. Pour une seule requête utilisateur : embarquer la chaîne de requête (environ 50 jetons × $0.02/1M pour text-embedding-3-small) = $0.000001. La recherche vectorielle contre l'index est un coût d'infrastructure fixe — appelez-le $0.00001 du temps Pinecone serverless amortisé par requête à 1M requête/mois. Rerank les 50 premiers avec Cohere Rerank v3 = $0.00005. Passez les 5 chunks reranked principaux plus la requête utilisateur dans l'appel LLM — à GPT-4.1 ($2/1M d'entrée, $8/1M de sortie) avec 3 000 jetons d'entrée et 500 jetons de sortie, c'est $0.010 par requête. L'appel LLM est la facture entière, environ 100-200x plus grande que chaque étape de récupération combinée.
Le gain de qualité du reranker surpasse souvent le gain de la mise à niveau du modèle d'embedding. Sur une évaluation interne de base de connaissances représentative — 50 000 chunks, 200 requêtes étiquetées à la main — text-embedding-3-small seul a retourné rappel@5 de 78%. Passer à text-embedding-3-large (une augmentation de coût de 6,5x) l'a porté à 83%. En conservant text-embedding-3-small et en ajoutant Cohere Rerank v3 l'a porté à 91% — un gain de 13 points à $0.00005 par requête. Le chemin du reranker gagne sur la qualité et le coût total : $0.02/1M pour les embeddings plus $1/1M-pairs pour le rerank bat $0.13/1M pour les embeddings seuls, tout en livrant 8 points plus de rappel. Ce modèle se répète sur la plupart des benchmarks de récupération publics où les ablations de rerank sont rapportées.
Le mécanisme est simple. Les embeddings compressent le sens dans un vecteur fixe avant même de voir la requête — ils ne peuvent pas adapter leur représentation à la question posée. Un reranker cross-encoder lit la requête et le document candidat ensemble et produit un score de pertinence conditionné sur la requête spécifique. Cette vue conditionnelle attrape les quasi-ratés que l'étape d'embedding classe de la même manière mais pour des raisons non pertinentes (mots-clés de sujet partagés, phrasing similaire, concepts populaires). Sur les corpus avec chevauchement lexical élevé entre les documents non pertinents — dépôts juridiques, tickets de support, articles académiques dans les sous-domaines adjacents — l'écart du reranker par rapport aux embeddings seuls atteint souvent 15-20 points de rappel@5.
Les rerankers n'aident pas dans tous les cas. Trois modèles où la passe du reranker est une dépense gaspillée. Premièrement, très petits corpus (sous 5 000 chunks) : le modèle d'embedding seul retourne de manière fiable le bon chunk dans le top-5 parce qu'il y a peu de candidats pour le confondre. Deuxièmement, les corpus où le modèle d'embedding est déjà à 95%+ rappel@10 — le reranker a peu de signal restant à extraire et la pénalité de latence (50-200ms par requête pour un appel de rerank distant) commence à faire mal à l'UX. Troisièmement, les pipelines qui combinent déjà la récupération lexicale (BM25) et sémantique (vectorielle) avec la fusion de rang réciproque : l'étape hybride couvre la plupart des modes de défaillance qu'un reranker attraperait, et le gain de rappel marginal tombe généralement sous 2 points. Mesurez avant d'ajouter la passe.
Mathématiques $ travaillées pour une application RAG de production à 1M requête par mois. Sans reranker : 1M × ($0.000001 embed + $0.00001 recherche vectorielle + $0.010 LLM) = $10 011/mois, avec environ 78% rappel top-5. Avec Cohere Rerank v3 : 1M × ($0.000001 embed + $0.00001 recherche vectorielle + $0.00005 rerank + $0.010 LLM) = $10 061/mois, avec 91% rappel top-5. Le reranker ajoute $50/mois — environ 0,5% de la dépense totale — et ajoute 13 points de rappel. Avec Voyage Rerank-1 la ligne de rerank monte à $2 500/mois, toujours sous 25% de la dépense totale, avec rappel marginalement plus élevé sur les évaluations internes Voyage. Avec MixedBread poids ouverts via Together : la ligne de rerank est d'environ $14/mois au même volume — effectivement gratuit par rapport à la facture LLM. Le reranker le moins cher n'est rarement le meilleur sur la qualité, mais chaque option en 2026 est assez petite que le choix devrait être orienté par rappel@k sur votre propre évaluation, pas par $/1M.
Deux remarques pratiques pour budgétiser. La latence du reranker s'accumule : Cohere Rerank v3 retourne en 80-150ms pour 50 candidats ; Voyage Rerank-1 atterrit plus proche de 200ms ; les rerankers de poids ouverts auto-hébergés sur un GPU unique peuvent retourner en 30-50ms mais exigent que vous opériez l'infrastructure. Si votre budget de requête de bout en bout est sous 800ms, une passe de rerank distant brûle 15-25% du budget. Deuxièmement, le reranking est l'un des rares composants RAG qui bénéficie de la mise en cache au niveau de la paire : les paires (requête, document) identiques retournent des scores identiques, donc un petit cache Redis devant le reranker coupe souvent la facture de 30-50% sur les applications avec requêtes répétées. Consultez la calculatrice de coût GPT vs Claude vs Gemini pour dimensionner l'étape LLM qui domine le reste de la pile.