Reranker sind der zweite Filterschritt in einer modernen Abruf-Pipeline. Nachdem Ihr Embedding-Modell die top-50 Kandidaten aus der Vektor-DB zurückgegeben hat, bewertet ein Reranker jedes (Abfrage, Dokument)-Paar mit einem Cross-Encoder-Modell, das beide Textstücke zusammen liest — viel genauer als die Bi-Encoder-Embeddings, die Abfrage und Dokument unabhängig kodieren. Das Ergebnis ist eine neu geordnete Liste, bei der die top-5 dramatisch wahrscheinlicher den richtigen Chunk enthalten. Preisgestaltung in 2026 ist sauber gestaffelt: Cohere Rerank v3 bei $1,00 pro 1M rerangte Paare ist der Qualitätsführer; Voyage Rerank-1 kostet ungefähr $0,05 pro 1.000 Paare (d.h. $50 pro 1M); Jina Reranker v2 preist bei $0,02 pro 1M Token (eine andere Einheit — zählt Token über Abfrage und Dokument, nicht Paare); und MixedBread's offene Gewichte-Reranker gehostet über Together AI landet nahe $0,0005 pro 1M Token, die günstigste Produktions-Option.
Die Einheit ist wichtig. Reranker-Rechnungen zählen Paare, nicht Token, bei Cohere und Voyage. Ein "Paar" ist eine Abfrage kombiniert mit einem Kandidaten-Dokument. Wenn Sie top-50 aus der Vektor-DB abrufen und gegen eine einzelne Abfrage reranken, das sind 50 Paare — nicht 50 × Dokument_Länge Token. Jina's Token-basierte Preisgestaltung liest anders: ein typisches 500-Token-Dokument plus 50-Token-Abfrage ist 550 Token pro Paar, also 50 Paare bei 550 Token = 27.500 Token pro Abfrage. Bei Jinas $0,02/1M sind das $0,00055 pro Abfrage für den Rerank-Schritt. Bei Cohere Rerank v3 sind 50 Paare × $1/1M = $0,00005 pro Abfrage. Bei Voyage Rerank-1 sind 50 Paare × $50/1M = $0,0025 pro Abfrage. Das Günstigste ist ungefähr 50x günstiger als das Teuerste, aber alle sind sub-Cent.
Eine typische RAG-Abruf-Pipeline im Maßstab preist sauber aus. Für eine einzelne Benutzer-Abfrage: die Abfrage-Zeichenfolge einbetten (~50 Token × $0,02/1M für text-embedding-3-small) = $0,000001. Vektor-Suche gegen den Index ist eine feste Infrastruktur-Kosten — nennen Sie es $0,00001 von amortisierter Pinecone-Serverless-Zeit pro Abfrage bei 1M Abfragen/Monat. Reranken Sie die top-50 mit Cohere Rerank v3 = $0,00005. Übergeben Sie die top-5 rerangten Chunks plus die Benutzer-Abfrage in den LLM-Aufruf — bei GPT-4.1 ($2/1M Input, $8/1M Output) mit 3.000 Input-Token und 500 Output-Token ist das $0,010 pro Abfrage. Der LLM-Aufruf ist die gesamte Rechnung, ungefähr 100–200x größer als jeder Abruf-Schritt kombiniert.
Der Reranker-Qualitätsgewinn übertrifft oft den Gewinn aus dem Upgrade des Embedding-Modells. Bei einer repräsentativen internen Wissensdatenbank-Eval — 50.000 Chunks, 200 manuell bezeichnete Abfragen — gab text-embedding-3-small allein recall@5 von 78% zurück. Das Upgrade auf text-embedding-3-large (eine 6,5x-Kostenerhöhung) hob es auf 83%. Das Behalten von text-embedding-3-small und das Hinzufügen von Cohere Rerank v3 hob recall@5 auf 91% — ein 13-Punkt-Gewinn bei $0,00005 pro Abfrage. Der Reranker-Pfad gewinnt sowohl bei Qualität als auch bei Gesamtkosten: $0,02/1M für Embeddings plus $1/1M-Paare für Rerank schlägt $0,13/1M für Embeddings allein, während es 8 Punkte mehr Recall liefert. Dieses Muster wiederholt sich über die meisten öffentlichen Abruf-Benchmarks, wo Rerank-Ablationen berichtet werden.
Der Mechanismus ist einfach. Embeddings komprimieren Bedeutung in einen festen Vektor, bevor sie jemals die Abfrage sehen — sie können ihre Repräsentation nicht an die gestellte Frage anpassen. Ein Cross-Encoder-Reranker liest die Abfrage und das Kandidaten-Dokument zusammen und produziert einen Relevanz-Score, der auf die spezifische Abfrage bedingt ist. Diese bedingte Ansicht fängt Near-Misses auf, die der Embedding-Schritt ähnlich rangt, aber aus irrelevanten Gründen (gemeinsame Thema-Stichwörter, ähnliche Formulierung, populäre Konzepte). Bei Corporata mit hohem lexikalischem Überlapp zwischen irrelevanten Dokumenten — juristische Unterlagen, Support-Tickets, akademische Arbeiten in benachbarten Unterfeldern — erreicht die Reranker-Lücke über Embeddings allein oft 15–20 Punkte recall@5.
Reranker helfen nicht in jedem Fall. Drei Muster, bei denen der Reranker-Pass verschwendete Ausgaben ist. Erstens sehr kleine Corporata (unter 5.000 Chunks): das Embedding-Modell allein findet zuverlässig den richtigen Chunk in den top-5, weil es so wenige Kandidaten gibt, um es zu verwirren. Zweitens, Corporata, bei denen das Embedding-Modell bereits bei 95%+ recall@10 liegt — der Reranker hat wenig Signal mehr zum Extrahieren und die Latenz-Strafe (50–200ms pro Abfrage für einen Remote-Rerank-Aufruf) beginnt zu schaden. Drittens, Pipelines, die bereits lexikalische (BM25) und semantische (Vektor) Retrieval mit reciprocal rank fusion kombinieren: der Hybrid-Schritt deckt die meisten Fehlermodi ab, die ein Reranker fangen würde, und der Marginal-Recall-Gewinn fällt normalerweise unter 2 Punkte. Messen Sie vor dem Hinzufügen des Durchgangs.
Vollständige Kostenrechnung für eine Produktions-RAG-App bei 1M Abfragen pro Monat. Ohne Reranker: 1M × ($0,000001 Embed + $0,00001 Vektor-Suche + $0,010 LLM) = $10.011/Monat, mit etwa 78% top-5-Recall. Mit Cohere Rerank v3: 1M × ($0,000001 Embed + $0,00001 Vektor-Suche + $0,00005 Rerank + $0,010 LLM) = $10.061/Monat, mit 91% top-5-Recall. Der Reranker addiert $50/Monat — etwa 0,5% der Gesamtausgaben — und addiert 13 Punkte Recall. Mit Voyage Rerank-1 springt die Rerank-Linie auf $2.500/Monat, immer noch unter 25% der Gesamtausgaben, mit marginal höherem Recall auf Voyage-internen Evals. Mit MixedBread offene Gewichte über Together: die Rerank-Linie ist etwa $14/Monat bei der gleichen Menge — effektiv kostenlos im Verhältnis zur LLM-Rechnung. Der günstigste Reranker ist selten der beste bei Qualität, aber jede Option in 2026 ist klein genug, dass die Wahl von recall@k auf Ihrer eigenen Eval angetrieben werden sollte, nicht von $/1M.
Zwei praktische Anmerkungen zum Budgetieren. Reranker-Latenz addiert sich: Cohere Rerank v3 gibt in 80–150ms für 50 Kandidaten zurück; Voyage Rerank-1 landet näher bei 200ms; selbst gehostete Offene-Gewichte-Reranker auf einem einzelnen GPU können in 30–50ms zurückgeben, aber erfordern, dass Sie die Infrastruktur betreiben. Wenn Ihr End-to-End-Abfrage-Budget unter 800ms liegt, kostet ein Remote-Rerank-Pass 15–25% des Budgets. Zweitens, Reranking ist eine der wenigen RAG-Komponenten, die von Caching auf der Paar-Ebene profitiert: identische (Abfrage, Dokument)-Paare geben identische Scores zurück, also ein kleiner Redis-Cache vor dem Reranker spart bei Apps mit wiederholten Abfragen oft 30–50% der Rechnung. Siehe den GPT vs Claude vs Gemini-Kostenrechner um den LLM-Schritt zu dimensionieren, der den Rest des Stacks dominiert.