Los rerankers son el filtro de segunda etapa en un pipeline de recuperación moderno. Después de que tu modelo de embedding devuelve los 50 principales candidatos de la BD vectorial, un reranker puntúa cada par (consulta, documento) usando un modelo de codificador cruzado que lee ambas piezas de texto juntas — mucho más precisas que los embeddings bi-codificador, que codifican consulta y documento independientemente. El resultado es una lista reordenada donde los 5 principales son dramáticamente más propensos a contener el chunk correcto. Los precios en 2026 están escalonados claramente: Cohere Rerank v3 a $1.00 por 1M pares rerankeados es el líder en calidad; Voyage Rerank-1 corre aproximadamente $0.05 por 1,000 pares (es decir, $50 por 1M); Jina Reranker v2 tiene precio en $0.02 por 1M tokens (una unidad diferente — cuenta tokens entre consulta y documento, no pares); y el modelo rerank de pesos abiertos de MixedBread alojado vía Together AI se aproxima a $0.0005 por 1M tokens, la opción de grado de producción más barata.
La unidad importa. Las facturas de reranker cuentan pares, no tokens, en Cohere y Voyage. Un 'par' es una consulta combinada con un documento candidato. Si recuperas los 50 principales de la BD vectorial y los reranqueas contra una sola consulta, eso son 50 pares — no 50 × document_length tokens. Los precios basados en tokens de Jina leen diferente: un documento típico de 500 tokens más una consulta de 50 tokens son 550 tokens por par, así que 50 pares a 550 tokens = 27,500 tokens por consulta. A $0.02/1M de Jina eso es $0.00055 por consulta para el paso de rerank. En Cohere Rerank v3, 50 pares × $1/1M = $0.00005 por consulta. En Voyage Rerank-1, 50 pares × $50/1M = $0.0025 por consulta. El más barato es aproximadamente 50x más barato que el más caro, pero todos están bajo un centavo.
Un pipeline típico de recuperación RAG a escala tiene precio de forma limpia. Para una consulta de usuario única: embedifica la cadena de consulta (~50 tokens × $0.02/1M para text-embedding-3-small) = $0.000001. La búsqueda vectorial contra el índice es un costo de infraestructura fijo — llámalo $0.00001 del tiempo Pinecone serverless amortizado por consulta a 1M consultas/mes. Reranquea los 50 principales con Cohere Rerank v3 = $0.00005. Pasa los 5 chunks reranqueados superiores más la consulta del usuario al llamada LLM — a GPT-4.1 ($2/1M entrada, $8/1M salida) con 3,000 tokens de entrada y 500 tokens de salida, eso es $0.010 por consulta. La llamada LLM es la factura completa, aproximadamente 100-200x más grande que cada paso de recuperación combinado.
La ganancia de calidad del reranker a menudo supera la ganancia de actualizar el modelo de embedding. En una evaluación típica interna de base de conocimientos — 50,000 chunks, 200 consultas etiquetadas manualmente — text-embedding-3-small solo devolvió recall@5 de 78%. La actualización a text-embedding-3-large (un aumento de costo de 6.5x) la elevó a 83%. Mantener text-embedding-3-small y agregar Cohere Rerank v3 elevó recall@5 a 91% — una ganancia de 13 puntos a $0.00005 por consulta. El camino del reranker gana tanto en calidad como en costo total: $0.02/1M para embeddings más $1/1M-pares para rerank supera $0.13/1M para embeddings solo, mientras entrega 8 puntos más de recall. Este patrón se repite en la mayoría de benchmarks de recuperación públicos donde se reportan ablaciones de rerank.
El mecanismo es directo. Los embeddings comprimen significado en un vector fijo antes de ver la consulta — no pueden adaptar su representación a la pregunta que se está haciendo. Un reranker de codificador cruzado lee la consulta y el documento candidato juntos y produce una puntuación de relevancia condicionada a la consulta específica. Esa vista condicional atrapa casi-fallos que el paso de embedding clasifica de forma similar pero por razones irrelevantes (palabras clave de tema compartidas, fraseología similar, conceptos populares). En corpus con alta superposición léxica entre documentos irrelevantes — presentaciones legales, tickets de soporte, artículos académicos en subcampos adyacentes — la brecha del reranker sobre embeddings solo a menudo alcanza 15-20 puntos de recall@5.
Los rerankers no ayudan en cada caso. Tres patrones donde la pasada del reranker es gasto desperdiciado. Primero, corpus muy pequeños (menos de 5,000 chunks): el modelo de embedding solo confiablemente devuelve el chunk correcto en los 5 principales porque hay tan pocos candidatos para confundirlo. Segundo, corpus donde el modelo de embedding ya está en 95%+ recall@10 — el reranker tiene poco señal izquierdo para extraer y la penalidad de latencia (50-200ms por consulta para una llamada rerank remota) comienza a herir UX. Tercero, pipelines que ya combinan recuperación léxica (BM25) y semántica (vector) con fusión de rango recíproco: el paso híbrido cubre la mayoría de los modos de fallo que un reranker podría atrapar, y la ganancia de recall marginal típicamente cae por debajo de 2 puntos. Mide antes de agregar la pasada.
Matemática de $ trabajada para una aplicación RAG de producción a 1M consultas por mes. Sin reranker: 1M × ($0.000001 embed + $0.00001 búsqueda vectorial + $0.010 LLM) = $10,011/mes, con aproximadamente 78% recall top-5. Con Cohere Rerank v3: 1M × ($0.000001 embed + $0.00001 búsqueda vectorial + $0.00005 rerank + $0.010 LLM) = $10,061/mes, con 91% recall top-5. El reranker agrega $50/mes — aproximadamente 0.5% del gasto total — y agrega 13 puntos de recall. Con Voyage Rerank-1 la línea de rerank salta a $2,500/mes, aún bajo 25% del gasto total, con recall ligeramente superior en evaluaciones internas de Voyage. Con pesos abiertos de MixedBread vía Together: la línea de rerank es aproximadamente $14/mes a este volumen — efectivamente gratis relativo a la factura de LLM. El reranker más barato rara vez es el mejor en calidad, pero cada opción en 2026 es lo suficientemente pequeña que la opción debe ser impulsada por recall@k en tu propia evaluación, no por $/1M.
Dos notas prácticas para presupuestar. La latencia del reranker se suma: Cohere Rerank v3 devuelve en 80-150ms para 50 candidatos; Voyage Rerank-1 se aproxima a 200ms; los rerankers de pesos abiertos autohospedados en una sola GPU pueden devolver en 30-50ms pero requieren que operes la infraestructura. Si tu presupuesto de consulta de extremo a extremo es menor a 800ms, una pasada de rerank remota quema 15-25% del presupuesto. Segundo, el reranking es uno de los pocos componentes de RAG que se benefician del almacenamiento en caché a nivel de par: pares (consulta, documento) idénticos devuelven puntuaciones idénticas, así que un pequeño caché de Redis frente al reranker a menudo corta la factura 30-50% en aplicaciones con consultas repetidas. Ve la calculadora de costos de GPT vs Claude vs Gemini para dimensionar el paso LLM que domina el resto del stack.