Por el Equipo de DDH · Digital Dashboard Hub

Calculadora de Costos de Embeddings 2026: Precios por Millón de Tokens en Todos los Proveedores Principales

By DDH Research Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Los embeddings convierten texto en vectores numéricos de longitud fija para búsqueda semántica, recuperación RAG, deduplicación y clustering. A junio de 2026, los precios por millón de tokens oscilan entre $0.01 (Gemini text-embedding-004 en el extremo bajo) y $0.18 (Voyage 3 Large en el extremo alto) — una dispersión aproximadamente de 18x. Las dimensiones vectoriales van de 384 (Cohere embed-v4-light) a 4,096 (Voyage 3 Large), lo que impulsa el costo de almacenamiento descendente y la latencia de consulta más que la factura de embedding en sí.

Dos sorpresas de costo atrapan a los equipos desprevenidos. Primero, el costo de indexación es único pero el costo de requery se compone — cada consulta de búsqueda requiere embedificar la cadena de consulta. Segundo, el almacenamiento vectorial e infraestructura de búsqueda generalmente cuesta 5-20x la factura de embedding a escala de producción. A continuación está la tabla completa obtenida de la documentación de cada proveedor, seguida de ejemplos de $ trabajados para indexar 1M, 10M y 100M chunks más volúmenes de consulta realistas. Verifica las estimaciones de tokens con nuestra calculadora de costos de prompts de IA, u obtén la hoja de trucos gratuita sobre embeddings en PDF.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Precio del modelo de embedding por 1M tokens — junio de 2026

Feature	$/1M tokens	Dimensión vectorial	Máximo de tokens de entrada	Notas
OpenAI text-embedding-3-large	$0.13	3,072 (Matryoshka: 256/1024/3072)	8,191	Líder en calidad en la mayoría de benchmarks de recuperación
OpenAI text-embedding-3-small	$0.02	1,536 (Matryoshka: 256/512/1536)	8,191	Mejor relación $/calidad; predeterminado para la mayoría de equipos
OpenAI text-embedding-ada-002	$0.10	1,536	8,191	Heredado; reemplazado por 3-small/3-large
Voyage 3 Large	$0.18	1,024 / 2,048 / 4,096	32,000	Top de MTEB; ventaja de contexto largo
Voyage 3	$0.06	1,024	32,000	Predeterminado de uso general para stack de Voyage
Voyage 3 Lite	$0.02	512	32,000	Nivel de presupuesto, calidad cercana a 3-small
Voyage Code 3	$0.18	1,024	32,000	Optimizado para código; ganancias grandes en recuperación de código
Cohere embed-v4	$0.12	1,536 (Matryoshka: 256/512/1024/1536)	8,192	Fuerte multilingüismo + entrada de imagen
Cohere embed-v4-light	$0.04	384	8,192	Opción multilingüe más barata
Mistral-embed	$0.10	1,024	8,192	Opción de residencia de datos europea
Google text-embedding-005	$0.025	768 / 1,536 / 3,072 (configurable)	2,048	Fuerte en idiomas de cola larga
Google gemini-embedding-001	$0.15	768	2,048	Multimodal (texto + imagen)
Jina embeddings v3	$0.018	1,024 (Matryoshka: 32-1024)	8,192	Opción de pesos abiertos también disponible
DeepInfra BGE-large-en-v1.5	$0.005	1,024	512	Pesos abiertos alojados; $/1M más bajo

Fuentes, a partir de junio de 2026: OpenAI (https://developers.openai.com/api/docs/pricing), Voyage AI (https://docs.voyageai.com/docs/pricing), Cohere (https://cohere.com/pricing), Mistral (https://docs.mistral.ai/), Google (https://ai.google.dev/gemini-api/docs/pricing), Jina AI (https://jina.ai/pricing), DeepInfra (https://deepinfra.com/pricing). Los modelos Matryoshka soportan truncar a una dimensión más corta con costo de calidad menor; elige la dimensión más pequeña que cumpla con tu recall.

Cómo se calcula el costo de embedding

Las facturas de embedding siguen una única fórmula lineal:

``` index_cost = (total_corpus_tokens / 1,000,000) * embedding_price_per_M query_cost = (total_query_tokens / 1,000,000) * embedding_price_per_M total = index_cost + query_cost ```

El costo de indexación se paga una sola vez cuando construyes el índice vectorial sobre tu corpus. El costo de consulta se paga cada vez que embedificas una consulta de usuario para realizar una búsqueda semántica; se compone con el tráfico.

Matemática de token a chunk: un chunk típico de RAG tiene 200-800 tokens. Un corpus de 100,000 documentos con 5 chunks por documento promediando 500 tokens cada uno = 250M tokens. Con text-embedding-3-small a $0.02/1M, la indexación cuesta $5. Con Voyage 3 Large ($0.18/1M), cuesta $45. La decisión raramente es 'podemos permitirnos indexar' — es 'qué modelo da el mejor recall por dólar a nuestra escala.'

El lado de la consulta es a menudo mayor de lo que los equipos esperan. Una aplicación de 100k-consultas-por-día a 50 tokens por consulta = 5M tokens por día = 150M tokens por mes. En text-embedding-3-small eso es $3 por mes; en Voyage 3 Large, $27 por mes. Barato relativo a la factura de LLM pero vale la pena medir.

Ejemplo trabajado 1: indexar un corpus de 1M chunks

Carga de trabajo de referencia: 1M chunks promediando 500 tokens cada uno = 500M tokens totales.

OpenAI text-embedding-3-small: 500 × $0.02 = $10. OpenAI text-embedding-3-large: 500 × $0.13 = $65. Voyage 3 Large: 500 × $0.18 = $90. Voyage 3 Lite: 500 × $0.02 = $10. Cohere embed-v4: 500 × $0.12 = $60. Google text-embedding-005: 500 × $0.025 = $12.50. Jina v3: 500 × $0.018 = $9. DeepInfra BGE: 500 × $0.005 = $2.50.

Todo barato en términos absolutos. La dispersión de 18x ($2.50 a $90) es real pero para una construcción de índice única raramente impulsa la decisión. Lo que impulsa la decisión es descendente: calidad de recall en tu corpus específico, dimensión vectorial (que afecta el almacenamiento), y costo de requery a tráfico de producción.

Nota de calidad: text-embedding-3-large supera confiablemente a 3-small en la mayoría de benchmarks de recuperación publicados por 3-7%. Voyage 3 Large y Cohere embed-v4 intercambian lugares con text-embedding-3-large en la cima de MTEB dependiendo del dominio. Para dominios especializados (legal, médico, código), variantes optimizadas para dominio — Voyage Code 3 para código, embeddings optimizados de dominio de Cohere — generalmente superan los modelos de uso general por 10-20% en consultas específicas del dominio.

Ejemplo trabajado 2: 10M chunks indexados + 1M consultas/mes

Escala de producción: 10M chunks × 500 tokens = 5B tokens de índice, más 1M consultas/mes × 50 tokens = 50M tokens de consulta, más reindicación del 5% del corpus por mes = 250M tokens de rotación.

Tokens mensuales totales: ~300M (consultas + rotación). Índice amortizado durante 12 meses: 5,000 / 12 = 417M/mes efectivo.

Factura mensual de text-embedding-3-small: (300M × $0.02 + 417M × $0.02 amortizado) = $6 + $8.34 = $14.34. text-embedding-3-large: $39 + $54.21 = $93.21. Voyage 3 Large: $54 + $75 = $129. Cohere embed-v4: $36 + $50 = $86. DeepInfra BGE: $1.50 + $2.08 = $3.58.

Estas facturas son pequeñas relativas al gasto típico de LLM a escala de 1M-consulta, que es a menudo $5,000-$30,000/mes. El costo de embedding es un error de redondeo en la mayoría de presupuestos de producción — elige por calidad de recall, no por $/1M puro, a menos que estés en 100M+ consultas por mes.

Donde el costo de embedding domina: rotación de reindicación de corpus completo. Si reindicasas el 50% del corpus mensualmente porque el modelo cambió o el chunking mejoró, la factura pasa de $14 a $200+ en un corpus de 10M chunks. Planifica la cadencia de reindicación cuidadosamente.

Dimensión vectorial: la palanca de costo oculta

La dimensión impulsa tres costos descendentes: almacenamiento en la BD vectorial, latencia de consulta, y (a veces) el precio por vector de la BD vectorial. Un vector de 1,024-dim a 4 bytes/dim son 4KB. En 10M vectores eso son 40GB sin procesar, más gastos generales de índice — típicamente 60-100GB en Pinecone, Weaviate, o pgvector.

Los embeddings al estilo Matryoshka (text-embedding-3-small/large, Cohere embed-v4, Voyage 3 Large, Jina v3) te permiten truncar a una dimensión más corta con costo de recall menor. Reducir text-embedding-3-large de 3,072 a 1,024 dim típicamente pierde 1-3% en benchmarks de recall mientras reduce el almacenamiento por 3x. Para la mayoría de aplicaciones recuperadas y aumentadas, el intercambio vale la pena.

Matemática de almacenamiento trabajada: 10M chunks a 3,072 dim = 117GB sin procesar vs 39GB a 1,024 dim. En Pinecone serverless ($0.33 por millón-vector-mes a 1,024 dim), la diferencia de 3x dim es aproximadamente 3x la factura mensual — mucho más que la factura del modelo de embedding en la mayoría de escalas.

Elige la dimensión más pequeña que cumpla con tu umbral de recall. Para la mayoría de recuperación de uso general, 768-1,024 dim es el punto dulce; 1,536+ paga principalmente en tareas semánticas difíciles o corpus altamente distintos.

Calidad de recall: ¿quién realmente gana MTEB en 2026?

MTEB (Massive Text Embedding Benchmark) es el ranking público más citado. A partir de junio de 2026, los 5 modelos de uso general principales se agrupan dentro de 2 puntos porcentuales: Voyage 3 Large, OpenAI text-embedding-3-large, Cohere embed-v4 (1,536-dim), Mistral-embed, Google gemini-embedding-001. Por debajo de ese nivel, text-embedding-3-small, Voyage 3, Jina v3, Cohere embed-v4-light, y la familia BGE de pesos abiertos se agrupan dentro de otros 2-3 puntos.

MTEB promedia entre 50+ tareas; tu corpus específico puede no coincidir con el promedio. La forma correcta de elegir: toma 100 consultas representativas de tu carga de trabajo real, ejecuta cada modelo candidato contra ellas, mide recall@k (con qué frecuencia el chunk correcto está en los k resultados principales) en un conjunto de oro etiquetado manualmente. El modelo que gana tu evaluación casi siempre difiere del que gana MTEB.

El recall ajustado por costo es la métrica correcta. Un modelo con 92% de recall a $0.02/1M generalmente es mejor que un modelo con 95% de recall a $0.18/1M — la mejora del 3% raramente justifica una prima de costo de 9x a menos que estés en barras de precisión extrema (médica, legal, seguridad).

Los rerankers complican aún más el panorama. Un modelo de embedding barato emparejado con un reranker fuerte (Cohere Rerank v3, Voyage Rerank-1) a menudo supera un modelo de embedding caro solo. Presupuesta la pasada de reranker — típicamente $1-3 por 1M pares rerankeados.

Costo de almacenamiento vectorial: generalmente mayor que la factura de embedding

La mayoría de equipos subestiman la factura de BD vectorial. Un índice típico de 10M vectores a 1,024 dim corre:

Pinecone serverless: ~$30-60/mes en planes estándar, más en niveles de producción con réplicas y QPS alto. Pinecone basado en pod: $70+/mes para el pod s1 más pequeño, escalando a cientos para pods más grandes.

Weaviate Cloud: ~$25/mes en nivel de entrada, escalando a $1,000+/mes para despliegues de producción.

Qdrant Cloud: ~$30-50/mes para especificaciones similares.

pgvector en Neon o Supabase: aproximadamente $0-50/mes a esta escala, dependiendo del nivel Postgres subyacente. Más barato pero la sintonización de rendimiento depende de ti.

Autohospedado (Chroma, Qdrant, Weaviate en Kubernetes): el costo de infraestructura típicamente es $100-300/mes a 10M vectores, más el tiempo de ingeniería para operar.

A 100M vectores cualquiera de estos puede alcanzar $500-5,000/mes. La factura de embedding a la misma escala es típicamente $50-200/mes. El almacenamiento es generalmente 10-50x el costo de embedding en producción — presupuesta en consecuencia. Ve las páginas de precios del proveedor para tasas actuales; se mueven trimestralmente.

Modelos de reranking en 2026 — precios, cuándo superan la actualización de embeddings, y matemática de $ trabajada

Los rerankers son el filtro de segunda etapa en un pipeline de recuperación moderno. Después de que tu modelo de embedding devuelve los 50 principales candidatos de la BD vectorial, un reranker puntúa cada par (consulta, documento) usando un modelo de codificador cruzado que lee ambas piezas de texto juntas — mucho más precisas que los embeddings bi-codificador, que codifican consulta y documento independientemente. El resultado es una lista reordenada donde los 5 principales son dramáticamente más propensos a contener el chunk correcto. Los precios en 2026 están escalonados claramente: Cohere Rerank v3 a $1.00 por 1M pares rerankeados es el líder en calidad; Voyage Rerank-1 corre aproximadamente $0.05 por 1,000 pares (es decir, $50 por 1M); Jina Reranker v2 tiene precio en $0.02 por 1M tokens (una unidad diferente — cuenta tokens entre consulta y documento, no pares); y el modelo rerank de pesos abiertos de MixedBread alojado vía Together AI se aproxima a $0.0005 por 1M tokens, la opción de grado de producción más barata.

La unidad importa. Las facturas de reranker cuentan pares, no tokens, en Cohere y Voyage. Un 'par' es una consulta combinada con un documento candidato. Si recuperas los 50 principales de la BD vectorial y los reranqueas contra una sola consulta, eso son 50 pares — no 50 × document_length tokens. Los precios basados en tokens de Jina leen diferente: un documento típico de 500 tokens más una consulta de 50 tokens son 550 tokens por par, así que 50 pares a 550 tokens = 27,500 tokens por consulta. A $0.02/1M de Jina eso es $0.00055 por consulta para el paso de rerank. En Cohere Rerank v3, 50 pares × $1/1M = $0.00005 por consulta. En Voyage Rerank-1, 50 pares × $50/1M = $0.0025 por consulta. El más barato es aproximadamente 50x más barato que el más caro, pero todos están bajo un centavo.

Un pipeline típico de recuperación RAG a escala tiene precio de forma limpia. Para una consulta de usuario única: embedifica la cadena de consulta (~50 tokens × $0.02/1M para text-embedding-3-small) = $0.000001. La búsqueda vectorial contra el índice es un costo de infraestructura fijo — llámalo $0.00001 del tiempo Pinecone serverless amortizado por consulta a 1M consultas/mes. Reranquea los 50 principales con Cohere Rerank v3 = $0.00005. Pasa los 5 chunks reranqueados superiores más la consulta del usuario al llamada LLM — a GPT-4.1 ($2/1M entrada, $8/1M salida) con 3,000 tokens de entrada y 500 tokens de salida, eso es $0.010 por consulta. La llamada LLM es la factura completa, aproximadamente 100-200x más grande que cada paso de recuperación combinado.

La ganancia de calidad del reranker a menudo supera la ganancia de actualizar el modelo de embedding. En una evaluación típica interna de base de conocimientos — 50,000 chunks, 200 consultas etiquetadas manualmente — text-embedding-3-small solo devolvió recall@5 de 78%. La actualización a text-embedding-3-large (un aumento de costo de 6.5x) la elevó a 83%. Mantener text-embedding-3-small y agregar Cohere Rerank v3 elevó recall@5 a 91% — una ganancia de 13 puntos a $0.00005 por consulta. El camino del reranker gana tanto en calidad como en costo total: $0.02/1M para embeddings más $1/1M-pares para rerank supera $0.13/1M para embeddings solo, mientras entrega 8 puntos más de recall. Este patrón se repite en la mayoría de benchmarks de recuperación públicos donde se reportan ablaciones de rerank.

El mecanismo es directo. Los embeddings comprimen significado en un vector fijo antes de ver la consulta — no pueden adaptar su representación a la pregunta que se está haciendo. Un reranker de codificador cruzado lee la consulta y el documento candidato juntos y produce una puntuación de relevancia condicionada a la consulta específica. Esa vista condicional atrapa casi-fallos que el paso de embedding clasifica de forma similar pero por razones irrelevantes (palabras clave de tema compartidas, fraseología similar, conceptos populares). En corpus con alta superposición léxica entre documentos irrelevantes — presentaciones legales, tickets de soporte, artículos académicos en subcampos adyacentes — la brecha del reranker sobre embeddings solo a menudo alcanza 15-20 puntos de recall@5.

Los rerankers no ayudan en cada caso. Tres patrones donde la pasada del reranker es gasto desperdiciado. Primero, corpus muy pequeños (menos de 5,000 chunks): el modelo de embedding solo confiablemente devuelve el chunk correcto en los 5 principales porque hay tan pocos candidatos para confundirlo. Segundo, corpus donde el modelo de embedding ya está en 95%+ recall@10 — el reranker tiene poco señal izquierdo para extraer y la penalidad de latencia (50-200ms por consulta para una llamada rerank remota) comienza a herir UX. Tercero, pipelines que ya combinan recuperación léxica (BM25) y semántica (vector) con fusión de rango recíproco: el paso híbrido cubre la mayoría de los modos de fallo que un reranker podría atrapar, y la ganancia de recall marginal típicamente cae por debajo de 2 puntos. Mide antes de agregar la pasada.

Matemática de $ trabajada para una aplicación RAG de producción a 1M consultas por mes. Sin reranker: 1M × ($0.000001 embed + $0.00001 búsqueda vectorial + $0.010 LLM) = $10,011/mes, con aproximadamente 78% recall top-5. Con Cohere Rerank v3: 1M × ($0.000001 embed + $0.00001 búsqueda vectorial + $0.00005 rerank + $0.010 LLM) = $10,061/mes, con 91% recall top-5. El reranker agrega $50/mes — aproximadamente 0.5% del gasto total — y agrega 13 puntos de recall. Con Voyage Rerank-1 la línea de rerank salta a $2,500/mes, aún bajo 25% del gasto total, con recall ligeramente superior en evaluaciones internas de Voyage. Con pesos abiertos de MixedBread vía Together: la línea de rerank es aproximadamente $14/mes a este volumen — efectivamente gratis relativo a la factura de LLM. El reranker más barato rara vez es el mejor en calidad, pero cada opción en 2026 es lo suficientemente pequeña que la opción debe ser impulsada por recall@k en tu propia evaluación, no por $/1M.

Dos notas prácticas para presupuestar. La latencia del reranker se suma: Cohere Rerank v3 devuelve en 80-150ms para 50 candidatos; Voyage Rerank-1 se aproxima a 200ms; los rerankers de pesos abiertos autohospedados en una sola GPU pueden devolver en 30-50ms pero requieren que operes la infraestructura. Si tu presupuesto de consulta de extremo a extremo es menor a 800ms, una pasada de rerank remota quema 15-25% del presupuesto. Segundo, el reranking es uno de los pocos componentes de RAG que se benefician del almacenamiento en caché a nivel de par: pares (consulta, documento) idénticos devuelven puntuaciones idénticas, así que un pequeño caché de Redis frente al reranker a menudo corta la factura 30-50% en aplicaciones con consultas repetidas. Ve la calculadora de costos de GPT vs Claude vs Gemini para dimensionar el paso LLM que domina el resto del stack.

Elegir un modelo de embedding: un atajo de decisión

Predeterminado para la mayoría de equipos: text-embedding-3-small a 1,536 dim. Mejor relación $/recall en 2026 para contenido general en inglés, bien soportado en herramientas de BD vectorial, tasas predecibles.

Cambia a text-embedding-3-large o Voyage 3 Large cuando: tu corpus es de alto riesgo (legal, médico, técnico), tu benchmark de recall muestra que la brecha del 3-7% importa, o ya has agotado optimizaciones más baratas (mejor chunking, reescritura de consulta, rerankers).

Cambia a Voyage Code 3 cuando: tu recuperación es sobre código o documentación técnica, donde los embeddings optimizados para dominio superan consistentemente el uso general por 10-20%.

Cambia a Cohere embed-v4 cuando: la cobertura multilingüe importa (Cohere históricamente ha liderado en recuperación en no-inglés) o necesitas embeddings de entrada de imagen (una de las pocas opciones de grado de producción multimodal).

Cambia a DeepInfra BGE o Jina v3 cuando: el costo es la restricción principal y la calidad de recall en tu corpus específico es aceptable. Para búsqueda interna sobre una base de conocimientos de 5M documentos, la diferencia vs text-embedding-3-small a menudo es invisible.

Lo que sea que elijas, prueba reranking — generalmente compra más recall que actualizar el modelo de embedding. Para redactar consultas más limpias que sobrevivan a un modelo de embedding más barato, nuestro constructor de prompts de código y generador de meta-descripción ayudan a comprimir consultas de recuperación.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Precios de OpenAI API 2026→Calculadora de Costos de GPT vs Claude vs Gemini→Calculadora de Costos de Prompts de IA→Calculadora de Costos de Fine-Tuning 2026→

Frequently Asked Questions

¿Cuál es el modelo de embedding más barato en 2026?

BGE-large-en-v1.5 alojado en DeepInfra a $0.005/1M tokens es la opción alojada más barata para inglés general. Entre las opciones propietarias principales, text-embedding-3-small de OpenAI a $0.02/1M y Jina v3 a $0.018/1M lideran. Confirma tasas en la página de precios activos de cada proveedor.

¿Vale la pena la prima de costo de 6.5x de text-embedding-3-large sobre 3-small?

A veces. En benchmarks de recuperación difíciles 3-large gana por 3-7% — significativo para búsqueda de alto riesgo, marginal para consulta de base de conocimientos general. Ejecuta una evaluación recall@k en 100 consultas representativas; si la brecha es menor al 2% en tu corpus, 3-small gana en costo.

¿Cuánto cuesta embedificar 1M chunks?

A 500 tokens por chunk = 500M tokens. Con text-embedding-3-small ($0.02/1M) cuesta $10. Con text-embedding-3-large ($0.13/1M) cuesta $65. Con Voyage 3 Large ($0.18/1M) cuesta $90. Costo único en prácticamente todos los casos — embedding raramente es el cuello de botella del presupuesto.

¿Qué es la dimensión vectorial y por qué importa?

La dimensión es la longitud de cada vector de embedding — típicamente 384 a 4,096. Impulsa el costo de almacenamiento (linealmente), latencia de consulta (levemente), y calidad de recuperación descendente (a veces). Los embeddings al estilo Matryoshka te permiten truncar a una dimensión más corta con costo de recall menor; 768-1,024 dim es el punto dulce para la mayoría de recuperación general.

¿Debo usar embeddings de Voyage, Cohere u OpenAI?

Predeterminado a OpenAI text-embedding-3-small para inglés general. Cambia a Voyage 3 Large si tu corpus es técnico o contexto largo (32k entrada). Cambia a Cohere embed-v4 si necesitas multilingüismo o entrada de imagen. Ejecuta una evaluación recall@k para confirmar — la respuesta correcta difiere por corpus.

¿Cuánto cuesta la base de datos vectorial?

Generalmente 5-20x la factura de embedding a escala de producción. Un índice de 10M vectores corre aproximadamente $30-100/mes en proveedores administrados (Pinecone, Weaviate, Qdrant Cloud) o $0-50/mes en pgvector + Supabase. Presupuesta almacenamiento al comienzo del proyecto, no al final.

¿Ayudan los modelos de reranking más que actualizar el modelo de embedding?

Casi siempre, sí. Agregar Cohere Rerank v3 o Voyage Rerank-1 a un pipeline de embedding barato típicamente compra más recall@k que actualizar de text-embedding-3-small a text-embedding-3-large. Los rerankers cuestan $1-3 por 1M pares rerankeados; presupuesta la pasada adicional.

¿Cómo estimo el costo de embedding antes de indexar?

Suma el recuento de tokens entre tu corpus (usa el tokenizador del modelo o estima palabras ÷ 0.75), divide por 1M, multiplica por la tasa $/1M del modelo. Para RAG chunked, multiplica el recuento de chunks × tokens-por-chunk primero. Para costo de consulta en tiempo real, repite con volumen mensual de consultas × tokens-por-consulta.

¿Cuánto cuesta agregar un reranker a mi pipeline RAG?

Cohere Rerank v3 es $1 por 1M pares reranqueados — a top-50 rerank por consulta, eso es $0.00005 por consulta, u $50/mes a 1M consultas. Voyage Rerank-1 es aproximadamente $50 por 1M pares ($0.0025/consulta a top-50). Jina Reranker v2 es $0.02 por 1M tokens (cuenta texto de consulta y documento). MixedBread pesos abiertos vía Together AI corre cerca de $0.0005 por 1M tokens — efectivamente gratis a la mayoría de volúmenes de producción.

¿Un reranker cuenta documentos o tokens?

Depende del proveedor. Cohere Rerank v3 y Voyage Rerank-1 facturan por par — un par es una combinación (consulta, documento), independientemente de la longitud del documento. Reranquear los 50 principales contra una consulta son 50 pares. Jina Reranker factura por token, sumando tokens de consulta y documento entre todos los pares. Un documento de 500 tokens más una consulta de 50 tokens son 550 tokens por par; 50 pares a 550 tokens = 27,500 tokens por consulta.

¿Cuándo un reranker NO vale la pena agregar?

Tres casos. (1) Corpus bajo 5,000 chunks — el paso de embedding solo generalmente encuentra el chunk correcto en top-5 porque hay pocos candidatos para confundirlo. (2) Pipelines ya a 95%+ recall@10 — el reranker tiene poco señal izquierdo y agrega 50-200ms de latencia. (3) Recuperación híbrida léxica + semántica con fusión de rango recíproco ya desplegada — el paso híbrido cubre la mayoría de modos de fallo y la ganancia de recall marginal típicamente cae por debajo de 2 puntos. Mide recall@k con y sin antes de comprometerte.

Obtén la hoja de trucos de embeddings 2026

PDF de una página con cada modelo de embedding $/1M, dimensión vectorial, entrada máxima y nivel de recall — gratis, sin puerta de registro.

Browse all prompt tools →