Por El Equipo de DDH · Digital Dashboard Hub

Calculadora de Costos de Embeddings (2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Los embeddings son la capa más barata de un stack de IA — centavos por millón de tokens — pero a escala se suman. A partir de junio de 2026, los precios por 1M tokens varían desde $0.02 (Voyage 3.5-lite, OpenAI text-embedding-3-small) hasta $0.20 (Google gemini-embedding-2). Esa es una diferencia de 10x, y el modelo correcto para tu barra de calidad de recuperación a menudo no es el más caro.

Tres modelos de precios en el mercado. **OpenAI** y **Voyage** cobran una tarifa plana por 1M tokens que multiplicas por tu corpus embedido. **Google Gemini** ofrece un nivel gratuito (sujeto a límites de velocidad) más tasas pagadas por 1M tokens, más un nivel Batch con 50% de descuento. **Cohere** ha trasladado Embed 4 a precios basados en instancias (Model Vault a $4-5/hora o mensualmente), lo que hace que el cálculo de costo por token sea inutilizable — consulta la sección de Cohere para la forma de comparación.

A continuación: la tabla de precios canónica para OpenAI / Voyage / Google (Cohere desglosado por separado), la fórmula canónica de costo de embedding, cuatro ejemplos funcionales (1M tokens, 100M tokens, 1B tokens, una reconstrucción completa de corpus RAG), el costo de almacenamiento que la mayoría de equipos subestiman, y el selector de modelos por nivel de calidad de recuperación. Escribe prompts de consulta de embedding eficientes (consultas más limpias → menos ejecuciones de redo) con nuestro generador de prompts de ChatGPT gratuito. Calculadoras hermanas: costo de OpenAI API · costo de Claude API · costo de generación de imágenes.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Precio del modelo de embedding por 1M tokens — junio de 2026

Feature	Proveedor	Precio de entrada ($/1M tokens)	Dimensiones
OpenAI text-embedding-3-small	OpenAI	$0.02	1,536 (configurable hasta 256)
OpenAI text-embedding-3-large	OpenAI	$0.13	3,072 (configurable hasta 256)
Voyage voyage-3.5-lite	Voyage AI	$0.02	1,024
Voyage voyage-3.5	Voyage AI	$0.06	1,024 (configurable)
Voyage voyage-3-lite	Voyage AI	$0.02	512
Voyage voyage-3	Voyage AI	$0.06	1,024
Voyage voyage-3-large	Voyage AI	$0.18	1,024 (alta precisión)
Google gemini-embedding-001	Google	$0.15 ($0.075 batch)	3,072
Google gemini-embedding-2	Google	$0.20 ($0.10 batch)	3,072

Fuentes, a partir de junio de 2026: precios de OpenAI (developers.openai.com/api/docs/pricing — nota: text-embedding-3 fue omitido de la instantánea de página en vivo verificada; las tasas anteriores son los números largos y estables de Precios-de-2024 utilizados por costgoat.com y confirmados por referencias comunitarias; verifica antes de publicar presupuestos de alto volumen), precios de Voyage AI (docs.voyageai.com/docs/pricing), precios de Google Gemini API (ai.google.dev/gemini-api/docs/pricing). Cohere Embed 4 ha pasado a precios de instancia (Model Vault) — consulta la sección dedicada de Cohere. Los recuentos de tokens son solo de entrada; los embeddings no tienen facturación de token de salida.

La fórmula de costo (una línea — sin sorpresas)

El costo de embedding es la matemática más simple en el stack de LLM — no hay facturación de token de salida, sin capa de caché, sin cargo por lote excepto donde se note explícitamente. La fórmula:

``` cost = (total_tokens / 1,000,000) × price_per_M_tokens ```

Estima `total_tokens` a partir del recuento de caracteres de tu corpus: 1 token ≈ 4 caracteres de inglés. Un corpus de documentos de 10M palabras son aproximadamente 13.3M tokens (10M × proporción de palabra a token de 1.33). Una base de datos de productos de 100k filas con descripciones de 200 palabras es ~26.7M tokens.

Re-embedding (cuando cambias modelos, cambias la estrategia de chunking o reconstruyes tu índice de vectores) cobra el corpus completo nuevamente. Planifica al menos una reconstrucción durante el ciclo de vida de cualquier sistema RAG de producción — un corpus de 100M tokens a $0.13/1M es $13 para re-embedir, pero un corpus de 10B tokens es $1,300, que se convierte en un verdadero elemento de línea.

Lo que NO está en la factura: almacenamiento de vectores (cubierto en su propia sección a continuación), embedding de tiempo de consulta (cada consulta del usuario obtiene su propio costo de embedding en el lado de lectura), y operaciones de base de datos en tiempo de recuperación (tarifa de alojamiento de BD de vectores — Pinecone, Weaviate, Qdrant, pgvector — varía según el proveedor). El costo de embedding es solo la llamada del modelo.

Ejemplo funcional 1: un corpus de 1M tokens (índice pequeño, ~750k palabras)

Un corpus de 1M tokens es un proyecto típico en solitario — un archivo de notas personal, un catálogo de productos pequeño, un índice de documentos internos de ~750k palabras.

OpenAI text-embedding-3-small: 1 × $0.02 = **$0.02** (sí, dos centavos). text-embedding-3-large: 1 × $0.13 = **$0.13**.

Voyage voyage-3.5-lite: $0.02. voyage-3.5: $0.06. voyage-3-large: $0.18.

Google gemini-embedding-001 estándar: $0.15. Nivel Batch: $0.075.

A esta escala, la diferencia de costo es error de redondeo. La opción correcta es la calidad, no el precio — elige el modelo que alcance tu barra de precisión de recuperación en un conjunto de evaluación de 20 consultas. Para la mayoría de índices a escala solo, text-embedding-3-small o voyage-3.5-lite manejan la carga de trabajo en $0.02.

Ejemplo funcional 2: un corpus de 100M tokens (sistema RAG medio)

Un corpus de 100M tokens representa un RAG de producción de tamaño medio — una base de conocimiento SaaS, un índice de tickets de soporte de medio volumen, una biblioteca de documentos regulatorios.

OpenAI text-embedding-3-small: $2. text-embedding-3-large: $13.

Voyage 3.5-lite: $2. voyage-3.5: $6. voyage-3-large: $18.

Google gemini-embedding-2 estándar: $20. Batch: $10.

Todavía dólares pequeños en absoluto. Ahora importa más la evaluación — con 100M tokens tienes suficientes datos para ejecutar un verdadero benchmark de calidad de recuperación (recall@10, MRR, DCG normalizado) en cada modelo. La mayoría de equipos encuentran que voyage-3-large o text-embedding-3-large superan materialmente sus hermanos más baratos en corpus técnicos o específicos del dominio; los corpus de consumidor/marketing a menudo no ven diferencia.

Ejemplo funcional 3: un corpus de 1B tokens (RAG empresarial)

Un corpus de 1B tokens es un sistema RAG empresarial — un almacén de documentos completo, un centro de ayuda multiproducto, un archivo de tickets de soporte de años.

OpenAI text-embedding-3-small: $20. text-embedding-3-large: $130.

Voyage 3.5-lite: $20. voyage-3.5: $60. voyage-3-large: $180.

Google gemini-embedding-2 estándar: $200. Batch: $100.

Ahora las diferencias de precio son elementos de presupuesto reales. La calidad de recuperación importa aún más porque una caída del 10% en recall en un corpus de 1B tokens significa que estás perdiendo miles de documentos relevantes por consulta. Ejecuta la evaluación; elige el modelo más barato que alcance tu barra.

Importante: costo de re-embedding. Si cambias modelos o estrategia de chunking a mitad del ciclo de vida, pagas el costo completo del corpus nuevamente. Planifica presupuesto anual a 1.5x el costo de primer embedding para cubrir al menos una reconstrucción — tiempo típico para actualizaciones de modelos importantes.

Ejemplo funcional 4: presupuesto completo de operación RAG (corpus de 1B tokens + 1M consultas/mes)

El costo de embedding es la mitad de la factura en un RAG real. La otra mitad es embedding de tiempo de consulta: cada consulta del usuario obtiene su propia llamada de embedding antes de la búsqueda de vectores.

Toma un corpus de 1B tokens en text-embedding-3-large + 1M consultas de usuario/mes en ~50 tokens cada una (50M tokens de consulta/mes):

Costo de embed único: $130. Embeddings de tiempo de consulta: 50 / 1 × $0.13 = $6.50/mes — básicamente gratis.

Compara con híbrido text-embedding-3-small + voyage-3-large reranking: $20 (única) + 50M × $0.18/1M = $9/mes para embeddings de consulta (asume que voyage maneja el lado de consulta).

Añade alojamiento de BD de vectores: Pinecone serverless a $0.50/1M lecturas + $0.05/M escrituras — para 1M consultas/mes, ~$0.50 lecturas, más almacenamiento de índice que escala con recuento de dimensión de vector. Un corpus de 1B tokens de fragmentos de 1,000 tokens = 1M vectores de 3,072 dim × 4 bytes = ~12 GB; a $0.10/GB/mes son $1.20/mes.

**Factura RAG mensual total (excluyendo llamada de LLM después de recuperación)**: ~$8 tiempo de consulta + $1.20 almacenamiento = $9-10/mes, con un costo de embedding inicial de $130. La capa de modelo (Sonnet 4.6 o gpt-5.4 en el contexto recuperado) es donde vive la factura real — el lado de recuperación es barato en comparación.

El costo de almacenamiento que la mayoría de equipos olvida presupuestar

Las dimensiones de vector importan para el almacenamiento. Un embedding de 3,072 dim (predeterminado de text-embedding-3-large) es 12,288 bytes por vector en float32 — un índice de 1M vectores es ~12 GB. Un embedding de 1,024 dim (predeterminado de Voyage, OpenAI configurable hacia abajo) es ~4 GB para los mismos 1M vectores — 3x más barato de almacenar.

OpenAI text-embedding-3 es compatible con el parámetro `dimensions` para configurar hasta 256 — útil cuando el costo de almacenamiento domina. Voyage voyage-3.5 es compatible con reducción de dimensión. El tradeoff: dims más bajos = calidad de recuperación más baja en consultas difíciles. Prueba en tu evaluación antes de reducir.

Los modelos de precios de BD de vectores varían ampliamente. Pinecone serverless precios tanto lecturas como almacenamiento. Qdrant Cloud los agrupa. pgvector en Postgres administrado es una factura de Postgres de tarifa plana. Para un corpus de 1B tokens con consultas diarias, espera $50-500/mes alojamiento de BD de vectores según recuento de dim, volumen de consulta y proveedor — a menudo más que el costo de embedding en sí.

Cohere Embed 4: precios de instancia en lugar de por token

Cohere trasladó Embed 4 al precio de instancia Model Vault en 2026 — rentas capacidad dedicada en lugar de pagar por token. A partir de junio de 2026: instancia pequeña $4/hora o $2,500/mes, instancia mediana $5/hora o $3,250/mes.

La matemática: una instancia está 'siempre activa' independientemente de la utilización. Pequeña a $2,500/mes es el punto de equilibrio con text-embedding-3-large solo por encima de 19.2M tokens/día (576M/mes). Por debajo de ese volumen, los proveedores por token son más baratos.

La característica distintiva de Embed 4 es multilingüe + multimodal — texto + imagen + embeddings de tabla en un solo modelo. Si tu corpus es muy multilingüe o incluye tablas estructuradas, la prima por instancia puede valer la pena por la calidad de recuperación. Para corpus solo de texto en inglés, OpenAI o Voyage serán más baratos.

Cohere también tiene una opción de instancia más pequeña embed-multilingual-light para volúmenes más bajos — consulta cohere.com/pricing para ver las opciones actuales.

Costo de re-embedding: la línea de ciclo de vida que nadie planifica

Cada RAG de producción alcanza al menos un evento de re-embed en sus primeros 18 meses. Los disparadores: un modelo mejor se envía (text-embedding-3-large a un futuro text-embedding-4, o voyage-3 a voyage-4); un cambio de estrategia de chunking (pasar de fragmentos de 512 tokens a 1,024 tokens, o cambiar de tamaño fijo a recursivo); se lanza un fine-tune específico del dominio por el proveedor; un cambio en dimensionalidad (3,072 → 1,536 para reducir almacenamiento a la mitad). Cada evento cobra el corpus completo nuevamente.

Planifica presupuesto anual a 1.5x el costo de primer embedding. Para un corpus de 1B tokens en text-embedding-3-large, el primer embedding es $130. El presupuesto anual debe ser ~$195 — suficiente para una reconstrucción completa más el embedding del lado de consulta en estado estable. Corpus más grandes y dominios de investigación que se mueven más rápido pueden necesitar 2x.

Mitigación: ejecuta la evaluación antes de comprometerte. Si el nuevo modelo solo eleva retrieval @10 en 2-3 puntos porcentuales en tu evaluación, la reconstrucción puede no valer el costo o el tiempo de inactividad. Si eleva 8-12 puntos, reconstruye inmediatamente y programa la migración por fases durante horas no pico.

Las reconstrucciones por fases son el patrón de producción. Embede el nuevo corpus junto al antiguo, ejecuta recuperación dual en producción durante una semana con monitoreo de calidad, cambia el índice una vez que tengas confianza, desactiva el índice antiguo. El costo de almacenamiento temporal de 2x es el precio de una migración segura.

Los 5 patrones de producción que vemos en equipos reales

**Patrón 1 — proyecto en solitario, text-embedding-3-small solo.** Los equipos de hobby y proyectos secundarios predeterminan text-embedding-3-small de OpenAI a $0.02/1M. Costo mensual total bajo $5 para casi cualquier corpus. Sin optimización necesaria; envía e itera.

**Patrón 2 — RAG SaaS, voyage-3 + Pinecone serverless.** Los equipos de producción de tamaño medio eligen voyage-3 a $0.06/1M por el punto dulce de calidad por dólar, emparejado con Pinecone serverless para almacenamiento. Factura mensual: $50-200 para el trabajo de embedding, $30-100 para alojamiento de vectores. Stack total: ~$200/mes a volumen típico de mercado medio.

**Patrón 3 — RAG empresarial, text-embedding-3-large + pgvector.** Los equipos empresariales con infraestructura Postgres existente ejecutan text-embedding-3-large a $0.13/1M, almacenan vectores en pgvector dentro de su Postgres administrado. Tradeoff: pgvector es ligeramente más lento que BDs de vectores de propósito específico a escala pero elimina una relación de proveedor y una superficie de revisión de seguridad.

**Patrón 4 — RAG multilingüe, gemini-embedding-2 + Vertex AI.** Los equipos con corpus multilingüe serio (legal en jurisdicciones, contenido de soporte global, documentos de productos multi-región) aterrizan en gemini-embedding-2 de Google por calidad multilingüe nativa + el ajuste del ecosistema Vertex AI.

**Patrón 5 — recuperación híbrida, text-embedding-3-small + reranking voyage-3-large.** Los equipos sofisticados usan un modelo de embedding barato para recuperación de primer paso (recall) más un modelo premium o cross-encoder para reranking de segundo paso (precisión). text-embedding-3-small a $0.02/1M para embedding de índice, voyage-3-large a $0.18/1M para el top-50 reranking — mejor calidad por dólar a volúmenes altos.

El selector de modelo: qué modelo de embedding para qué trabajo

**Barato + bueno**: text-embedding-3-small ($0.02/1M) o voyage-3.5-lite ($0.02/1M). Usa para proyectos en solitario, prototipos, RAG de bajo riesgo. Indistinguible de modelos premium en la mayoría de corpus de grado consumidor.

**Punto dulce**: voyage-3.5 ($0.06/1M) o voyage-3 ($0.06/1M). Calidad de recuperación fuerte a 3x el costo de lite. Usa para RAG de producción donde la calidad de recuperación importa pero no puedes justificar el nivel premium.

**Precisión premium**: voyage-3-large ($0.18/1M) o text-embedding-3-large ($0.13/1M). Alcanza estos cuando la calidad de recuperación es crítica para la misión (legal, médica, financiera) y el volumen justifica la prima. text-embedding-3-large a $0.13 es el mejor precio por calidad en el nivel alto para inglés; voyage-3-large supera en corpus multilingüe y específicos del dominio.

**Multilingüe / multimodal**: Google gemini-embedding-2 (multilingüe nativo) o Cohere Embed 4 (texto + imagen + tablas). Usa cuando tu corpus cruza idiomas o incluye datos estructurados.

Metodología de obtención de fuentes — y qué explícitamente omitimos

Los precios por token en la tabla provienen de la página de precios en vivo de cada proveedor: Voyage AI (docs.voyageai.com/docs/pricing), Google Gemini (ai.google.dev/gemini-api/docs/pricing), obtenidos 2026-06-20. Los precios de Voyage se han mantenido estables durante 2026; la gemini-embedding-001 de Google se agregó al nivel de precios estándar junto con gemini-embedding-2 a principios de 2026 con el nivel batch al 50% de descuento.

**OpenAI text-embedding-3-small / -large**: no en la instantánea de página de precios verificada en vivo de 2026-06-20 (la instantánea se enfocó en modelos de chat). Las tasas anteriores ($0.02 / $0.13) coinciden con lo que costgoat.com, livechatai.com e integraciones de repositorio de código abierto reciente citan, y han sido estables desde el lanzamiento de 2024. Las incluimos con esta advertencia. **Verifica** en developers.openai.com/api/docs/pricing antes de presupuestar gasto de embedding de seis cifras.

**Cohere**: Embed 4 ha pasado al precio de instancia Model Vault en lugar de por token. No incluimos Cohere en la tabla por token porque la forma de comparación es fundamentalmente diferente. Úsalo donde la calidad multilingüe / multimodal justifique el compromiso de instancia, o donde tienes el volumen para amortizar la base de $2,500-3,250/mes.

**Lo que no incluimos**: embeddings de AWS Bedrock (varía según la región y margen de revendedor), embeddings de Mistral (aún en la fase inicial de 'gratuita durante vista previa' a partir de junio de 2026), embeddings de código abierto autohospedados (sin precio hospedado; el costo depende completamente de tu infraestructura). Para la mayoría de equipos de producción, la tríada OpenAI / Voyage / Google cubre 90%+ de decisiones.

**Verifica en vivo trimestralmente** si tu factura de embedding excede $500/mes. Los precios en este mercado han sido más estables que los precios de modelos de chat pero aún cambian — Voyage 3.5 se lanzó a una tasa más alta en 2025 y bajó a $0.06 dentro de meses.

Cinco preguntas para responder antes de elegir un modelo

**1. ¿Cuál es el idioma dominante de tu corpus?** Solo inglés → OpenAI o Voyage. Multilingüe → Google gemini-embedding o Cohere Embed 4. Específico del dominio (legal, médica) → Voyage 3-large o una alternativa sintonizada por dominio.

**2. ¿Cuál es el tamaño total de tu corpus?** Menos de 100M tokens → elige por calidad, el costo es negligible. 100M-1B → ejecuta una evaluación; los diferenciales de precio 6-10x comienzan a importar. 1B+ → prioriza la planificación de presupuesto de re-embedding sobre el precio por token.

**3. ¿Qué barra de calidad de recuperación necesitas?** Construye un conjunto de evaluación retenido de 20-50 consultas, ejecuta cada modelo candidato, mide recall@10 y MRR. Los modelos baratos (text-embedding-3-small, voyage-3.5-lite) a menudo coinciden con premium en corpus de consumidor. La prima paga en trabajo duro/técnico/multilingüe.

**4. ¿Qué almacén de vectores mantendrá el índice?** Pinecone, Qdrant, Weaviate, pgvector, Milvus. Cada uno tiene diferente costo de almacenamiento por dim. text-embedding-3 admite reducción de dimensión a través del parámetro dimensions; voyage-3.5 también. Dims más pequeños = almacenamiento más barato pero recall más bajo en consultas difíciles.

**5. ¿Va el costo de embedding de tiempo de consulta a dominar?** A 10M consultas/mes con consultas de 50 tokens, eso es 500M tokens/mes de embedding de consulta — $10 en text-embedding-3-large, $40 en gemini-embedding-2. Por debajo del costo de embedding de corpus para la mayoría de equipos, pero vale la pena presupuestar.

Estimando cualquier costo de embedding en 5 pasos

1
Contar tokens del corpus
Recuento de caracteres ÷ 4 = tokens de entrada aproximados. Un corpus de 10M palabras es ~13.3M tokens. Una base de datos de 100k filas con descripciones de 200 palabras es ~26.7M tokens. Obtén este número primero; todo lo demás sigue.
2
Elige un modelo que alcance tu barra de calidad de recuperación
Ejecuta una evaluación de 20 consultas contra 2-3 modelos candidatos. Barato (text-embedding-3-small, voyage-3.5-lite) a menudo coincide con premium en corpus de consumidor. Premium (voyage-3-large, text-embedding-3-large) gana en trabajo técnico, multilingüe o de alto riesgo.
3
Aplica la fórmula
cost = total_tokens / 1,000,000 × price_per_M. Un corpus de 100M tokens en text-embedding-3-large = 100 × $0.13 = $13. La matemática es intencionalmente aburrida.
4
Añade presupuesto de embedding de tiempo de consulta
Cada consulta del usuario obtiene su propia llamada de embedding. 1M consultas × 50 tokens cada una = 50M tokens. A $0.13/1M = $6.50/mes. Pequeño en relación al embedding del corpus, pero recurrente.
→ Open the Generador de prompts de ChatGPT (consultas limpias)
5
Presupuesta almacenamiento de vectores por separado
El almacenamiento escala con el recuento de dim. 3,072 dim × 4 bytes × N vectores. Un índice de 1M vectores de 3,072 dim es ~12 GB. Usa el parámetro `dimensions` de OpenAI (configurable hasta 256) cuando el costo de almacenamiento domina y tu evaluación lo permite.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Generador de prompts de ChatGPT (consultas limpias)→Calculadora de costo de API de OpenAI→Calculadora de costo de API de Claude→Embeddings profundidad (guía anterior)→

Frequently Asked Questions

¿Cuánto cuesta embedir 1 millón de tokens en 2026?

Camino más barato: $0.02 en OpenAI text-embedding-3-small o Voyage voyage-3.5-lite. Nivel intermedio: $0.06 en Voyage voyage-3.5. Premium: $0.13 (OpenAI text-embedding-3-large) a $0.18 (Voyage voyage-3-large). Google gemini-embedding-2 es $0.20 estándar, $0.10 batch. Fuentes de la página de precios en vivo de cada proveedor.

¿Cuál es el modelo de embedding más barato que aún tiene buena calidad de recuperación?

OpenAI text-embedding-3-small ($0.02/1M) maneja la mayoría de RAG de grado consumidor sin pérdida de calidad medible vs modelos premium. Voyage voyage-3.5-lite ($0.02/1M) es una opción barata igualmente fuerte, especialmente para corpus técnico/específico del dominio. Ejecuta una evaluación de 20 consultas en tu corpus real antes de asumir que necesitas el nivel premium.

¿Cuánto costará embedir 1 mil millones de tokens?

$20 en text-embedding-3-small. $130 en text-embedding-3-large. $180 en voyage-3-large. $200 en gemini-embedding-2 estándar ($100 batch). El nivel barato es a menudo suficiente — solo prueba contra modelos premium cuando la calidad de recuperación importa a alto riesgo.

¿Los embeddings tienen costos de token de salida?

No. Los APIs de embedding cobran solo para tokens de entrada. La 'salida' (el vector) está incluida en el precio de entrada. Esta es la forma de costo más simple en el stack de LLM.

¿Cuánto cuesta Cohere Embed 4 en 2026?

Cohere trasladó Embed 4 al precio de instancia Model Vault — $4/hora o $2,500/mes para la instancia pequeña, $5/hora o $3,250/mes para mediana. Por encima de ~576M tokens/mes, Cohere se vuelve competitivo con proveedores por token. Por debajo de ese volumen, OpenAI o Voyage son más baratos. La ventaja de Cohere es embeddings multilingüe y multimodal.

¿Cuál es la diferencia de costo entre text-embedding-3-small y text-embedding-3-large?

text-embedding-3-large cuesta 6.5x más por token ($0.13 vs $0.02). La diferencia de calidad depende del corpus. En corpus de consumidor inglés la brecha es a menudo negligible. En corpus técnico, multilingüe o de alto riesgo el modelo grande mejora materialmente la recuperación @10. Ejecuta una evaluación cara a cara antes de comprometerte con el nivel premium.

¿Debo usar la API Google Gemini Batch para embeddings?

Sí si tu trabajo de embedding es asincrónico. El nivel Batch de Google Gemini es 50% de descuento ($0.10/1M vs $0.20/1M en gemini-embedding-2). Mismo modelo, misma calidad, ventana de finalización de 24 horas. Perfecto para embedding de corpus inicial o reconstrucciones periódicas — no para embedding de tiempo de consulta.

¿Necesito re-embedir cuando cambio de modelos?

Sí. Los embeddings son específicos del modelo — un vector de text-embedding-3-large está en un espacio diferente al de voyage-3-large y no puede ser comparado significativamente. Cambiar modelos significa re-embedir el corpus completo. Presupuesta anual a 1.5x el costo de primer embedding para cubrir al menos una reconstrucción de actualización de modelo.

Embeddings baratos + consultas limpias = el RAG más barato que puedes enviar.

La estructura de prompt de tiempo de consulta determina recall (y costo de re-embedding). Nuestro Generador de Prompts de IA escribe patrones de consulta eficientes para OpenAI / Voyage / Cohere / Google embeddings — menos tokens, mayor precisión, menos ejecuciones de redo. Prueba gratuita de 14 días, sin tarjeta.

Browse all prompt tools →