Por el equipo DDH · Digital Dashboard Hub

Coste de consulta RAG (2026): El desglose completo del stack

By The DDH Team at Digital Dashboard Hub·Updated June 20, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Una única consulta RAG toca cuatro servicios de pago en secuencia: el modelo de embedding (para vectorizar la pregunta del usuario), la base de datos vectorial (para recuperar fragmentos relevantes), un reranker opcional (para reordenar los resultados recuperados por relevancia) y el LLM (para generar una respuesta fundamentada a partir del contexto recuperado). Los equipos que construyen sistemas RAG por primera vez casi siempre subestiman la capa LLM y sobrestiman la capa de recuperación. La llamada LLM típicamente representa el 85-95% del coste total por consulta.

A partir de junio de 2026, una consulta RAG típica de producción cuesta $0,015–$0,025 de extremo a extremo con longitudes de contexto modestas (3.000 tokens de entrada para el LLM, 500 tokens de salida). El desglose: ~$0,000001–0,000009 embedding, ~$0,0000083 lectura vectorial (Pinecone Serverless), ~$0,001 reranking (opcional) y $0,013–0,021 generación LLM. A 1M consultas/mes, eso es una factura mensual de $15.000–25.000 — casi completamente impulsada por el LLM.

Esta página cubre el coste del lado de la consulta. Para el coste ascendente de construir tu índice vectorial — lo que pagaste para embeddings tu corpus y almacenar los vectores — consulta la calculadora de coste de Vector DB y la calculadora de coste de embeddings. Para la comparación del modelo de embedding que afecta tanto el indexado del corpus como el coste del embedding del lado de la consulta, consulta Cohere vs OpenAI embedding cost. Para una guía de arquitectura RAG práctica, consulta nuestro árbol de decisiones de arquitectura RAG.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Coste por componente de consulta RAG — junio 2026

Feature	Componente	Coste típico por consulta	Ejemplo de proveedor
Query embedding	$0,000001–$0,000009	OpenAI text-embedding-3-small @ $0,02/1M; Voyage 3-large @ $0,18/1M	~50 tokens por consulta; negligible vs capa LLM
Vector DB read	$0,0000083–$0,00005	Pinecone Serverless @ $8,25/1M lecturas	El coste del cluster Weaviate/Qdrant se amortiza, no por consulta
Reranker (opcional)	$0,001	Cohere Rerank @ $1/1.000 consultas	Aumenta la precisión del recall; coste es 50-100x el paso de embedding
LLM generation (domina)	$0,013–$0,070	Sonnet 4.6 @ $3/$15 por M entrada/salida; gpt-4.1 @ $2/$8 por M entrada/salida	3.000 entrada + 500 salida tokens típicos; la longitud del contexto impulsa la factura
Total (sin reranker)	$0,013–$0,021	Sonnet 4.6 con Pinecone Serverless + OpenAI small embedding	LLM es el 85-95% del coste total
Total (con reranker Cohere)	$0,014–$0,022	Añade $0,001/consulta al anterior	Reranker aumenta total ~5-7%

Fuentes a partir de junio 2026: precios de embeddings OpenAI (developers.openai.com/api/docs/pricing — text-embedding-3-small $0,02/1M, text-embedding-3-large $0,13/1M); embeddings Voyage AI (docs.voyageai.com/docs/pricing — voyage-3-large $0,18/1M); lecturas Pinecone Serverless ($8,25/1M unidades de lectura, pinecone.io/pricing); precios Cohere Rerank (cohere.com/pricing — $1/1.000 consultas para Rerank v3 en tier de producción); precios Anthropic Claude Sonnet 4.6 ($3/1M entrada, $15/1M salida — verificar en anthropic.com/pricing ya que los precios del modelo cambian frecuentemente); precios gpt-4.1 ($2/1M entrada, $8/1M salida — verificar en openai.com/pricing). Conteos de tokens utilizados: 50-token query embedding, 3.000-token LLM input (consulta + contexto recuperado), 500-token LLM output. Los costes reales varían con la longitud del contexto y la selección del modelo.

La fórmula del coste de consulta RAG

Cada consulta RAG ejecuta cuatro operaciones en secuencia. Aquí está la fórmula con cada capa aislada:

``` per_query_cost = # Layer 1: embed the user query (query_tokens / 1_000_000) × embed_$/M # Layer 2: vector database read + vector_read_cost_per_query # Layer 3: reranker (optional) + (use_reranker ? rerank_$/query : 0) # Layer 4: LLM generation (this dominates) + (llm_input_tokens / 1_000_000) × llm_input_$/M + (llm_output_tokens / 1_000_000) × llm_output_$/M ```

El conteo de tokens de entrada del LLM es la suma de: el prompt del sistema (compartido entre consultas), la pregunta del usuario y los fragmentos de contexto recuperados. Este es el apalancamiento clave. Un prompt del sistema de 800 tokens + una pregunta de 100 tokens + 5 fragmentos de 400 tokens cada uno = 2.900 tokens de entrada. A la tasa de entrada de Sonnet 4.6 de $3/1M, eso es $0,0087 solo en tokens de entrada — antes de la salida. Añade 500 tokens de salida a $15/1M = $0,0075. LLM total: $0,0162 por consulta.

El número de fragmentos recuperados es el apalancamiento de coste más controlable después de la selección del modelo. Pasar de top-10 a top-5 fragmentos reduce el contexto ~40% en una RAG típica, reduciendo el coste de entrada del LLM proporcionalmente. Mide la precisión de la recuperación para encontrar el conteo mínimo de fragmentos que mantenga la calidad de la respuesta.

Ejemplo práctico 1: 1.000 consultas/mes — prototipo o herramienta interna

A 1.000 consultas/mes, la factura es negligible. Este es un búsqueda de documentos internos de un desarrollador en solitario o una base de conocimiento de equipo con uso ligero.

**Embedding de consulta (OpenAI text-embedding-3-small, 50 tokens/consulta):** 1.000 × 50 tokens = 50.000 tokens = 0,05M. 0,05 × $0,02 = **$0,001/mes**.

**Lectura de Vector DB (Pinecone Serverless):** 1.000 × $8,25/1M = **$0,00825/mes**.

**LLM (Sonnet 4.6, 3.000 entrada + 500 salida tokens):** Entrada: 1.000 × 3.000 / 1M × $3 = $9. Salida: 1.000 × 500 / 1M × $15 = $7,50. Total LLM: **$16,50/mes**.

**Total:** ~$16,51/mes. La capa LLM es el 99,9% de la factura. A esta escala, la selección del modelo es la única decisión de coste que vale la pena tomar.

**Alternativa más barata:** Cambia a Claude Haiku 3.5 ($0,80/$4 por M entrada/salida): Entrada: $2,40, Salida: $2,00. LLM total: $4,40. Coste total de consulta: **$4,41/mes**. A 1.000 consultas/mes, Haiku es a menudo suficiente para respuesta a preguntas aumentada por recuperación con contexto recuperado limpio.

Ejemplo práctico 2: 100.000 consultas/mes — característica SaaS de producción

100.000 consultas/mes es una característica RAG viva en producción en un producto SaaS B2B — un asistente de documentación, una herramienta de deflexión de tickets de soporte, una ayuda de revisión de contratos.

**Embedding de consulta (OpenAI text-embedding-3-small):** 100.000 × 50 / 1M × $0,02 = **$0,10/mes**.

**Lectura de Vector DB (Pinecone Serverless):** 100.000 × $8,25/1M = **$0,83/mes**.

**Reranker (Cohere Rerank, opcional):** 100.000 × $1/1.000 = **$100/mes**. Nota: el reranker es ahora el segundo componente de coste más grande a este volumen — más grande que la Vector DB y embedding combinados. Solo inclúyelo si mejora mediblemente la calidad de la respuesta en tu evaluación.

**LLM (Sonnet 4.6, 3.000 entrada + 500 salida):** Entrada: 100.000 × 3.000 / 1M × $3 = $900. Salida: 100.000 × 500 / 1M × $15 = $750. Total LLM: **$1.650/mes**.

**Total (con reranker):** $0,10 + $0,83 + $100 + $1.650 = **$1.750,93/mes** (~$0,0175/consulta).

**Total (sin reranker):** $0,10 + $0,83 + $1.650 = **$1.650,93/mes** (~$0,0165/consulta).

A 100K consultas/mes, el LLM sigue siendo el 94% de la factura. El reranker de Cohere añade un coste del 6% por su aumento de calidad — vale la pena probarlo contra tu evaluación antes de incluirlo en producción.

Ejemplo práctico 3: 1.000.000 consultas/mes — producción de alto volumen

1M consultas/mes es un despliegue RAG a escala empresarial — un asistente de IA orientado al cliente, una herramienta de gestión de conocimiento interno a gran escala, un pipeline de procesamiento de documentos de alto volumen.

**Embedding de consulta (OpenAI text-embedding-3-small):** 1M × 50 / 1M × $0,02 = **$1,00/mes**.

**Lectura de Vector DB (Pinecone Serverless):** 1M × $8,25/1M = **$8,25/mes**.

**Reranker (Cohere Rerank):** 1M × $1/1.000 = **$1.000/mes**.

**LLM (Sonnet 4.6, 3.000 entrada + 500 salida):** Entrada: 1M × 3.000 / 1M × $3 = $9.000. Salida: 1M × 500 / 1M × $15 = $7.500. Total LLM: **$16.500/mes**.

**Total (con reranker): $17.509/mes** (~$0,0175/consulta).

**Total (sin reranker): $16.509/mes** (~$0,0165/consulta).

A esta escala, el coste del LLM es el único apalancamiento de optimización que importa. Tres caminos para reducirlo: (1) caché de prompts para el prompt del sistema compartido y contexto estático — reduce el coste de entrada un 75-90% en la porción en caché; (2) cambio a un nivel de modelo más barato (gpt-4.1-mini a $0,40/$1,60 por M vs Sonnet 4.6 a $3/$15); (3) reducir la longitud del contexto recuperado de top-10 a top-5 fragmentos. Cada uno de estos es independiente y compuesto.

Caché de prompts: la reducción de factura del 60-80%

El caché de prompts es el optimización de coste de RAG con mayor apalancamiento disponible en 2026. Tanto Anthropic como OpenAI lo ofrecen; la mecánica difiere ligeramente.

**Anthropic Claude (prompt cache):** Escritura de caché: 1,25x el precio de entrada estándar. Lectura de caché: 0,10x el precio de entrada estándar — un descuento del 90%. Si tu prompt del sistema + cualquier contexto estático totales 1.500 tokens y se comparten en todas las consultas, la primera consulta lo escribe en caché a 1,25x; cada consulta posterior lo lee a 0,10x.

``` Without caching (Sonnet 4.6, 3,000 input tokens per query at $3/1M): 1M queries × 3,000 tokens = 3B input tokens × $3/1M = $9,000/month With caching (1,500 tokens cached, 1,500 tokens uncached): Cache writes (first hit per cache TTL): ~$1,687 (1.25x rate, amortized) Cache reads: 1M queries × 1,500 cached tokens × $0.30/1M = $450 Uncached: 1M queries × 1,500 tokens × $3/1M = $4,500 Total input: ~$6,637 — 26% cheaper just from caching the system prompt. ```

Si puedes cachear más agresivamente — un preámbulo de base de conocimiento estático grande de 4.000 tokens incluido en cada solicitud — los ahorros se componen. A 4.000 tokens en caché por 5.000 tokens totales de prompt (80% en caché): lecturas de caché = 1M × 4.000 × $0,30/1M = $1.200; sin caché = 1M × 1.000 × $3/1M = $3.000; entrada total = $4.200 vs $15.000 sin caché — una reducción de coste de entrada del 72%.

**OpenAI (automatic prompt caching):** OpenAI aplica caché automático de prompts al prefijo común más largo de las solicitudes. La porción en caché se factura al 50% de la tasa de entrada estándar (versus el 10% de Anthropic). Menos agresivo pero sin configuración necesaria — se aplica automáticamente a las solicitudes que comparten un contexto inicial común.

El caché es la optimización de coste RAG más impactante. Si tu prompt del sistema es más de 1.000 tokens, habilita el caché de prompts hoy. Consulta nuestra calculadora de coste de API Claude para las matemáticas de caché en otros modelos Claude.

La longitud del contexto es el multiplicador de coste oculto

Los equipos rutinariamente sobre-recuperan. Un sistema RAG configurado para devolver top-10 fragmentos de 400 tokens cada uno está inyectando 4.000 tokens de contexto por consulta. Reducir eso a top-5 y cortas la inyección de contexto por la mitad. A la tasa de entrada de Sonnet 4.6 de $3/1M, la diferencia de coste de entrada es $0,006/consulta — $6.000/mes a 1M consultas. Ese es un ahorro de artículo vale una ejecución de benchmark.

``` Context injection cost by chunk configuration (Sonnet 4.6, $3/1M input): top-3 × 400 tokens = 1,200 context tokens → $0.0036/query top-5 × 400 tokens = 2,000 context tokens → $0.0060/query top-10 × 400 tokens = 4,000 context tokens → $0.0120/query top-20 × 400 tokens = 8,000 context tokens → $0.0240/query ```

El conteo de tokens de salida a menudo se subestima. Un asistente de IA que escribe respuestas integrales de 800 tokens cuesta 60% más en salida que uno que da respuestas de 500 tokens. En Sonnet 4.6 a $15/1M salida, la diferencia es $0,0045/consulta — $4.500/mes a 1M consultas. Añade restricciones de salida a nivel de sistema (`max_tokens`, orientación de formato de respuesta) para controlar esto.

Para una guía práctica de minimizar la longitud del contexto sin degradar la calidad de la respuesta, consulta nuestro árbol de decisiones de arquitectura RAG.

Selección del modelo: compensaciones coste-calidad en 2026

La elección del modelo LLM impulsa más del coste de consulta RAG que cualquier otra decisión individual. El margen entre el nivel más barato y más caro es de 100x:

**Tier presupuestario** — Claude Haiku 3.5 ($0,80/$4 por M entrada/salida) o gpt-4.1-mini ($0,40/$1,60 por M entrada/salida). A 3.000 entrada + 500 tokens de salida: Haiku = $0,0024 + $0,002 = $0,0044/consulta. gpt-4.1-mini = $0,0012 + $0,0008 = $0,002/consulta. Usar para: Q&A factual simple en contexto estructurado limpio, deflexión de tickets de soporte, recuperación de FAQ donde la respuesta es una extracción directa del texto recuperado.

**Tier medio** — Claude Sonnet 4.6 ($3/$15 por M) o gpt-4.1 ($2/$8 por M). A 3.000 entrada + 500 salida: Sonnet = $0,009 + $0,0075 = $0,0165/consulta. gpt-4.1 = $0,006 + $0,004 = $0,010/consulta. Usar para: razonamiento multi-paso sobre contexto recuperado, síntesis entre múltiples fragmentos, generación de respuesta matizada donde el riesgo de alucinación es significativo.

**Tier premium** — Claude Opus ($15/$75 por M) o equivalente. A 3.000 entrada + 500 salida: $0,045 + $0,0375 = $0,0825/consulta. Usar solo cuando el caso de uso lo exija: razonamiento legal/médico complejo, síntesis multi-documento en decisiones de alto riesgo. A 1M consultas/mes esto es una factura de $82.500/mes — típicamente reservado para consultas de bajo volumen y alto riesgo, no para cargas de trabajo masivas.

El patrón de producción para RAG de alto volumen: enruta consultas simples (respondibles por palabra clave, recuperación de un solo fragmento) al tier presupuestario; enruta consultas complejas (multi-salto, ambiguas, síntesis entre fragmentos) al tier medio. Un división 70/30 entre Haiku y Sonnet reduce el coste del LLM ~50% versus todo-Sonnet, con regresión mínima de calidad en el segmento de consultas simples.

Verifica todos los precios del modelo en anthropic.com/pricing y openai.com/pricing antes de finalizar cualquier presupuesto — ambos proveedores ajustan los precios con nuevas generaciones de modelo.

La decisión del reranker: ¿$0,001/consulta lo vale?

Un reranker toma los top-N fragmentos recuperados de la búsqueda vectorial y los puntúa por relevancia semántica a la consulta específica antes de pasar al LLM. Cohere Rerank v3 es $1/1.000 consultas en el tier de producción = $0,001/consulta.

El caso de negocio: si tu búsqueda vectorial devuelve top-10 fragmentos pero solo 3 son realmente relevantes, el LLM está gastando tokens en 7 fragmentos irrelevantes. Un buen reranker filtra esos, reduciendo la longitud del contexto (y el coste del LLM) mientras mejora la precisión de la respuesta. El reranker se justifica con $0,001 si reduce el conteo promedio de fragmentos de 10 a 5 a 3.000 tokens totales de contexto — porque la reducción ahorra $0,006 a tasas de Sonnet 4.6, generando un ahorro neto de $0,005 por consulta.

Cuándo el reranking vale la pena: recuperación de alto-recall, bajo-precision (búsqueda vectorial densa con muchos fragmentos casi-acierto); ventanas de contexto largas que son caras de llenar; casos de uso donde la precisión de la respuesta se mide (puntuaciones de evaluación RAG, CSAT de satisfacción del usuario, precisión de deflexión de soporte).

Cuándo el reranking no vale la pena: corpus muy limpios y estrechos donde la búsqueda vectorial ya devuelve resultados de alta precisión; uso de LLM tier presupuestario donde el coste del LLM por consulta ya es $0,002-0,004 y la tarifa de reranker de $0,001 es un recargo del 25-50%; volúmenes de consulta por encima de 100K/mes donde la factura de reranker excede $100/mes y una auditoría de precisión de recuperación podría dar las mismas ganancias gratis.

Consulta la comparación Pinecone vs Weaviate vs Qdrant para benchmarks de precisión de búsqueda vectorial por proveedor que informan la compensación reranker-vs-no-reranker.

A 1M consultas por mes: el roadmap de optimización completo

Factura base a 1M consultas/mes (Sonnet 4.6, top-10 fragmentos a 400 tokens cada uno, sin caché, sin reranker):

``` Embedding: $1/month (negligible) Vector DB: $8/month (negligible) LLM input: 1M × 4,100 tokens × $3/1M = $12,300/month LLM output: 1M × 500 tokens × $15/1M = $7,500/month Total: ~$19,800/month ```

Optimización 1 — reducir a top-5 fragmentos: entrada del LLM cae a 2.100 tokens. Entrada = $6.300. Ahorra **$6.000/mes**.

Optimización 2 — habilitar caché de prompts (1.000 tokens del prompt del sistema): lecturas de caché a $0,30/1M vs $3/1M en la porción compartida. Ahorra ~$1.800/mes en tokens del prompt del sistema. Ahorra **~$1.800/mes**.

Optimización 3 — enrutamiento de consultas: envía 60% de consultas a Haiku 3.5 ($0,80/$4 por M). Haiku 60%: 600K × 2.100 entrada / 1M × $0,80 = $1.008; 600K × 500 salida / 1M × $4 = $1.200. Sonnet 40%: 400K × 2.100 entrada / 1M × $3 = $2.520; 400K × 500 salida / 1M × $15 = $3.000. LLM total después del enrutamiento: $7.728 vs $13.800. Ahorra **~$6.072/mes**.

Combinado después de los tres optimizaciones: ~**$5.736/mes** vs original $19.800 — una **reducción de coste del 71%** sin degradación del modelo en el segmento de consulta simple y precisión mejorada en el segmento de consulta compleja.

El orden de implementación: caché de prompts primero (cambio sin código en Anthropic, solo configuración), luego reducción de fragmentos (evalúa calidad de recuperación antes de cortar), luego enrutamiento de consultas (requiere capa de clasificación, mayor esfuerzo de ingeniería pero ahorros en dólares más altos).

Cómo estimar el coste de tu consulta RAG en 5 pasos

1
Cuenta tu volumen mensual de consultas
Cada interacción de usuario que dispara la recuperación es una consulta RAG. 10.000 usuarios activos a 2 consultas/día = 600.000 consultas/mes. Este número impulsa todo — empieza aquí antes de tocar cualquier decisión de modelo o proveedor.
2
Mide tu longitud de contexto promedio
Suma: tokens del prompt del sistema + tokens de consulta del usuario + tokens de fragmento recuperado (N fragmentos × tamaño promedio de fragmento). Este es tu conteo de tokens de entrada del LLM por consulta. En la mayoría de sistemas RAG esto es 2.000-6.000 tokens. Cada 1.000 tokens a tasa de entrada Sonnet 4.6 = $3/1M = $0,003/consulta = $3.000/mes a 1M consultas.
3
Precifica la capa LLM primero
Coste del LLM = (input_tokens / 1M × input_$/M) + (output_tokens / 1M × output_$/M). Esto es el 85-95% de tu factura RAG total. Elige el modelo más barato que cumple tu barra de calidad en una evaluación de 50 consultas retenidas antes de asumir que necesitas el tier premium.
4
Añade costes de Vector DB y embedding
Embedding de consulta: query_tokens × monthly_queries / 1M × embed_$/M. Típicamente menos de $2/mes en la mayoría de escalas. Lecturas de Vector DB: depende del proveedor — consulta la calculadora de coste de Vector DB. Usualmente 1-5% del coste total.
5
Aplica caché de prompts y mide ahorros
Habilita caché de prompts en tu proveedor de LLM. Las lecturas de caché de Anthropic son 0,10x el precio de entrada estándar — un descuento del 90% en tokens en caché. Si tu prompt del sistema es 1.000 tokens y ejecutas 1M consultas/mes, el caché ahorra ~$2.700/mes a tasas de Sonnet 4.6. Cambio sin código, solo configura en la llamada API.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Calculadora de coste de Vector DB→Calculadora de coste de embeddings→Calculadora de coste de API Claude→Coste de embedding Cohere vs OpenAI→Árbol de decisiones de arquitectura RAG→

Frequently Asked Questions

¿Cuánto cuesta una consulta RAG en 2026?

Rango típico: $0,013–$0,025/consulta. Desglose: embedding de consulta ~$0,000001, lectura de Vector DB ~$0,0000083 (Pinecone Serverless), generación LLM $0,013–$0,021 (Sonnet 4.6, 3.000 entrada + 500 salida tokens). La capa LLM es el 85-95% del coste total. Más barato con Haiku o gpt-4.1-mini: $0,002–0,005/consulta.

¿Cuánto cuesta RAG a un millón de consultas por mes?

A $0,018/consulta promedio (Sonnet 4.6, 3.000 entrada + 500 salida, top-5 fragmentos, caché de prompts): ~$18.000/mes. Antes de optimización con top-10 fragmentos, sin caché: ~$19.800/mes. Después de optimización completa (caché + reducción de fragmentos + enrutamiento de consultas): ~$5.700/mes. Los apalancamientos de optimización son reales y valen la pena implementar a este volumen.

¿Cuál es el mayor coste en un sistema RAG?

La llamada de generación del LLM — consistentemente el 85-95% del coste total por consulta. El stack de recuperación (embedding + lectura de Vector DB) es típicamente menos del 1% de la factura. Esto significa que la selección del modelo y la longitud del contexto son los únicos apalancamientos de coste que importan materialmente. Optimiza esos primero.

¿Funciona el caché de prompts de Anthropic para RAG?

Sí, y es una de las mejores optimizaciones de coste de ROI para RAG. Escritura de caché: 1,25x el precio de entrada estándar. Lectura de caché: 0,10x — un descuento del 90%. Si tu prompt del sistema y cualquier contexto estático totales 1.500 tokens, cachearlos reduce esos costes de token en 90% en cada consulta repetida. Habilítalo vía el parámetro cache_control en la API de Anthropic.

¿Debo usar un reranker en mi pipeline RAG?

Depende de tu precisión de recuperación. Cohere Rerank es $0,001/consulta (Rerank v3 tier de producción). Si el reranking reduce tus fragmentos recuperados promedio de 10 a 5, ahorra ~$0,006/consulta en costes de contexto del LLM a tasas de Sonnet 4.6 — generando un ahorro neto de $0,005 después de la tarifa de reranker de $0,001. Ejecuta una auditoría de precisión de recuperación antes de añadir un reranker; si tu búsqueda vectorial ya devuelve resultados de alta precisión, un reranker añade coste sin ganancia de calidad.

¿Cómo reduzco el coste de RAG sin degradar calidad?

Tres optimizaciones compuestas: (1) Habilita caché de prompts — cambio sin código, descuento del 90% en tokens en caché en Anthropic; (2) Reduce el conteo de fragmentos recuperados — evalúa calidad de recuperación con top-3 vs top-5 vs top-10 fragmentos; (3) Enruta consultas simples a un tier de modelo más barato — Haiku 3.5 a $0,80/$4 por M maneja búsquedas factual simples a 1/8 del coste de Sonnet 4.6. Combinadas, estas típicamente logran una reducción de coste del 60-70%.

¿Qué LLM debo usar para RAG en 2026?

Comienza con el tier medio: Claude Sonnet 4.6 ($3/$15 por M entrada/salida) o gpt-4.1 ($2/$8 por M). Ambos manejan síntesis multi-fragmento de forma fiable. Baja a Haiku 3.5 o gpt-4.1-mini para Q&A factual simple — son 6-8x más baratos y suficientes para respuestas de extracción directa del contexto recuperado. Solo escala a modelos de clase Opus para razonamiento legal/médico/financiero complejo donde la brecha de calidad es medible en tu evaluación.

¿Es la base de datos vectorial o el modelo de embedding el coste principal en RAG?

Ninguno — la llamada de generación del LLM lo es. El coste del modelo de embedding es una fracción de centavo por consulta (50 tokens a $0,02/1M = $0,000001). La lectura de Vector DB en Pinecone Serverless es $0,0000083/consulta. El LLM a 3.000 entrada + 500 salida tokens en Sonnet 4.6 es $0,0165/consulta — 1.000-16.000x más que cualquier componente de recuperación. Construye tu modelo de coste alrededor del LLM primero.

Reduce tu factura de RAG antes de escalar.

Mejores prompts de consulta reducen la longitud del contexto recuperado y reducen los tokens de entrada del LLM por consulta. Nuestro Generador de Prompts de IA escribe patrones de consulta RAG eficientes — consultas más cortas, recuperación de mayor precisión que recupera menos ruido. Prueba gratuita de 14 días, sin tarjeta.

Browse all prompt tools →