La fórmula del coste de consulta RAG
Cada consulta RAG ejecuta cuatro operaciones en secuencia. Aquí está la fórmula con cada capa aislada:
``` per_query_cost = # Layer 1: embed the user query (query_tokens / 1_000_000) × embed_$/M # Layer 2: vector database read + vector_read_cost_per_query # Layer 3: reranker (optional) + (use_reranker ? rerank_$/query : 0) # Layer 4: LLM generation (this dominates) + (llm_input_tokens / 1_000_000) × llm_input_$/M + (llm_output_tokens / 1_000_000) × llm_output_$/M ```
El conteo de tokens de entrada del LLM es la suma de: el prompt del sistema (compartido entre consultas), la pregunta del usuario y los fragmentos de contexto recuperados. Este es el apalancamiento clave. Un prompt del sistema de 800 tokens + una pregunta de 100 tokens + 5 fragmentos de 400 tokens cada uno = 2.900 tokens de entrada. A la tasa de entrada de Sonnet 4.6 de $3/1M, eso es $0,0087 solo en tokens de entrada — antes de la salida. Añade 500 tokens de salida a $15/1M = $0,0075. LLM total: $0,0162 por consulta.
El número de fragmentos recuperados es el apalancamiento de coste más controlable después de la selección del modelo. Pasar de top-10 a top-5 fragmentos reduce el contexto ~40% en una RAG típica, reduciendo el coste de entrada del LLM proporcionalmente. Mide la precisión de la recuperación para encontrar el conteo mínimo de fragmentos que mantenga la calidad de la respuesta.