Die RAG-Abfrage-Kostenformel
Jede RAG-Abfrage führt vier Operationen in Folge aus. Hier ist die Formel mit jeder Schicht isoliert:
``` per_query_cost = # Layer 1: embed the user query (query_tokens / 1_000_000) × embed_$/M # Layer 2: vector database read + vector_read_cost_per_query # Layer 3: reranker (optional) + (use_reranker ? rerank_$/query : 0) # Layer 4: LLM generation (this dominates) + (llm_input_tokens / 1_000_000) × llm_input_$/M + (llm_output_tokens / 1_000_000) × llm_output_$/M ```
Die LLM-Eingabe-Token-Anzahl ist die Summe von: dem System-Prompt (geteilt über Abfragen), der Frage des Benutzers und den abgerufenen Kontext-Chunks. Dies ist der Schlüsselhebel. Ein System-Prompt von 800 Token + eine 100-Token-Frage + 5 Chunks von je 400 Token = 2.900 Eingabe-Token. Bei Sonnet 4.6's $3/1M Eingabe-Rate sind das $0,0087 nur in Eingabe-Token – vor der Ausgabe. Addiere 500 Ausgabe-Token bei $15/1M = $0,0075. Gesamt LLM: $0,0162 pro Abfrage.
Die Anzahl der abgerufenen Chunks ist der am meisten kontrollierbare Kostenhebel nach Modellauswahl. Der Wechsel von Top-10 zu Top-5 Chunks reduziert den Kontext um ~40% auf einem typischen RAG, wodurch die LLM-Eingabe-Kosten proportional sinken. Messe Abruf-Präzision, um die Mindest-Chunk-Anzahl zu finden, die die Antwortqualität erhält.