Die Kostenformel (eine Zeile — keine Überraschungen)
Embedding-Kosten sind die einfachste Mathematik im LLM-Stack — es gibt keine Ausgabe-Token-Rechnung, keine Caching-Schicht, keine Batch-Gebühr außer wo ausdrücklich angegeben. Die Formel:
``` cost = (total_tokens / 1,000,000) × price_per_M_tokens ```
Schätzen Sie `total_tokens` aus der Zeichenzahl Ihres Datenbestands: 1 Token ≈ 4 Zeichen Englisch. Ein Datenbestand von 10M Wörtern sind ungefähr 13,3M Tokens (10M × 1,33 Wort-zu-Token-Verhältnis). Eine 100k-Zeilen-Produktdatenbank mit 200-Wort-Beschreibungen sind ~26,7M Tokens.
Erneutes Embedding (wenn Sie Modelle ändern, die Chunking-Strategie ändern oder Ihren Vektor-Index neu aufbauen) belastet den vollständigen Datenbestand erneut. Planen Sie mindestens einen Rebuild während des Lebenszyklus eines produktiven RAG-Systems — ein 100M-Token-Datenbestand bei $0,13/1M kostet $13 zum erneuten Einbetten, aber ein 10B-Token-Datenbestand kostet $1.300, was zu einem echten Posten wird.
Was NICHT auf der Rechnung steht: Vektor-Speicherung (in seinem eigenen Bereich behandelt), Query-Time-Embedding (jede Benutzer-Abfrage erhält ihre eigene Embedding-Kosten auf der Lesenseite) und Abruf-Zeit-Datenbankoperationen (Vektor-DB-Hosting-Gebühr — Pinecone, Weaviate, Qdrant, pgvector — variiert nach Anbieter). Die Embedding-Kosten sind nur der Modellaufruf.