La fórmula de costo (una línea — sin sorpresas)
El costo de embedding es la matemática más simple en el stack de LLM — no hay facturación de token de salida, sin capa de caché, sin cargo por lote excepto donde se note explícitamente. La fórmula:
``` cost = (total_tokens / 1,000,000) × price_per_M_tokens ```
Estima `total_tokens` a partir del recuento de caracteres de tu corpus: 1 token ≈ 4 caracteres de inglés. Un corpus de documentos de 10M palabras son aproximadamente 13.3M tokens (10M × proporción de palabra a token de 1.33). Una base de datos de productos de 100k filas con descripciones de 200 palabras es ~26.7M tokens.
Re-embedding (cuando cambias modelos, cambias la estrategia de chunking o reconstruyes tu índice de vectores) cobra el corpus completo nuevamente. Planifica al menos una reconstrucción durante el ciclo de vida de cualquier sistema RAG de producción — un corpus de 100M tokens a $0.13/1M es $13 para re-embedir, pero un corpus de 10B tokens es $1,300, que se convierte en un verdadero elemento de línea.
Lo que NO está en la factura: almacenamiento de vectores (cubierto en su propia sección a continuación), embedding de tiempo de consulta (cada consulta del usuario obtiene su propio costo de embedding en el lado de lectura), y operaciones de base de datos en tiempo de recuperación (tarifa de alojamiento de BD de vectores — Pinecone, Weaviate, Qdrant, pgvector — varía según el proveedor). El costo de embedding es solo la llamada del modelo.