Por el equipo DDH · Digital Dashboard Hub

Calculadora de coste de agentes IA 2026: Matemáticas de $ por bucle para LangGraph, Claude Agent y más

By DDH Research Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Los agentes de IA son llamadas LLM que consultan herramientas (búsqueda web, ejecución de código, consultas de base de datos, API personalizadas) a lo largo de varios turnos antes de producir una respuesta final. A partir de junio de 2026, un bucle típico de agente factura 5-15x los tokens de entrada y 8-25x los tokens de salida de una llamada de respuesta directa única — porque el historial de conversación crece con cada llamada de herramienta, y cada resultado de herramienta se repite como entrada en el siguiente turno.

La mayoría de los equipos subestiman el coste del agente en 5-10x en el momento de la planificación y superan el presupuesto dentro del primer mes de producción. La solución es directa: modelar el bucle correctamente, cachear el prompt estable del sistema, procesar por lotes lo que puede esperar y elegir el nivel de modelo adecuado para cada rol del agente. A continuación se encuentran la fórmula de coste por bucle, ejemplos trabajados en marcos y modelos, y los patrones que reducen las facturas de agentes 50-80%. Para comparación de coste de modelo base, consulte nuestra calculadora de coste GPT vs Claude vs Gemini, u obtenga la hoja de trucos en PDF gratuita de coste de agentes.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Coste de bucle de agente IA por 100 bucles — junio 2026 (bucle típico de 6 llamadas de herramienta, acumulación de contexto de 8k)

Feature	Tokens de entrada por bucle	Tokens de salida por bucle	$ por bucle (tarifa estándar)	Por 1.000 bucles
Claude Sonnet 4.6 (agente típico)	~28.000	~3.500	$0,137	$137
Claude Opus 4.8 (agente profundo)	~28.000	~3.500	$0,228	$228
Claude Haiku 4.5 (agente ligero)	~28.000	~3.500	$0,046	$46
Claude Fable 5 (agente razonador)	~28.000	~7.000 (incl. razonamiento)	$0,630	$630
OpenAI gpt-5.5 (agente típico)	~28.000	~3.500	$0,245	$245
OpenAI gpt-5.4 (agente típico)	~28.000	~3.500	$0,123	$123
OpenAI gpt-5.4-mini (agente de alto volumen)	~28.000	~3.500	$0,037	$37
OpenAI o4-reasoning (agente de investigación)	~28.000	~10.000 (incl. razonamiento)	$1,020	$1.020
Google Gemini 2.5 Pro (agente típico)	~28.000	~3.500	$0,070	$70
Google Gemini 2.5 Flash (agente de alto volumen)	~28.000	~3.500	$0,017	$17
Gemini 2.5 Pro + 80% prefijo cacheado	~28.000 (5.600 base + 22.400 cacheados)	~3.500	$0,029 (caché ahorra 59%)	$29
Claude Sonnet 4.6 + 80% prefijo cacheado	~28.000 (5.600 base + 22.400 cacheados)	~3.500	$0,076 (caché ahorra 45%)	$76
OpenAI gpt-5.4 + 80% prefijo cacheado	~28.000 (5.600 base + 22.400 cacheados)	~3.500	$0,072 (caché ahorra 42%)	$72

Fuentes, a partir de junio de 2026: precios de modelos de OpenAI (https://developers.openai.com/api/docs/pricing), Anthropic (https://claude.com/pricing), Google Gemini (https://ai.google.dev/gemini-api/docs/pricing). Estimaciones de tokens por bucle de un agente típico de 6 llamadas de herramienta con prompt del sistema de 2.000 tokens + definiciones de herramientas, 6 resultados de herramientas con promedio de 800 tokens cada uno, y 3.500 tokens de salida totales incluyendo argumentos de llamadas de herramientas. El prefijo cacheado asume que el prompt del sistema y las definiciones de herramientas son elegibles para caché y permanecen estables en bucles; los aciertos de caché se facturan aproximadamente al 10% de la entrada base en Claude y OpenAI.

Por qué los agentes cuestan 10x lo que cuesta una sola llamada

Un bucle de agente es una secuencia de llamadas LLM dentro de una única solicitud visible para el usuario. Cada turno pasa el historial de conversación completo — prompt del sistema + definiciones de herramientas + todos los mensajes anteriores + todos los resultados de herramientas anteriores — de vuelta al modelo como entrada. El historial crece con cada turno.

Descomposición trabajada para un agente típico de 6 llamadas de herramientas:

Turno 1: prompt del sistema de 2.000 tokens + consulta de usuario de 200 tokens → 2.200 entrada → 200 salida (solicitud de llamada de herramienta)

Turno 2: 2.200 + 200 (salida del turno 1) + 800 (resultado de herramienta) → 3.200 entrada → 200 salida (siguiente llamada de herramienta)

Turno 3: 3.200 + 200 + 800 → 4.200 entrada → 200 salida

Turno 4: 4.200 + 200 + 800 → 5.200 entrada → 200 salida

Turno 5: 5.200 + 200 + 800 → 6.200 entrada → 200 salida

Turno 6: 6.200 + 200 + 800 → 7.200 entrada → 200 salida

Turno 7 (respuesta final): 7.200 + 200 + 800 → 8.200 entrada → 1.500 salida (la respuesta al usuario)

Total: tokens de entrada sumados en 7 turnos = 36.400. Tokens de salida = 7 × ~300 = ~2.100 — aunque la respuesta final añade 1.500 más, así que ~3.500 salida total. La misma tarea respondida sin un agente costaría ~2.200 entrada + 1.500 salida = 3.700 tokens totales. El agente cuesta aproximadamente 11x más en entrada y 2,3x más en salida.

Los números anteriores se redondean hacia la tabla. Los bucles reales varían según el tamaño del resultado de la herramienta, el número de herramientas y si el modelo razona en voz alta entre herramientas.

Ejemplo trabajado 1: 100 bucles de agente en niveles de modelo típicos

Carga de trabajo de referencia: 100 solicitudes de usuario, cada una generando un bucle de agente de 6 llamadas de herramienta. Totales por bucle: ~28.000 entrada + ~3.500 salida (redondeados para ajuste de tabla; coinciden con el esquema anterior).

Claude Sonnet 4.6: 100 × (28k × $3/1M + 3,5k × $15/1M) = 100 × ($0,084 + $0,053) = 100 × $0,137 = $13,70.

Claude Haiku 4.5: 100 × ($0,028 + $0,018) = 100 × $0,046 = $4,60.

OpenAI gpt-5.5: 100 × ($0,14 + $0,105) = 100 × $0,245 = $24,50.

OpenAI gpt-5.4-mini: 100 × ($0,021 + $0,016) = 100 × $0,037 = $3,70.

Google Gemini 2.5 Pro: 100 × ($0,035 + $0,035) = 100 × $0,070 = $7,00.

Google Gemini 2.5 Flash: 100 × ($0,0084 + $0,00875) = 100 × $0,017 = $1,74.

Para 100 bucles, el rango va de $1,74 (Gemini Flash) a $24,50 (gpt-5.5) — un rango de 14x en carga de trabajo idéntica. La calidad varía — Gemini Flash fallará más bucles que Sonnet 4.6 en razonamiento más difícil — pero para tareas de agente de alto volumen más simples la diferencia es dinero real.

Ejemplo trabajado 2: 1.000 bucles/día con caché

Carga de trabajo de referencia: 1.000 bucles de agente por día, prompt del sistema + definiciones de herramientas (2.000 tokens) cacheados. Escritura de caché pagada una vez por ventana de caché; el resto son lecturas de caché.

Sin caché (Claude Sonnet 4.6 @ estándar): 1.000 bucles × $0,137 = $137/día = ~$4.100/mes.

Con caché de entrada del 80% (sistema prompt + definiciones de herramientas cacheados, historial de conversación no cacheado porque crece por bucle): la porción cacheada se factura a $0,30/1M, sin cachear a $3/1M. Por bucle: 22.400 cacheados × $0,30/1M = $0,0067 + 5.600 sin cachear × $3/1M = $0,017. Plus salida sin cambios a $0,053. Por bucle: $0,076. Diario: $76. Mensual: ~$2.280. Una reducción del 44%.

Apilar con la API de lote donde sea elegible (agentes de análisis sin conexión, no visibles para el usuario). 50% de descuento en entrada y salida en bucles por lotes. Si el 30% de los bucles diarios son procesables en lote: 700 bucles síncronos × $0,076 + 300 bucles por lote × $0,038 = $53,20 + $11,40 = $64,60/día. Mensual: ~$1.940. Una reducción del 53% general.

Bajar un nivel: los mismos 1.000 bucles en Haiku 4.5 con caché: $0,013/bucle × 1.000 = $13/día = ~$390/mes. Una reducción del 90% desde la línea de base Sonnet sin caché. Vale la pena solo si la evaluación muestra que Haiku coincide con la precisión requerida en el patrón de uso de herramientas de este agente.

Auditar el coste por bucle del agente temprano. La mayoría de los equipos descubren que sus agentes cuestan 5-10x más que lo proyectado; la solución casi siempre es caché + bajada de nivel, no refactorizar el marco.

Tamaño de llamada de herramienta: la palanca de coste individual más grande

El factor que la mayoría de los equipos ignora es el tamaño del resultado de la herramienta. Una búsqueda web que devuelve 4.000 tokens de contenido cuesta más en cada turno posterior porque cada turno repite ese resultado como entrada. Un bucle de 6 herramientas con resultados de 4k-token cuesta aproximadamente 2,5x lo que cuesta un bucle de 6 herramientas con resultados de 800-token.

Comprima los resultados de la herramienta antes de devolverlos al modelo. Extraiga los fragmentos relevantes, resuma respuestas largas, recorte JSON detallado. Una herramienta de búsqueda web que devuelve 'los 3 resultados principales, 150 palabras cada uno' cuesta mucho menos que una que devuelve contenido de página completa — y generalmente proporciona un mejor comportamiento del agente porque el modelo no se distrae con ruido.

Limite el número de herramientas. Cada definición de herramienta en el prompt del sistema cuesta tokens de entrada en cada bucle. Un agente de 30 herramientas tiene ~6.000 tokens de definiciones de herramientas; un agente de 5 herramientas tiene ~1.000. Si puede limitar las herramientas disponibles por rol del agente, hágalo. El modelo también razona mejor con menos opciones.

Use selección de herramientas. Algunos marcos (LangGraph, OpenAI Assistants) permiten restringir dinámicamente las herramientas disponibles por turno. Proporcione solo el subconjunto relevante basado en contexto. Reduce tokens de entrada y mejora la precisión de selección.

Para estrategias de calidad de prompt que producen definiciones de herramientas más apretadas, nuestro constructor de prompt de código ayuda a comprimir esquemas técnicos sin perder precisión.

Problemas específicos del marco

LangGraph: el estado pasa por cada nodo, creciendo mientras los nodos añaden. Si su estado incluye la salida intermedia completa de cada herramienta, el tamaño de entrada se compone por turno. Use nodos de recorte de estado que resuman contexto antiguo antes de pasar al siguiente nodo — un patrón común es resumir contexto de turno 5+ en un resumen de 500 tokens antes del turno 8.

Claude Agent SDK / Anthropic Tool Use: los resultados de la herramienta se añaden al historial de mensajes exactamente como se devuelven. El caché de prompt de Anthropic se adapta bien a este patrón — marque el prompt del sistema + definiciones de herramientas como elegibles para caché y el historial de conversación crece sobre prefijo cacheado. Ahorros típicos: 40-60% en entrada en agentes multi-turno.

OpenAI Assistants API: mantiene el estado de la conversación del lado del servidor a través de objetos de hilo + mensaje. Conveniente pero se factura idénticamente a pasar el historial usted mismo — no hay magia. La API Assistants API sí admite hilos cacheados en conversaciones de larga ejecución.

AutoGen: patrones multi-agente (un modelo orquestando otros modelos) multiplican costes por recuento de agentes. Un equipo AutoGen de 3 agentes ejecutando 6 turnos cada uno = 18 llamadas LLM como mínimo. Use el modelo más pequeño competente para los agentes trabajadores y reserve el nivel fuerte para el orquestador.

CrewAI: multiplicador multi-agente similar. Patrón útil: use Haiku 4.5 o gpt-5.4-mini para los agentes trabajadores (búsqueda, resumen, verificación), Sonnet 4.6 o gpt-5.5 para el orquestador. El coste total típicamente 3-5x un bucle de agente único, no 10x.

Caché para agentes: la configuración canónica

Paso 1: identificar la porción estable de su prompt de agente. Prompt del sistema, definiciones de herramientas, persona y cualquier documento de referencia que no cambie entre turnos. Esta es la porción elegible para caché.

Paso 2: estructurar el orden de mensajes para que el prefijo estable se siente primero. El historial de conversación y los resultados de herramientas vienen después. La entrada variable del usuario viene al final.

Paso 3: habilitar caché. En Claude: añada cache_control: {type: 'ephemeral'} al bloque de último mensaje cacheado. En OpenAI: el caché es oportunista — prefijos estables largos se cachean automáticamente a partir de junio de 2026. En Gemini: caché de contexto explícito a través de la API Caches; el contenido cacheado tiene un TTL configurable.

Paso 4: medir la tasa de acierto de caché. En Anthropic, la respuesta incluye usage.cache_read_input_tokens y usage.cache_creation_input_tokens. Apunte al 70-90% de aciertos de caché en bucles de agente con prefijos estables.

Paso 5: amortizar escrituras de caché. La primera llamada a un prefijo nuevo se factura a 1,25x entrada base (TTL de 5 minutos) o 2x entrada base (TTL de 1 hora). Vale la pena después de aproximadamente 3 lecturas. Para agentes que se repiten muchas veces dentro de una única sesión de usuario, esto es trivial. Para agentes que se disparan una vez por sesión de usuario, elija el TTL de 1 hora para maximizar la tasa de acierto entre usuarios en el mismo flujo de producto.

El caché es la palanca de impacto más alto en el coste del agente. La mayoría de los equipos que no lo han habilitado están pagando 2-3x más de lo necesario.

Elegir el nivel de modelo correcto para cada rol de agente

Los configuraciones multi-agente se benefician de la implementación de nivel mixto. Use un modelo fuerte solo donde importa; modelos baratos en todas partes.

Orquestrador (el agente que planifica llamadas de herramientas y sintetiza la respuesta final): Claude Sonnet 4.6 u OpenAI gpt-5.5. La calidad del orquestrador impulsa directamente la calidad de la respuesta final. No economice aquí.

Trabajadores de uso de herramientas (agentes que ejecutan herramientas específicas y devuelven resultados): Claude Haiku 4.5 u OpenAI gpt-5.4-mini. Estos generalmente siguen esquemas estrictos (ejecutar esta consulta, resumir esta página, analizar este JSON); el modelo fuerte es excesivo.

Crítico / verificador (agente que verifica el trabajo del orquestador): Claude Sonnet 4.6. La calidad importa aquí también; los errores del crítico se propagan.

Formateador de respuesta final: Claude Haiku 4.5 o gpt-5.4-mini. El orquestador ya ha hecho el razonamiento; el formateador solo produce la forma de respuesta.

Matemáticas trabajadas en una configuración típica de 4 agentes (1 orquestador + 2 trabajadores + 1 crítico) a 1.000 bucles/día: todos Sonnet 4.6 ≈ $548/día. Nivel mixto (Sonnet + 2 Haiku + 1 Sonnet) ≈ $228/día — 58% más barato con calidad end-to-end similar en la mayoría de cargas de trabajo. Los ahorros se componen mensualmente.

Patrones de delegación de sub-agentes: cómo encadenar agentes baratos y fuertes para 80% de reducción de coste

Los bucles de agente único tocan un techo. Pasados 8-10 llamadas de herramientas, la ventana de contexto se llena con resultados de herramientas obsoletos, la calidad de razonamiento del orquestador se degrada, y el coste por turno se eleva cuadráticamente porque cada nuevo turno repite todo lo que vino antes. La solución que ha surgido en despliegues de producción de 2026 es el patrón orquestrador-trabajador: un agente fuerte (Sonnet 4.6, gpt-5.5, u Opus 4.8) decide qué trabajo debe hacerse y delega tareas discretas a una flota de sub-agentes más baratos (Haiku 4.5, gpt-5.4-mini, Gemini 2.5 Flash), cada uno de los cuales opera en su propia ventana de contexto fresca. El orquestrador nunca ve la salida bruta de la herramienta — solo el resumen comprimido del trabajador. Hecho bien, esto reduce la factura 60-80% versus un bucle Sonnet único con calidad de respuesta igual o mejor. Hecho mal, triplica la factura porque cada recarga del trabajador paga su propio coste de impuesto de prompt del sistema.

Comparación trabajada en una carga de trabajo de investigación (encontrar y sintetizar cinco fuentes en una pregunta técnica). Bucle Sonnet 4.6 único: 12 llamadas de herramientas, ~62.000 tokens de entrada acumulados, ~5.000 salida. Factura: $0,261 por consulta. Versión orquestrador-trabajador: orquestador Sonnet 4.6 ejecuta un bucle de planificación de 4 llamadas (~12.000 entrada, 1.200 salida = $0,054), genera 5 trabajadores de búsqueda Haiku 4.5 en paralelo cada uno con un prompt de 1.500 tokens con alcance y 3 llamadas de herramientas devolviendo un resumen de 400 tokens (~8.000 entrada + 600 salida por trabajador × 5 = $0,032 + $0,006 = $0,038 total), entonces un sintetizador Sonnet 4.6 final toma los 5 resúmenes (~4.500 entrada + 1.500 salida = $0,036). Total general: $0,128 por consulta — un corte del 51%. La latencia end-to-end también cae porque los 5 trabajadores se ejecutan en paralelo en lugar de secuencialmente en un bucle.

El número de sub-agentes es una compensación real, no una palanca libre. Muy pocos trabajadores y el orquestador aún hace la mayoría del razonamiento mismo, lo que significa que los tokens de nivel fuerte se gastan en trabajo rutinario; el coste apenas se mueve. Demasiados trabajadores y tres problemas se componen: cada trabajador paga su propio coste de configuración de ~1.500 tokens de prompt-del-sistema-más-definiciones-de-herramientas (que no se amortiza en el enjambre), el orquestador quema tokens leyendo y fusionando N resúmenes, y fallos de coordinación (trabajadores rehaciendo el mismo trabajo, perdiendo el resumen) arrastran la calidad. El punto dulce para la mayoría de agentes de producción es 3-6 trabajadores por turno del orquestador. Por encima de 8 trabajadores, el coste de configuración por trabajador supera los ahorros de nivel barato y la factura comienza a subir de nuevo.

Map-reduce es el patrón de caballo de batalla cuando la entrada se divide limpiamente. El orquestrador particiona el trabajo (5 documentos, 12 fragmentos de registro, 30 reseñas de producto), genera un trabajador barato por fragmento para extraer o puntuar, luego fusiona las salidas estructuradas. Perfil de coste: lineal en recuento de fragmentos, sin acumulación de historial por trabajador porque cada trabajador ve solo su fragmento. Números reales en una tarea de clasificación de 30 documentos: bucle Sonnet único reproduciendo todos los 30 docs en contexto = ~$0,84 por ejecución; map-reduce con 30 trabajadores Haiku + fusionador Sonnet = ~$0,19 por ejecución, un corte del 77%. Vale la pena el código de orquestación cuando el recuento de fragmentos supera 5 y los fragmentos caben en contexto del trabajador.

Los pares crítico-bucle emparejan un generador con un verificador. El generador (a menudo barato — Haiku 4.5 o gpt-5.4-mini) redacta una respuesta; el crítico (fuerte — Sonnet 4.6 u Opus 4.8) la inspecciona en busca de errores y aprueba o devuelve correcciones específicas. Cada bucle cuesta la suma de una llamada barata y una llamada fuerte, típicamente $0,04-$0,08 por iteración, y 1-3 iteraciones resuelven la mayoría de tareas. El coste neto es comparable a una única llamada Sonnet pero con mayor precisión medible en tareas donde los errores son fáciles de detectar pero difíciles de evitar (generación de código, extracción estructurada, afirmaciones factuales). Omita este patrón cuando el crítico no puede distinguir de forma confiable respuestas buenas de malas — depurar un crítico roto quema dinero sin mejorar la calidad.

Planner-executor divide el razonamiento del modelo fuerte de la ejecución masiva. Un Sonnet 4.6 u Opus 4.8 planner produce un plan estructurado de 5-15 pasos en una llamada ($0,02-$0,06), luego un ejecutor Haiku 4.5 o gpt-5.4-mini ejecuta cada paso con alcance apretado y sin necesidad de replanificación. El ejecutor nunca ve el problema completo — solo el paso actual más resultados relevantes de herramientas — que mantiene su ventana de contexto pequeña. Útil cuando los pasos son independientes o solo débilmente acoplados. Debate (N modelos independientes proponen respuestas, un juez elige la mejor) es el patrón más caro en esta familia y vale la pena el coste solo cuando la corrección de la respuesta tiene apuestas altas aguas abajo (revisión legal, triaje médico, decisiones financieras). Debate de tres modelos a Sonnet 4.6 + Sonnet 4.6 + Opus 4.8 con un juez Opus 4.8 ejecuta aproximadamente $0,85 por decisión — reserve para casos donde una respuesta incorrecta cuesta mucho más que $0,85.

Regla de decisión: manténgase con un bucle de agente único hasta que mida un problema concreto — acumulación de contexto pasando 40.000 tokens por bucle, degradación de calidad pasando 8 llamadas de herramientas, o coste por bucle por encima de $0,20 en una carga de trabajo de alto volumen. Entonces elija el patrón que coincida con la falla: map-reduce para entrada dividida limpiamente, crítico-bucle para problemas de precisión, planner-executor para flujos de trabajo largos determinísticos, debate solo cuando las apuestas lo justifiquen. La disciplina de coste que importa más es mantener el prompt de cada trabajador lo suficientemente limitado para que el coste de configuración por trabajador permanezca por debajo del 25% del gasto total de tokens de ese trabajador.

Cómo proyectar el coste del agente antes de construir

Paso 1: contar herramientas. Liste las herramientas que el agente utilizará. Los agentes típicos usan 3-10 herramientas; una definición de herramienta es ~100-200 tokens dependiendo del esquema.

Paso 2: estimar tamaños de resultado de herramienta. Bytes por resultado y tokens por resultado. Búsqueda web ≈ 400-2.000 tokens. Consulta de base de datos ≈ 200-800 tokens. Ejecución de código ≈ 100-500 tokens. API personalizada ≈ 100-1.000 tokens dependiendo de carga útil.

Paso 3: estimar profundidad de bucle. ¿Cuántas llamadas de herramientas antes de que el agente alcance la respuesta final? Típico: 4-8 llamadas. Agentes de investigación de larga ejecución: 10-30 llamadas.

Paso 4: suma de tokens de entrada en el bucle. Comenzar con prompt del sistema + definiciones de herramientas (~2.000-6.000 tokens). Cada turno añade su salida anterior (200-500 tokens) + resultado de herramienta (200-2.000 tokens). Después de N turnos, entrada acumulativa ≈ N × N/2 × promedio_por_turno (el crecimiento cuadrático de acumulación de historial).

Paso 5: multiplicar por volumen diario de bucle y tasa de modelo. Comparar contra la versión cacheada, la versión procesada en lote y una versión de bajada de nivel. Elegir la más barata que mantenga la calidad.

Si el coste proyectado > $1.000/día al lanzamiento, ejecute una pasada de optimización de coste antes del lanzamiento, no después. Caché + bajada de nivel + compresión de resultado de herramienta típicamente reduce la factura 60-80% con impacto de calidad insignificante cuando se hace cuidadosamente.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Calculadora de coste GPT vs Claude vs Gemini→Precios Anthropic Claude 2026→Precios OpenAI API 2026→Límites de tasa LLM 2026→

Frequently Asked Questions

¿Cuánto cuesta un bucle de agente IA?

Un bucle típico de agente de 6 llamadas de herramientas cuesta $0,02-$0,25 dependiendo del nivel de modelo — aproximadamente 10x el coste de una única llamada de respuesta directa. El caché puede reducir esto 40-60%; el procesamiento en lote puede reducir otros 50% encima. Las matemáticas de $ trabajadas para cada modelo principal están en la tabla anterior.

¿Por qué los agentes son mucho más caros que las finalizaciones de chat?

Porque cada turno repite el historial de conversación completo (prompt del sistema + mensajes anteriores + resultados de herramientas anteriores) como entrada. Después de 6 llamadas de herramientas, los tokens de entrada son 10-15x lo que serían para una única llamada de respuesta directa. El caché del prompt del sistema estable es la solución canónica.

¿Cuál es el modelo más barato para agentes de producción en 2026?

Gemini 2.5 Flash a ~$0,017 por bucle típico es el nivel principal más barato. Claude Haiku 4.5 a ~$0,046 es el más barato entre modelos Anthropic. gpt-5.4-mini a ~$0,037 es la opción OpenAI más barata. Coincida el nivel con la profundidad de razonamiento requerida — la mayoría de agentes de producción funcionan bien en los niveles más baratos si las herramientas y prompts están bien estructurados.

¿Cuánto ahorro el caché de prompt en bucles de agente?

40-60% en facturas de entrada cuando el prompt del sistema + definiciones de herramientas son elegibles para caché y permanecen estables en bucles. En un agente Sonnet 4.6 de $137/día a 1.000 bucles/día, el caché reduce la factura a ~$76/día — ahorros de $1.800/mes. Las tasas de acierto de caché más altas producen ahorros mayores.

¿Debería usar LangGraph, Claude Agent SDK u OpenAI Assistants?

En términos de coste son similares — todos se facturan en las llamadas LLM subyacentes. Elija por ajuste de ecosistema: LangGraph para orquestación multi-agente basada en gráficos, Claude Agent SDK para uso de herramientas nativo de Anthropic con caché, OpenAI Assistants para hilos administrados por servidor y recuperación integrada. Las diferencias de precios están en el LLM, no en el marco.

¿Cómo reduzco mi coste de agente 50% esta semana?

Paso 1: habilitar caché de prompt en el prompt del sistema estable + definiciones de herramientas (típicamente ahorros de entrada del 40-60%). Paso 2: reducir tamaños de resultado de herramienta resumiendo o extrayendo antes de devolver (típicamente ahorros de entrada adicionales del 20-30%). Paso 3: bajar un nivel de modelo en sub-agentes de ejecución de herramientas mientras mantiene el orquestador en un modelo fuerte. Combinado: ahorros del 50-70% en la mayoría de agentes.

¿Cuál es el multiplicador de llamada de herramienta?

Aproximadamente 10-15x más tokens de entrada y 2-3x más tokens de salida que la misma tarea respondida sin herramientas. Causado por el historial de conversación completo reproduciéndose en cada turno, más salida por turno (argumentos de llamada de herramienta) y resultados de herramientas. La descomposición trabajada está en la sección 'Por qué los agentes cuestan 10x' anterior.

¿Puedo ejecutar configuraciones multi-agente barato?

Sí — use un despliegue de nivel mixto. Modelo fuerte (Sonnet 4.6 o gpt-5.5) para el orquestrador y crítico; modelo barato (Haiku 4.5 o gpt-5.4-mini) para trabajadores de ejecución de herramientas y formateadores de respuesta final. Ahorros típicos: 50-60% versus una configuración todo-nivel-fuerte con calidad end-to-end similar.

¿Cuántos sub-agentes debería generar un orquestador por turno?

3-6 trabajadores es el punto dulce para la mayoría de agentes de producción. Por debajo de 3, el orquestrador aún hace la mayoría del razonamiento mismo y los ahorros de bajada de nivel son pequeños. Por encima de 8, el coste de configuración de ~1.500 tokens por trabajador de cada sistema-prompt-más-definiciones-de-herramientas se acumula más rápido que los ahorros de nivel barato pueden compensar, y la factura comienza a subir de nuevo. Los fallos de coordinación (trabajadores rehaciendo la misma tarea, perdiendo el resumen) también aumentan con el recuento de trabajadores.

¿Cuándo vale la pena el patrón crítico-bucle la llamada LLM extra?

Cuando los errores son fáciles para un modelo fuerte de detectar pero difíciles para el generador de evitar — generación de código, extracción estructurada, afirmaciones factuales, salida vinculada a esquema. Un crítico-bucle típico ejecuta $0,04-$0,08 por iteración y se resuelve en 1-3 iteraciones, comparable a una única llamada Sonnet pero con precisión mediblemente más alta. Omita el patrón cuando el crítico no puede distinguir de forma confiable bueno de malo — un crítico defectuoso quema dinero sin mejorar la calidad.

¿Cuánto puede ahorrar un patrón orquestrador-trabajador versus un bucle Sonnet único?

Típicamente 50-80% en cargas de trabajo estilo investigación donde el trabajo se divide limpiamente. Ejemplo trabajado: un bucle de investigación Sonnet 4.6 único con 12 llamadas de herramientas cuesta ~$0,26 por consulta; la versión orquestrador-trabajador (planner Sonnet 4.6 + 5 trabajadores de búsqueda Haiku 4.5 en paralelo + sintetizador Sonnet 4.6) cuesta ~$0,13 por consulta — un corte del 51%, más baja latencia de ejecución paralela. Map-reduce en entrada dividida por fragmentos (p. ej. 30 documentos) puede alcanzar ahorros del 75-80%.

Obtén la hoja de trucos de coste de agente 2026

PDF de una página con matemáticas de $ por bucle, fórmula del multiplicador de llamada de herramienta y palancas de caché/lote — gratuito, sin puerta de registro.

Browse all prompt tools →