Los bucles de agente único tocan un techo. Pasados 8-10 llamadas de herramientas, la ventana de contexto se llena con resultados de herramientas obsoletos, la calidad de razonamiento del orquestador se degrada, y el coste por turno se eleva cuadráticamente porque cada nuevo turno repite todo lo que vino antes. La solución que ha surgido en despliegues de producción de 2026 es el patrón orquestrador-trabajador: un agente fuerte (Sonnet 4.6, gpt-5.5, u Opus 4.8) decide qué trabajo debe hacerse y delega tareas discretas a una flota de sub-agentes más baratos (Haiku 4.5, gpt-5.4-mini, Gemini 2.5 Flash), cada uno de los cuales opera en su propia ventana de contexto fresca. El orquestrador nunca ve la salida bruta de la herramienta — solo el resumen comprimido del trabajador. Hecho bien, esto reduce la factura 60-80% versus un bucle Sonnet único con calidad de respuesta igual o mejor. Hecho mal, triplica la factura porque cada recarga del trabajador paga su propio coste de impuesto de prompt del sistema.
Comparación trabajada en una carga de trabajo de investigación (encontrar y sintetizar cinco fuentes en una pregunta técnica). Bucle Sonnet 4.6 único: 12 llamadas de herramientas, ~62.000 tokens de entrada acumulados, ~5.000 salida. Factura: $0,261 por consulta. Versión orquestrador-trabajador: orquestador Sonnet 4.6 ejecuta un bucle de planificación de 4 llamadas (~12.000 entrada, 1.200 salida = $0,054), genera 5 trabajadores de búsqueda Haiku 4.5 en paralelo cada uno con un prompt de 1.500 tokens con alcance y 3 llamadas de herramientas devolviendo un resumen de 400 tokens (~8.000 entrada + 600 salida por trabajador × 5 = $0,032 + $0,006 = $0,038 total), entonces un sintetizador Sonnet 4.6 final toma los 5 resúmenes (~4.500 entrada + 1.500 salida = $0,036). Total general: $0,128 por consulta — un corte del 51%. La latencia end-to-end también cae porque los 5 trabajadores se ejecutan en paralelo en lugar de secuencialmente en un bucle.
El número de sub-agentes es una compensación real, no una palanca libre. Muy pocos trabajadores y el orquestador aún hace la mayoría del razonamiento mismo, lo que significa que los tokens de nivel fuerte se gastan en trabajo rutinario; el coste apenas se mueve. Demasiados trabajadores y tres problemas se componen: cada trabajador paga su propio coste de configuración de ~1.500 tokens de prompt-del-sistema-más-definiciones-de-herramientas (que no se amortiza en el enjambre), el orquestador quema tokens leyendo y fusionando N resúmenes, y fallos de coordinación (trabajadores rehaciendo el mismo trabajo, perdiendo el resumen) arrastran la calidad. El punto dulce para la mayoría de agentes de producción es 3-6 trabajadores por turno del orquestador. Por encima de 8 trabajadores, el coste de configuración por trabajador supera los ahorros de nivel barato y la factura comienza a subir de nuevo.
Map-reduce es el patrón de caballo de batalla cuando la entrada se divide limpiamente. El orquestrador particiona el trabajo (5 documentos, 12 fragmentos de registro, 30 reseñas de producto), genera un trabajador barato por fragmento para extraer o puntuar, luego fusiona las salidas estructuradas. Perfil de coste: lineal en recuento de fragmentos, sin acumulación de historial por trabajador porque cada trabajador ve solo su fragmento. Números reales en una tarea de clasificación de 30 documentos: bucle Sonnet único reproduciendo todos los 30 docs en contexto = ~$0,84 por ejecución; map-reduce con 30 trabajadores Haiku + fusionador Sonnet = ~$0,19 por ejecución, un corte del 77%. Vale la pena el código de orquestación cuando el recuento de fragmentos supera 5 y los fragmentos caben en contexto del trabajador.
Los pares crítico-bucle emparejan un generador con un verificador. El generador (a menudo barato — Haiku 4.5 o gpt-5.4-mini) redacta una respuesta; el crítico (fuerte — Sonnet 4.6 u Opus 4.8) la inspecciona en busca de errores y aprueba o devuelve correcciones específicas. Cada bucle cuesta la suma de una llamada barata y una llamada fuerte, típicamente $0,04-$0,08 por iteración, y 1-3 iteraciones resuelven la mayoría de tareas. El coste neto es comparable a una única llamada Sonnet pero con mayor precisión medible en tareas donde los errores son fáciles de detectar pero difíciles de evitar (generación de código, extracción estructurada, afirmaciones factuales). Omita este patrón cuando el crítico no puede distinguir de forma confiable respuestas buenas de malas — depurar un crítico roto quema dinero sin mejorar la calidad.
Planner-executor divide el razonamiento del modelo fuerte de la ejecución masiva. Un Sonnet 4.6 u Opus 4.8 planner produce un plan estructurado de 5-15 pasos en una llamada ($0,02-$0,06), luego un ejecutor Haiku 4.5 o gpt-5.4-mini ejecuta cada paso con alcance apretado y sin necesidad de replanificación. El ejecutor nunca ve el problema completo — solo el paso actual más resultados relevantes de herramientas — que mantiene su ventana de contexto pequeña. Útil cuando los pasos son independientes o solo débilmente acoplados. Debate (N modelos independientes proponen respuestas, un juez elige la mejor) es el patrón más caro en esta familia y vale la pena el coste solo cuando la corrección de la respuesta tiene apuestas altas aguas abajo (revisión legal, triaje médico, decisiones financieras). Debate de tres modelos a Sonnet 4.6 + Sonnet 4.6 + Opus 4.8 con un juez Opus 4.8 ejecuta aproximadamente $0,85 por decisión — reserve para casos donde una respuesta incorrecta cuesta mucho más que $0,85.
Regla de decisión: manténgase con un bucle de agente único hasta que mida un problema concreto — acumulación de contexto pasando 40.000 tokens por bucle, degradación de calidad pasando 8 llamadas de herramientas, o coste por bucle por encima de $0,20 en una carga de trabajo de alto volumen. Entonces elija el patrón que coincida con la falla: map-reduce para entrada dividida limpiamente, crítico-bucle para problemas de precisión, planner-executor para flujos de trabajo largos determinísticos, debate solo cuando las apuestas lo justifiquen. La disciplina de coste que importa más es mantener el prompt de cada trabajador lo suficientemente limitado para que el coste de configuración por trabajador permanezca por debajo del 25% del gasto total de tokens de ese trabajador.