Les boucles single-agent frappent un plafond. Passé 8-10 appels d'outil, la fenêtre de contexte se remplit de résultats d'outil périmés, la qualité de raisonnement de l'orchestrateur se dégrade, et le coût par tour grimpe de façon quadratique car chaque nouveau tour rejeu tout ce qui est venu avant. La solution qui a émergé dans les déploiements production 2026 est le pattern orchestrateur-worker : un agent fort (Sonnet 4.6, gpt-5.5, ou Opus 4.8) décide quel travail doit être fait et délègue des tâches discrètes à une flotte d'agents sub-agent moins cher (Haiku 4.5, gpt-5.4-mini, Gemini 2.5 Flash), chacun opérant dans sa propre fenêtre de contexte fraîche. L'orchestrateur ne voit jamais la sortie brute d'outil — seulement le résumé compressé du worker. Bien fait, cela réduit la facture de 60-80% par rapport à une seule boucle Sonnet à qualité égale ou mieux. Mal fait, cela triple la facture car chaque rechargement de worker paie sa propre taxe prompt système.
Comparaison concrète sur une charge de travail recherche (trouver et synthétiser cinq sources sur une question technique). Boucle Sonnet 4.6 unique : 12 appels d'outil, ~62 000 tokens d'entrée cumulés, ~5 000 sortie. Facture : $0,261 par requête. Version orchestrateur-worker : orchestrateur Sonnet 4.6 exécute une boucle planification 4-appels (~12 000 entrée, 1 200 sortie = $0,054), génère 5 workers recherche Haiku 4.5 parallèles chacun avec prompt scopé 1 500-tokens et 3 appels d'outil retournant un résumé 400-tokens (~8 000 entrée + 600 sortie par worker × 5 = $0,032 + $0,006 = $0,038 totaux), puis un synthétiseur Sonnet 4.6 final prend les 5 résumés (~4 500 entrée + 1 500 sortie = $0,036). Total grand total : $0,128 par requête — une réduction de 51%. La latence end-to-end baisse aussi car les 5 workers s'exécutent en parallèle plutôt que séquentiellement dans une boucle.
Le nombre de sub-agents est un vrai tradeoff, pas un levier gratuit. Trop peu de workers et l'orchestrateur fait toujours la plupart du raisonnement lui-même, ce qui signifie que les tokens tier fort se dépensent en travail de base ; le coût bouge à peine. Trop de workers et trois problèmes composent : chaque worker paie sa propre taxe ~1 500-tokens prompt-système-plus-définitions-d'outil (qui n'est pas amortie à travers l'essaim), l'orchestrateur brûle les tokens en lisant et fusionnant N résumés, et les échecs de coordination (workers refaisant le même travail, ratant le brief) traînent la qualité vers le bas. Le sweet spot pour la plupart des agents production est 3-6 workers par tour d'orchestrateur. Au-dessus de 8 workers, la taxe par-worker setup dépasse les économies bon marché-tier et la facture commence à grimper à nouveau.
Map-reduce est le pattern de base quand l'entrée se divise proprement. L'orchestrateur partitionne le travail (5 documents, 12 shards de log, 30 avis produit), génère un worker bon marché par chunk pour extraire ou scorer, puis fusionne les sorties structurées. Profil de coût : linéaire en nombre de chunks, pas d'accumulation d'historique par worker car chaque worker voit seulement son chunk. Chiffres réels sur une tâche classification 30-documents : boucle Sonnet simple rejouant tous les 30 docs en contexte = ~$0,84 par exécution ; map-reduce avec 30 workers Haiku + fusionneur Sonnet = ~$0,19 par exécution, une réduction de 77%. Vaut le code orchestration quand le nombre de chunks dépasse 5 et les chunks tiennent dans le contexte du worker.
Les paires critique-loop appairent un générateur avec un vérificateur. Le générateur (d'ordinaire bon marché — Haiku 4.5 ou gpt-5.4-mini) brouille une réponse ; le critique (fort — Sonnet 4.6 ou Opus 4.8) l'inspecte pour les erreurs et soit approuve soit retourne des corrections spécifiques. Chaque boucle coûte la somme d'un appel bon marché et d'un appel fort, généralement $0,04-$0,08 par itération, et 1-3 itérations résolvent la plupart des tâches. Le coût net est comparable à un appel Sonnet unique mais avec une précision mesurément plus haute sur les tâches où les erreurs sont faciles à voir mais difficiles à éviter (génération de code, extraction structurée, réclamations factuelles). Ignorer ce pattern quand le critique ne peut pas distinguer fiablement les bonnes réponses des mauvaises — déboguer un critique cassé brûle de l'argent sans améliorer la qualité.
Le split planificateur-exécuteur sépare le raisonnement du modèle fort de l'exécution massive. Un planificateur Sonnet 4.6 ou Opus 4.8 produit un plan structuré 5-15 étapes en un appel ($0,02-$0,06), puis un exécuteur Haiku 4.5 ou gpt-5.4-mini exécute chaque étape avec scope serré et pas besoin de re-planifier. L'exécuteur ne voit jamais le problème entier — seulement l'étape actuelle plus les résultats d'outil pertinents — ce qui maintient sa fenêtre de contexte petite. Utile quand les étapes sont indépendantes ou seulement faiblement couplées. Le débat (N modèles indépendants proposent réponses, un juge choisit la meilleure) est le pattern le plus cher de cette famille et vaut le coût seulement quand la justesse de réponse a des enjeux aval élevés (revue légale, triage médical, décisions financières). Débat trois-modèle à Sonnet 4.6 + Sonnet 4.6 + Opus 4.8 avec juge Opus 4.8 s'exécute environ $0,85 par décision — réserver pour les cas où une mauvaise réponse coûte bien plus que $0,85.
Règle de décision : rester avec une boucle single-agent jusqu'à mesurer un problème concret — bloat de contexte passant 40 000 tokens par boucle, dégradation de qualité passant 8 appels d'outil, ou coût par boucle au-dessus de $0,20 sur une charge haut volume. Ensuite choisir le pattern qui correspond à la défaillance : map-reduce pour l'entrée proprement chunked, critique-loop pour les problèmes de précision, planificateur-exécuteur pour les workflows longs déterministes, débat seulement quand les enjeux le justifient. La discipline de coût qui compte le plus est maintenir le prompt de chaque worker assez scopé pour que la taxe setup par-worker reste sous 25% du spend token total de ce worker.