Single-Agent-Schleifen treffen eine Obergrenze. Past 8-10 Tool-Aufrufe, füllt sich das Context-Fenster mit alten Tool-Ergebnissen, die Orchestrator-Reasoning-Qualität verschlechtert sich, und die Pro-Turn-Kosten klettern quadratisch weil jeder neuer Zug alles das was davor kam wiedergegeben. Die Lösung die über 2026 Produktions-Deployments aufgekommen ist ist das Orchestrator-Worker-Muster: ein starker Agent (Sonnet 4.6, gpt-5.5, oder Opus 4.8) entscheidet welche Arbeit getan werden muss und delegiert diskrete Aufgaben zu einer Flotte billiger Sub-Agenten (Haiku 4.5, gpt-5.4-mini, Gemini 2.5 Flash), jeder der in seinem eigenem frischen Context-Fenster operiert. Der Orchestrator sieht nie die Roh-Tool-Ausgabe — nur die Worker's komprimierte Zusammenfassung. Gut gemacht, schneidet dies die Rechnung 60-80% gegenüber einer Single-Sonnet-Schleife bei gleicher oder besserer Antwort-Qualität. Schlecht gemacht, verdreifacht es die Rechnung weil jeder Worker-Reload seine eigene System-Prompt-Steuer bezahlt.
Ausgearbeiteter Vergleich auf einer Research-Workload (finde und synthetisiere fünf Quellen zu einer technischen Frage). Single Sonnet 4.6 Schleife: 12 Tool-Aufrufe, ~62.000 kumulative Input-Token, ~5.000 Output. Rechnung: $0,261 pro Query. Orchestrator-Worker-Version: Sonnet 4.6 Orchestrator läuft eine 4-Call-Planungs-Schleife (~12.000 Input, 1.200 Output = $0,054), spawnt 5 parallele Haiku 4.5 Such-Worker je mit einem 1.500-Token-Gültigkeits-Prompt und 3 Tool-Aufrufe die eine 400-Token-Zusammenfassung (~8.000 Input + 600 Output pro Worker × 5 = $0,032 + $0,006 = $0,038 insgesamt) zurückgeben, dann ein finaler Sonnet 4.6 Synthesizer nimmt die 5 Zusammenfassungen (~4.500 Input + 1.500 Output = $0,036). Gesamtsumme: $0,128 pro Query — eine 51% Schnitt. End-to-End-Latenz sinkt auch weil die 5 Worker parallel statt sequenziell in einer Schleife laufen.
Die Sub-Agent-Zahl ist ein echten Tradeoff, nicht ein kostenlos Hebel. Zu wenig Worker und der Orchestrator macht immer noch den meisten der Reasoning selbst, was bedeutet dass Strong-Tier-Token auf Routinearbeit ausgegeben werden; die Kosten bewegen sich kaum. Zu viele Worker und drei Probleme zusammen: jeder Worker bezahlt seine eigene ~1.500-Token System-Prompt-plus-Tool-Definitionen Setup-Kosten (die nicht über den Swarm amortisiert wird), der Orchestrator brennt Token die N Zusammenfassungen liest und verschmelzt, und Koordinations-Fehler (Worker die gleiche Arbeit erledigen, den Brief verfehlen) ziehen die Qualität runter. Die sweet Stelle für die meisten Produktions-Agenten ist 3-6 Worker pro Orchestrator-Zug. Über 8 Worker, die Pro-Worker Setup-Steuer überwiegt die Tier-Drop-Einsparungen und die Rechnung fängt wieder an zu klettern.
Map-Reduce ist das Arbeitspferd-Muster wenn die Eingabe saubern teilt. Der Orchestrator partitioniert die Arbeit (5 Dokumente, 12 Log-Shards, 30 Produkt-Reviews), spawnt einen billigen Worker pro Chunk zum Extrahieren oder Bewerten, dann verschmilzt die strukturierte Ausgabe. Kosten-Profil: linear in Chunk-Zahl, keine Geschichts-Ansammlung pro Worker weil jeder Worker nur seinen Chunk sieht. Echte Zahlen auf einer 30-Dokument-Klassifikations-Aufgabe: Single Sonnet Schleife die alle 30 Dokumente im Kontext wiedergegeben = ~$0,84 pro Lauf; Map-Reduce mit 30 Haiku Worker + Sonnet Merger = ~$0,19 pro Lauf, eine 77% Schnitt. Lohnt sich die Orchestrations-Code wenn Chunk-Zahl 5 übersteigt und Chunks in Worker-Kontext passen.
Critic-Loop-Paare ein Generator mit einem Verifier. Der Generator (oft billig — Haiku 4.5 oder gpt-5.4-mini) entwirft eine Antwort; der Critic (stark — Sonnet 4.6 oder Opus 4.8) inspiziert sie auf Fehler und genehmigt sie entweder oder gibt spezifische Korrekturen zurück. Jede Schleife kostet die Summe eines billigen Aufrufs und eines starken Aufrufs, üblicherweise $0,04-$0,08 pro Iteration, und 1-3 Iterationen löst die meisten Aufgaben. Netto-Kosten sind vergleichbar mit einem Single-Sonnet-Aufruf aber mit messbar höherer Genauigkeit auf Aufgaben wo Fehler einfach zu sehen aber schwer zu vermeiden sind (Code-Generierung, strukturierte Extraktion, faktische Aussagen). Überspringe dieses Muster wenn der Critic nicht zuverlässlich gute Antworten von schlechten unterscheiden kann — die Debugging eines fehlerhaften Critic brennt Geld ohne Qualität zu verbessern.
Planner-Executor trennt die Strong-Model-Reasoning von der Massen-Ausführung. Ein Sonnet 4.6 oder Opus 4.8 Planner produziert einen strukturierten 5-15 Schritt-Plan in einem Aufruf ($0,02-$0,06), dann ein Haiku 4.5 oder gpt-5.4-mini Executor läuft jeden Schritt mit enge Gültig und kein Bedarf zu re-planen. Der Executor sieht nie das volle Problem — nur den aktuellen Schritt plus relevante Tool-Ergebnisse — was sein Context-Fenster klein hält. Nützlich wenn Schritte unabhängig oder nur lose gekoppelt sind. Debatte (N unabhängige Modelle schlagen Antworten vor, ein Richter wählt die beste) ist das teuerste Muster in dieser Familie und lohnt sich der Kosten nur wenn Antwort-Korrektheit hohe nachgelagerte Einsätze hat (rechtliche Überprüfung, medizinische Triage, finanzielle Entscheidungen). Drei-Modell-Debatte bei Sonnet 4.6 + Sonnet 4.6 + Opus 4.8 mit einem Opus 4.8 Richter läuft grob $0,85 pro Entscheidung — reservieren Sie für Fälle wo eine falsche Antwort viel mehr als $0,85 kostet.
Entscheidungsregel: bleiben Sie bei einer Single-Agent-Schleife bis Sie ein konkretes Problem messen — Kontext-Aufbauung past 40.000 Token pro Schleife, Qualitäts-Verschlechterung past 8 Tool-Aufrufen, oder Pro-Schleife-Kosten über $0,20 auf einer hochvolumigen Workload. Dann wählen Sie das Muster das dem Fehler entspricht: Map-Reduce für saubern geteilte Eingabe, Critic-Loop für Genauigkeits-Probleme, Planner-Executor für lange deterministische Workflows, Debatte nur wenn Einsätze es rechtfertigen. Die Kosten-Disziplin die am meisten zählt ist dass jeder Worker's Prompt eng genug scoped bleibt dass die Pro-Worker Setup-Steuer unter 25% von dieser Worker's gesamt Token-Ausgabe bleibt.