Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Von The DDH Team · Digital Dashboard Hub

KI-Agent-Kostenrechner 2026: Pro-Schleife $ Mathematik für LangGraph, Claude Agent und mehr

By DDH Research Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

KI-Agenten sind LLM-Aufrufe, die über mehrere Züge Tools (Web-Suche, Code-Ausführung, Datenbankabfragen, benutzerdefinierte APIs) nutzen, bevor sie eine endgültige Antwort liefern. Ab Juni 2026 kostet eine typische Agent-Schleife 5-15x die Input-Token und 8-25x die Output-Token eines einzelnen direkten Antwortaufrufs — weil die Konversationshistorie mit jedem Tool-Aufruf wächst und jedes Tool-Ergebnis beim nächsten Zug als Input wiedergegeben wird.

Die meisten Teams unterschätzen Agent-Kosten bei der Planung um 5-10x und überschreiten das Budget innerhalb des ersten Monats der Produktion. Die Lösung ist unkompliziert: modellieren Sie die Schleife ordnungsgemäß, cachen Sie den stabilen System-Prompt, bündeln Sie was warten kann, und wählen Sie die richtige Modell-Stufe für jede Agent-Rolle. Nachfolgend finden Sie die Pro-Schleife-Kostenformel, ausgearbeitete Beispiele über Frameworks und Modelle sowie Muster, die Agent-Rechnungen um 50-80% senken. Für den Basis-Modell-Kostenvergleich siehe unseren GPT vs Claude vs Gemini Kostenrechner oder besorgen Sie sich das kostenlose Agent-Kosten-Spickzettel PDF.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

KI-Agent-Schleife Kosten pro 100 Schleifen — Juni 2026 (typische 6-Tool-Call-Schleife, 8k Kontext-Aufbau)

Feature
Input-Token pro Schleife
Output-Token pro Schleife
$ pro Schleife (Standard-Tarif)
Pro 1.000 Schleifen
Claude Sonnet 4.6 (typischer Agent)~28.000~3.500$0,137$137
Claude Opus 4.8 (Deep Agent)~28.000~3.500$0,228$228
Claude Haiku 4.5 (leichter Agent)~28.000~3.500$0,046$46
Claude Fable 5 (Reasoning-Agent)~28.000~7.000 (inkl. Reasoning)$0,630$630
OpenAI gpt-5.5 (typischer Agent)~28.000~3.500$0,245$245
OpenAI gpt-5.4 (typischer Agent)~28.000~3.500$0,123$123
OpenAI gpt-5.4-mini (hochvolumiger Agent)~28.000~3.500$0,037$37
OpenAI o4-reasoning (Forschungs-Agent)~28.000~10.000 (inkl. Reasoning)$1,020$1.020
Google Gemini 2.5 Pro (typischer Agent)~28.000~3.500$0,070$70
Google Gemini 2.5 Flash (hochvolumiger Agent)~28.000~3.500$0,017$17
Gemini 2.5 Pro + 80% gecachtes Präfix~28.000 (5.600 Basis + 22.400 gecacht)~3.500$0,029 (Caching spart 59%)$29
Claude Sonnet 4.6 + 80% gecachtes Präfix~28.000 (5.600 Basis + 22.400 gecacht)~3.500$0,076 (Caching spart 45%)$76
OpenAI gpt-5.4 + 80% gecachtes Präfix~28.000 (5.600 Basis + 22.400 gecacht)~3.500$0,072 (Caching spart 42%)$72

Quellen, ab Juni 2026: Modell-Preise von OpenAI (https://developers.openai.com/api/docs/pricing), Anthropic (https://claude.com/pricing), Google Gemini (https://ai.google.dev/gemini-api/docs/pricing). Pro-Schleife Token-Schätzungen von einem typischen 6-Tool-Call-Agent mit einem 2.000-Token System-Prompt + Tool-Definitionen, 6 Tool-Ergebnisse durchschnittlich 800 Token je, und 3.500 insgesamt Output-Token einschließlich Tool-Call-Argumente. Gecachtes Präfix setzt voraus, dass System-Prompt und Tool-Definitionen cache-berechtigt sind und über Schleifen stabil bleiben; Cache-Treffer werden auf Claude und OpenAI mit ungefähr 10% des Basis-Input in Rechnung gestellt.

Warum Agenten 10x kosten was ein einzelner Aufruf kostet

Eine Agent-Schleife ist eine Sequenz von LLM-Aufrufen innerhalb einer einzelnen benutzerorientierten Anfrage. Jeder Zug übergibt die vollständige Konversationshistorie — System-Prompt + Tool-Definitionen + jede vorherige Nachricht + jedes vorherige Tool-Ergebnis — als Input an das Modell. Die Historie wächst mit jedem Zug.

Ausgearbeitete Zerlegung für einen typischen 6-Tool-Call-Agent:

Zug 1: 2.000 Token System-Prompt + 200 Token Benutzer-Query → 2.200 Input → 200 Output (Tool-Call-Anfrage)

Zug 2: 2.200 + 200 (Zug 1 Output) + 800 (Tool-Ergebnis) → 3.200 Input → 200 Output (nächster Tool-Call)

Zug 3: 3.200 + 200 + 800 → 4.200 Input → 200 Output

Zug 4: 4.200 + 200 + 800 → 5.200 Input → 200 Output

Zug 5: 5.200 + 200 + 800 → 6.200 Input → 200 Output

Zug 6: 6.200 + 200 + 800 → 7.200 Input → 200 Output

Zug 7 (endgültige Antwort): 7.200 + 200 + 800 → 8.200 Input → 1.500 Output (die Antwort an den Benutzer)

Gesamtinput-Token aufsummiert über 7 Züge = 36.400. Output-Token = 7 × ~300 = ~2.100 — obwohl die endgültige Antwort 1.500 weitere hinzufügt, also ~3.500 insgesamt Output. Dieselbe Aufgabe ohne Agent beantwortet würde ~2.200 Input + 1.500 Output = 3.700 Gesamttoken kosten. Der Agent kostet grob 11x mehr auf Input und 2,3x mehr auf Output.

Zahlen oben sind zum Fit der Tabelle gerundet. Echte Schleifen variieren basierend auf Tool-Ergebnisgröße, Anzahl der Tools und ob das Modell zwischen Tools laut nachdenkt.


Ausgearbeitetes Beispiel 1: 100 Agent-Schleifen bei typischen Modell-Stufen

Referenz-Workload: 100 Benutzeranfragen, jede spawnt eine 6-Tool-Call-Agent-Schleife. Pro-Schleife Gesamtmengen: ~28.000 Input + ~3.500 Output (zum Fit der Tabelle gerundet; passt zum Schema oben).

Claude Sonnet 4.6: 100 × (28k × $3/1M + 3,5k × $15/1M) = 100 × ($0,084 + $0,053) = 100 × $0,137 = $13,70.

Claude Haiku 4.5: 100 × ($0,028 + $0,018) = 100 × $0,046 = $4,60.

OpenAI gpt-5.5: 100 × ($0,14 + $0,105) = 100 × $0,245 = $24,50.

OpenAI gpt-5.4-mini: 100 × ($0,021 + $0,016) = 100 × $0,037 = $3,70.

Google Gemini 2.5 Pro: 100 × ($0,035 + $0,035) = 100 × $0,070 = $7,00.

Google Gemini 2.5 Flash: 100 × ($0,0084 + $0,00875) = 100 × $0,017 = $1,74.

Bei 100 Schleifen läuft die Spanne von $1,74 (Gemini Flash) bis $24,50 (gpt-5.5) — eine 14x Spanne auf identischer Workload. Qualität variiert — Gemini Flash schlägt bei schwierigeren Reasoning-Aufgaben mehr Schleifen fehl als Sonnet 4.6 — aber für hochvolumige einfachere Agent-Aufgaben ist der Unterschied echte Geldersparnis.


Ausgearbeitetes Beispiel 2: 1.000 Schleifen/Tag mit Caching

Referenz-Workload: 1.000 Agent-Schleifen pro Tag, System-Prompt + Tool-Definitionen (2.000 Token) gecacht. Cache-Schreib einmal pro Cache-Fenster bezahlt; der Rest sind Cache-Lesevorgänge.

Ohne Caching (Claude Sonnet 4.6 @ Standard): 1.000 Schleifen × $0,137 = $137/Tag = ~$4.100/Monat.

Mit 80% Input-Caching (System-Prompt + Tool-Definitionen gecacht, Konversationshistorie nicht gecacht weil sie pro Schleife wächst): gecachte Portion wird bei $0,30/1M in Rechnung gestellt, nicht-gecachte bei $3/1M. Pro Schleife: 22.400 gecacht × $0,30/1M = $0,0067 + 5.600 nicht-gecacht × $3/1M = $0,017. Plus Output unverändert bei $0,053. Pro Schleife: $0,076. Täglich: $76. Monatlich: ~$2.280. Eine 44% Reduktion.

Stack mit der Batch API wo anwendbar (Offline-Analyse-Agenten, nicht benutzerorientiert). 50% Rabatt auf Input und Output bei gebündelt Schleifen. Wenn 30% der täglichen Schleifen bündelbar sind: 700 sync Schleifen × $0,076 + 300 batch Schleifen × $0,038 = $53,20 + $11,40 = $64,60/Tag. Monatlich: ~$1.940. Eine 53% Reduktion insgesamt.

Stufe herunterfahren: gleiche 1.000 Schleifen auf Haiku 4.5 mit Caching: $0,013/Schleife × 1.000 = $13/Tag = ~$390/Monat. Eine 90% Reduktion von der nicht-gecachten Sonnet Basis-Linie. Lohnt sich nur wenn Eval zeigt dass Haiku dem erforderlichen Genauigkeit auf diesem Agent's Tool-Use-Muster entspricht.

Audit des Agent's Pro-Schleife-Kosten früh. Die meisten Teams entdecken dass ihre Agenten 5-10x mehr als projiziert kosten; die Lösung ist fast immer Caching + Stufen-Wechsel, nicht Framework-Umgestaltung.


Tool-Call-Größe: der einzelne größte Kostenhebel

Der Faktor den die meisten Teams übersehen ist Tool-Ergebnis-Größe. Eine Web-Suche die 4.000 Token Inhalt zurückgibt kostet mehr auf jedem nachfolgenden Zug weil jeder Zug das Ergebnis als Input wiedergegeben. Eine 6-Tool-Schleife mit 4k-Token-Ergebnissen kostet grob 2,5x was eine 6-Tool-Schleife mit 800-Token-Ergebnissen kostet.

Komprimieren Sie Tool-Ergebnisse bevor Sie sie zum Modell zurückgeben. Extrahieren Sie die relevanten Schnipsel, fassen Sie lange Antworten zusammen, trimmen Sie ausschweifende JSON. Ein Web-Suche-Tool das 'top 3 Ergebnisse, je 150 Wörter' zurückgibt kostet weit weniger als eines das vollständigen Seiteninhalte zurückgibt — und gibt normalerweise besseres Agent-Verhalten weil das Modell nicht durch Lärm abgelenkt wird.

Begrenzen Sie Tool-Zahl. Jede Tool-Definition im System-Prompt kostet Input-Token auf jeder Schleife. Ein 30-Tool-Agent hat ~6.000 Token Tool-Definitionen; ein 5-Tool-Agent hat ~1.000. Wenn Sie verfügbare Tools pro Agent-Rolle definieren können, machen Sie es. Das Modell argumentiert auch besser mit weniger Optionen.

Verwenden Sie Tool-Auswahl. Einige Frameworks (LangGraph, OpenAI Assistants) lassen Sie verfügbare Tools pro Zug dynamisch einschränken. Geben Sie nur die relevante Untermenge basierend auf Kontext. Schneidet Input-Token und verbessert Auswahl-Genauigkeit.

Für Prompt-Qualitäts-Strategien die engere Tool-Definitionen produzieren, hilft unser Code-Prompt-Builder technische Schemas ohne Präzisionsverlust zu komprimieren.


Framework-spezifische Kostenfallen

LangGraph: State geht durch jeden Node, wächst während Nodes anhängen. Wenn Ihr State den vollständigen Zwischen-Output jedes Tools einschließt, summiert sich die Input-Größe pro Zug. Verwenden Sie State-Trimm-Nodes die alte Kontexte vor dem nächsten Node zusammenfassen — ein übliches Muster ist das Zusammenfassen von Zug-5+-Kontext in einen 500-Token-Auszug vor Zug 8.

Claude Agent SDK / Anthropic Tool Use: Tool-Ergebnisse werden genau wie zurückgegeben an die Nachrichtenhistorie angehängt. Anthropic's Prompt Caching eignet sich gut für dieses Muster — markieren Sie System-Prompt + Tool-Definitionen als Cache-berechtigt und die Konversationshistorie wächst auf gecachtem Präfix. Typische Einsparungen: 40-60% auf Input über Multi-Turn-Agenten.

OpenAI Assistants API: verwaltet Konversationszustand server-seitig via Thread + Nachricht Objekte. Praktisch aber in Rechnung gestellt identisch zu dass Sie die Historie selbst weitergeben — es gibt keine Magie. Die Assistants API unterstützt gecachte Threads auf langlebigen Konversationen.

AutoGen: Multi-Agent-Muster (ein Modell orchestriert andere Modelle) multiplizieren Kosten pro Agent-Zahl. Ein 3-Agent-AutoGen-Team das 6 Züge je läuft = 18 LLM-Aufrufe Minimum. Verwenden Sie das kleinste kompetente Modell für die Worker-Agenten und reservieren Sie die starke Stufe für den Orchestrator.

CrewAI: ähnlicher Multi-Agent-Multiplikator. Nützliches Muster: verwenden Sie Haiku 4.5 oder gpt-5.4-mini für die Worker-Agenten (Suche, Zusammenfassung, Überprüfung), Sonnet 4.6 oder gpt-5.5 für den Orchestrator. Gesamtkosten üblicherweise 3-5x eine Single-Agent-Schleife, nicht 10x.


Caching für Agenten: die kanonische Einrichtung

Schritt 1: identifizieren Sie den stabilen Teil Ihres Agent-Prompts. System-Prompt, Tool-Definitionen, Persona und alle Referenzdokumente die sich über Züge nicht ändern. Dies ist das Cache-berechtigte Präfix.

Schritt 2: strukturieren Sie die Nachrichtenordnung so dass das stabile Präfix zuerst sitzt. Konversationshistorie und Tool-Ergebnisse kommen danach. Variable Benutzereingabe kommt zuletzt.

Schritt 3: aktivieren Sie Caching. Auf Claude: fügen Sie cache_control: {type: 'ephemeral'} zum letzten Cache-berechtigten Nachrichtenblock hinzu. Auf OpenAI: Caching ist opportunistisch — lange stabile Präfixe cachen automatisch ab Juni 2026. Auf Gemini: explizites Context Caching via die Caches API; gecachter Inhalt hat konfigurierbare TTL.

Schritt 4: messen Sie die Cache-Hit-Rate. Auf Anthropic gibt die Antwort usage.cache_read_input_tokens und usage.cache_creation_input_tokens an. Ziel: 70-90% Cache-Treffer auf Agent-Schleifen mit stabilen Präfixen.

Schritt 5: amortisieren Sie Cache-Schreib. Der erste Aufruf zu einem neuen Präfix wird bei 1,25x Basis-Input (5-Minuten TTL) oder 2x Basis-Input (1-Stunden TTL) in Rechnung gestellt. Es zahlt sich nach grob 3 Lesevorgängen aus. Bei Agenten die viele Male innerhalb einer einzelnen Benutzersession schleifen ist dies trivial. Bei Agenten die einmal pro Benutzersession feuern wählen Sie die 1-Stunden TTL um Cache-Hit-Rate über Benutzer im gleichen Produkt-Flow zu maximieren.

Caching ist der höchste Einfluss Hebel auf Agent-Kosten. Die meisten Teams die es nicht aktiviert haben zahlen 2-3x mehr als nötig.


Die richtige Modell-Stufe für jede Agent-Rolle wählen

Multi-Agent-Setups profitieren von Mixed-Tier-Deployment. Verwenden Sie ein starkes Modell nur wo es zählt; billige Modelle überall sonst.

Orchestrator (der Agent der Tool-Aufrufe plant und die endgültige Antwort synthetisiert): Claude Sonnet 4.6 oder OpenAI gpt-5.5. Die Orchestrator-Qualität treibt direkt die endgültige Antwort-Qualität. Sparen Sie nicht hier.

Tool-Use-Worker (Agenten die spezifische Tools ausführen und Ergebnisse zurückgeben): Claude Haiku 4.5 oder OpenAI gpt-5.4-mini. Diese folgen üblicherweise engen Schemas (führen diese Query aus, fasse diese Seite zusammen, parse diese JSON); das starke Modell ist Overkill.

Critic / Verifier (Agent der die Orchestrator-Arbeit überprüft): Claude Sonnet 4.6. Qualität zählt auch hier; Fehler durch den Critic leiten weiter.

Final-Answer-Formatter: Claude Haiku 4.5 oder gpt-5.4-mini. Der Orchestrator hat bereits die Reasoning getan; der Formatter produziert nur die Antwort-Form.

Ausgearbeitete Mathematik auf einem typischen 4-Agent-Setup (1 Orchestrator + 2 Worker + 1 Critic) bei 1.000 Schleifen/Tag: alle-Sonnet 4.6 ≈ $548/Tag. Mixed-Tier (Sonnet + 2 Haiku + 1 Sonnet) ≈ $228/Tag — 58% billiger bei ähnlicher End-to-End-Qualität auf die meisten Workloads. Die Einsparungen summieren sich monatlich.


Sub-Agent-Delegations-Muster: wie man billige und starke Agenten für 80% Kostenreduktion verkettet

Single-Agent-Schleifen treffen eine Obergrenze. Past 8-10 Tool-Aufrufe, füllt sich das Context-Fenster mit alten Tool-Ergebnissen, die Orchestrator-Reasoning-Qualität verschlechtert sich, und die Pro-Turn-Kosten klettern quadratisch weil jeder neuer Zug alles das was davor kam wiedergegeben. Die Lösung die über 2026 Produktions-Deployments aufgekommen ist ist das Orchestrator-Worker-Muster: ein starker Agent (Sonnet 4.6, gpt-5.5, oder Opus 4.8) entscheidet welche Arbeit getan werden muss und delegiert diskrete Aufgaben zu einer Flotte billiger Sub-Agenten (Haiku 4.5, gpt-5.4-mini, Gemini 2.5 Flash), jeder der in seinem eigenem frischen Context-Fenster operiert. Der Orchestrator sieht nie die Roh-Tool-Ausgabe — nur die Worker's komprimierte Zusammenfassung. Gut gemacht, schneidet dies die Rechnung 60-80% gegenüber einer Single-Sonnet-Schleife bei gleicher oder besserer Antwort-Qualität. Schlecht gemacht, verdreifacht es die Rechnung weil jeder Worker-Reload seine eigene System-Prompt-Steuer bezahlt.

Ausgearbeiteter Vergleich auf einer Research-Workload (finde und synthetisiere fünf Quellen zu einer technischen Frage). Single Sonnet 4.6 Schleife: 12 Tool-Aufrufe, ~62.000 kumulative Input-Token, ~5.000 Output. Rechnung: $0,261 pro Query. Orchestrator-Worker-Version: Sonnet 4.6 Orchestrator läuft eine 4-Call-Planungs-Schleife (~12.000 Input, 1.200 Output = $0,054), spawnt 5 parallele Haiku 4.5 Such-Worker je mit einem 1.500-Token-Gültigkeits-Prompt und 3 Tool-Aufrufe die eine 400-Token-Zusammenfassung (~8.000 Input + 600 Output pro Worker × 5 = $0,032 + $0,006 = $0,038 insgesamt) zurückgeben, dann ein finaler Sonnet 4.6 Synthesizer nimmt die 5 Zusammenfassungen (~4.500 Input + 1.500 Output = $0,036). Gesamtsumme: $0,128 pro Query — eine 51% Schnitt. End-to-End-Latenz sinkt auch weil die 5 Worker parallel statt sequenziell in einer Schleife laufen.

Die Sub-Agent-Zahl ist ein echten Tradeoff, nicht ein kostenlos Hebel. Zu wenig Worker und der Orchestrator macht immer noch den meisten der Reasoning selbst, was bedeutet dass Strong-Tier-Token auf Routinearbeit ausgegeben werden; die Kosten bewegen sich kaum. Zu viele Worker und drei Probleme zusammen: jeder Worker bezahlt seine eigene ~1.500-Token System-Prompt-plus-Tool-Definitionen Setup-Kosten (die nicht über den Swarm amortisiert wird), der Orchestrator brennt Token die N Zusammenfassungen liest und verschmelzt, und Koordinations-Fehler (Worker die gleiche Arbeit erledigen, den Brief verfehlen) ziehen die Qualität runter. Die sweet Stelle für die meisten Produktions-Agenten ist 3-6 Worker pro Orchestrator-Zug. Über 8 Worker, die Pro-Worker Setup-Steuer überwiegt die Tier-Drop-Einsparungen und die Rechnung fängt wieder an zu klettern.

Map-Reduce ist das Arbeitspferd-Muster wenn die Eingabe saubern teilt. Der Orchestrator partitioniert die Arbeit (5 Dokumente, 12 Log-Shards, 30 Produkt-Reviews), spawnt einen billigen Worker pro Chunk zum Extrahieren oder Bewerten, dann verschmilzt die strukturierte Ausgabe. Kosten-Profil: linear in Chunk-Zahl, keine Geschichts-Ansammlung pro Worker weil jeder Worker nur seinen Chunk sieht. Echte Zahlen auf einer 30-Dokument-Klassifikations-Aufgabe: Single Sonnet Schleife die alle 30 Dokumente im Kontext wiedergegeben = ~$0,84 pro Lauf; Map-Reduce mit 30 Haiku Worker + Sonnet Merger = ~$0,19 pro Lauf, eine 77% Schnitt. Lohnt sich die Orchestrations-Code wenn Chunk-Zahl 5 übersteigt und Chunks in Worker-Kontext passen.

Critic-Loop-Paare ein Generator mit einem Verifier. Der Generator (oft billig — Haiku 4.5 oder gpt-5.4-mini) entwirft eine Antwort; der Critic (stark — Sonnet 4.6 oder Opus 4.8) inspiziert sie auf Fehler und genehmigt sie entweder oder gibt spezifische Korrekturen zurück. Jede Schleife kostet die Summe eines billigen Aufrufs und eines starken Aufrufs, üblicherweise $0,04-$0,08 pro Iteration, und 1-3 Iterationen löst die meisten Aufgaben. Netto-Kosten sind vergleichbar mit einem Single-Sonnet-Aufruf aber mit messbar höherer Genauigkeit auf Aufgaben wo Fehler einfach zu sehen aber schwer zu vermeiden sind (Code-Generierung, strukturierte Extraktion, faktische Aussagen). Überspringe dieses Muster wenn der Critic nicht zuverlässlich gute Antworten von schlechten unterscheiden kann — die Debugging eines fehlerhaften Critic brennt Geld ohne Qualität zu verbessern.

Planner-Executor trennt die Strong-Model-Reasoning von der Massen-Ausführung. Ein Sonnet 4.6 oder Opus 4.8 Planner produziert einen strukturierten 5-15 Schritt-Plan in einem Aufruf ($0,02-$0,06), dann ein Haiku 4.5 oder gpt-5.4-mini Executor läuft jeden Schritt mit enge Gültig und kein Bedarf zu re-planen. Der Executor sieht nie das volle Problem — nur den aktuellen Schritt plus relevante Tool-Ergebnisse — was sein Context-Fenster klein hält. Nützlich wenn Schritte unabhängig oder nur lose gekoppelt sind. Debatte (N unabhängige Modelle schlagen Antworten vor, ein Richter wählt die beste) ist das teuerste Muster in dieser Familie und lohnt sich der Kosten nur wenn Antwort-Korrektheit hohe nachgelagerte Einsätze hat (rechtliche Überprüfung, medizinische Triage, finanzielle Entscheidungen). Drei-Modell-Debatte bei Sonnet 4.6 + Sonnet 4.6 + Opus 4.8 mit einem Opus 4.8 Richter läuft grob $0,85 pro Entscheidung — reservieren Sie für Fälle wo eine falsche Antwort viel mehr als $0,85 kostet.

Entscheidungsregel: bleiben Sie bei einer Single-Agent-Schleife bis Sie ein konkretes Problem messen — Kontext-Aufbauung past 40.000 Token pro Schleife, Qualitäts-Verschlechterung past 8 Tool-Aufrufen, oder Pro-Schleife-Kosten über $0,20 auf einer hochvolumigen Workload. Dann wählen Sie das Muster das dem Fehler entspricht: Map-Reduce für saubern geteilte Eingabe, Critic-Loop für Genauigkeits-Probleme, Planner-Executor für lange deterministische Workflows, Debatte nur wenn Einsätze es rechtfertigen. Die Kosten-Disziplin die am meisten zählt ist dass jeder Worker's Prompt eng genug scoped bleibt dass die Pro-Worker Setup-Steuer unter 25% von dieser Worker's gesamt Token-Ausgabe bleibt.


Wie man Agent-Kosten vor dem Bauen prognostiziert

Schritt 1: zählen Sie Tools. Listen Sie die Tools die der Agent nutzen wird auf. Typische Agenten nutzen 3-10 Tools; eine Tool-Definition ist ~100-200 Token je nach Schema.

Schritt 2: schätzen Sie Tool-Ergebnis-Größen. Bytes-pro-Ergebnis und Token-pro-Ergebnis. Web-Suche ≈ 400-2.000 Token. Datenbank-Query ≈ 200-800 Token. Code-Ausführung ≈ 100-500 Token. Benutzerdefinierte API ≈ 100-1.000 Token je nach Payload.

Schritt 3: schätzen Sie Schleife-Tiefe. Wie viele Tool-Aufrufe bevor der Agent die endgültige Antwort erreicht? Typisch: 4-8 Aufrufe. Langlebende Research-Agenten: 10-30 Aufrufe.

Schritt 4: summieren Sie Input-Token über die Schleife. Beginnen Sie mit System-Prompt + Tool-Definitionen (~2.000-6.000 Token). Jeder Zug fügt seinen vorherigen Output (200-500 Token) + Tool-Ergebnis (200-2.000 Token) hinzu. Nach N Zügen, Input kumulativ ≈ N × N/2 × durchschnittlich_pro_Zug (das quadratische Wachstum aus History-Ansammlung).

Schritt 5: multiplizieren Sie mit täglichem Schleife-Volumen und Modell-Rate. Vergleichen Sie gegen die gecachte Version, gebündelte Version und eine Tier-Drop-Version. Wählen Sie die billigste die Qualität hält.

Wenn projizierte Kosten > $1.000/Tag bei Launch, läufen Sie einen Kostenoptimierungs-Pass vor Launch, nicht nach. Caching + Tier-Drop + Tool-Ergebnis-Kompression schneidet normalerweise die Rechnung 60-80% mit vernachlässigbarer Qualitäts-Auswirkung wenn gedacht geht.

Frequently Asked Questions

Wie viel kostet ein KI-Agent pro Schleife?

Eine typische 6-Tool-Call-Agent-Schleife kostet $0,02-$0,25 je nach Modell-Stufe — grob 10x die Kosten eines einzelnen direkten Antwort-Aufrufs. Caching kann dies um 40-60% schneiden; Batching kann weitere 50% oben drauf schneiden. Ausgearbeitete $ Mathematik für jedes großes Modell ist in der Tabelle oben.

Warum sind Agenten so viel teurer als Chat-Completions?

Weil jeder Zug die volle Konversationshistorie (System-Prompt + vorherige Nachrichten + vorherige Tool-Ergebnisse) als Input wiedergegeben. Nach 6 Tool-Aufrufen sind Input-Token 10-15x was sie für einen einzelnen Direkt-Antwort-Aufruf wären. Caching des stabilen System-Prompts ist die kanonische Lösung.

Welches Modell ist am billigsten für Produktions-Agenten 2026?

Gemini 2.5 Flash bei ~$0,017 pro typische Schleife ist die billigste Mainstream-Stufe. Claude Haiku 4.5 bei ~$0,046 ist die billigste von Anthropic's Modellen. gpt-5.4-mini bei ~$0,037 ist die billigste OpenAI-Option. Passen Sie die Stufe an erforderliche Reasoning-Tiefe an — die meisten Produktions-Agenten machen es gut auf den billigeren Stufen wenn Tools und Prompts gut-strukturiert sind.

Wie viel spart Prompt Caching auf Agent-Schleifen?

40-60% auf Input-Rechnungen wenn System-Prompt + Tool-Definitionen Cache-berechtigt sind und über Schleifen stabil. Auf einen $137/Tag Sonnet 4.6 Agent bei 1.000 Schleifen/Tag, Caching senkt die Rechnung zu ~$76/Tag — eine $1.800/Monat Ersparniss. Höhere Cache-Hit-Raten geben größere Einsparungen.

Soll ich LangGraph, Claude Agent SDK, oder OpenAI Assistants verwenden?

Kosten-weise sind sie ähnlich — alle rechnen auf den zugrunde liegenden LLM-Aufrufen ab. Wählen Sie per Ökosystem-Fit: LangGraph für Graph-basierte Multi-Agent-Orchestration, Claude Agent SDK für Anthropic-native Tool-Use mit Caching, OpenAI Assistants für Server-verwaltete Threads und integrierte Retrieval. Preisunterschiede sind im LLM, nicht dem Framework.

Wie schnide ich meine Agent-Kosten diese Woche um 50%?

Schritt 1: aktivieren Sie Prompt Caching auf dem stabilen System-Prompt + Tool-Definitionen (üblicherweise 40-60% Input-Ersparniss). Schritt 2: senken Sie Tool-Ergebnis-Größen durch Zusammenfassungs- oder Extraktion- vor dem Zurückgeben (üblicherweise 20-30% zusätzliche Input-Ersparniss). Schritt 3: senken Sie eine Modell-Stufe auf Tool-Ausführungs-Sub-Agenten während Sie den Orchestrator auf einem starken Modell halten. Kombiniert: 50-70% Ersparniss auf die meisten Agenten.

Was ist der Tool-Call-Multiplikator?

Grob 10-15x mehr Input-Token und 2-3x mehr Output-Token als die gleiche Aufgabe beantwortet ohne Tools. Verursacht durch die volle Konversationshistorie die auf jedem Zug wiedergegeben wird, plus Pro-Zug-Output (Tool-Call-Argumente) und Tool-Ergebnisse. Ausgearbeitete Zerlegung ist im Abschnitt 'Warum Agenten 10x kosten' oben.

Kann ich Multi-Agent-Setups billig laufen?

Ja — verwenden Sie ein Mixed-Tier-Deployment. Starkes Modell (Sonnet 4.6 oder gpt-5.5) für den Orchestrator und Critic; billiges Modell (Haiku 4.5 oder gpt-5.4-mini) für Tool-Ausführungs-Worker und Final-Answer-Formatters. Typische Ersparniss: 50-60% vs ein All-Strong-Tier-Setup bei ähnlicher End-to-End-Qualität.

Wie viele Sub-Agenten soll ein Orchestrator pro Zug spawnen?

3-6 Worker ist die sweet Stelle für die meisten Produktions-Agenten. Unter 3, macht der Orchestrator immer noch den meisten der Reasoning selbst und die Tier-Drop-Einsparungen sind klein. Über 8, jeder Worker's ~1.500-Token System-Prompt-plus-Tool-Definitionen Setup-Kosten stapeln sich schneller als die billige-Tier-Einsparungen können den Offset, und die Rechnung fängt wieder an zu klettern. Koordinations-Fehler (Worker die die gleiche Aufgabe erledigen, den Brief verfehlen) steigen auch mit Worker-Zahl.

Wann lohnt sich das Critic-Loop-Muster für den zusätzlichen LLM-Aufruf?

Wenn Fehler leicht für ein starkes Modell zu sehen sind aber schwer für den Generator zu vermeiden — Code-Generierung, strukturierte Extraktion, faktische Aussagen, Schema-gebundene Ausgabe. Eine typische Critic-Loop läuft $0,04-$0,08 pro Iteration und löst in 1-3 Iterationen, vergleichbar mit einem Single-Sonnet-Aufruf aber mit messbar höherer Genauigkeit. Überspringe das Muster wenn der Critic nicht zuverlässig gut von schlecht unterscheiden kann — ein flaky Critic brennt Geld ohne Qualität zu verbessern.

Wie viel kann ein Orchestrator-Worker-Muster gegenüber einer Single-Sonnet-Schleife sparen?

Üblicherweise 50-80% auf Research-artige Workloads wo Arbeit saubern teilt. Ausgearbeitetes Beispiel: eine Single Sonnet 4.6 Research-Schleife mit 12 Tool-Aufrufen kostet ~$0,26 pro Query; die Orchestrator-Worker-Version (Sonnet 4.6 Planner + 5 parallele Haiku 4.5 Such-Worker + Sonnet 4.6 Synthesizer) kostet ~$0,13 pro Query — eine 51% Schnitt, plus niedrigere Latenz von paralleler Ausführung. Map-Reduce auf geteilter Eingabe (z.B. 30 Dokumente) kann 75-80% Einsparungen treffen.

Holen Sie sich das 2026 Agent-Kosten-Spickzettel

Eine-Seite PDF mit Pro-Schleife $ Mathematik, die Tool-Call-Multiplikator-Formel und die Caching/Batching-Hebel — kostenlos, kein Signup-Tor.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.