Par l'équipe DDH · Digital Dashboard Hub

Calculateur de coût agent IA 2026 : Mathématiques par boucle pour LangGraph, Claude Agent et compagnie

By DDH Research Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Les agents IA sont des appels LLM qui consultent des outils (recherche web, exécution de code, requêtes base de données, API personnalisées) sur plusieurs tours avant de produire une réponse finale. En juin 2026, une boucle agent typique facture 5-15x les tokens d'entrée et 8-25x les tokens de sortie d'un appel de réponse directe — car l'historique de conversation grandit avec chaque appel d'outil, et chaque résultat d'outil est rejeu en entrée au tour suivant.

La plupart des équipes sous-estiment le coût agent de 5-10x au moment de la planification et dépassent le budget dans le premier mois de production. La solution est simple : modéliser correctement la boucle, mettre en cache le prompt système stable, regrouper ce qui peut attendre, et choisir le bon tier de modèle pour chaque rôle agent. Vous trouverez ci-dessous la formule de coût par boucle, des exemples concrets sur les frameworks et modèles, et les patterns qui réduisent les factures agent de 50-80 %. Pour la comparaison des coûts du modèle de base, consultez notre calculateur de coût GPT vs Claude vs Gemini, ou téléchargez le PDF gratuit du cheat sheet agent-cost.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Coût de boucle agent IA par 100 boucles — juin 2026 (boucle typique 6 appels d'outil, contexte 8k)

Feature	Tokens d'entrée par boucle	Tokens de sortie par boucle	$ par boucle (tarif standard)	Par 1 000 boucles
Claude Sonnet 4.6 (agent typique)	~28 000	~3 500	$0,137	$137
Claude Opus 4.8 (agent avancé)	~28 000	~3 500	$0,228	$228
Claude Haiku 4.5 (agent léger)	~28 000	~3 500	$0,046	$46
Claude Fable 5 (agent raisonnement)	~28 000	~7 000 (raisonnement inclus)	$0,630	$630
OpenAI gpt-5.5 (agent typique)	~28 000	~3 500	$0,245	$245
OpenAI gpt-5.4 (agent typique)	~28 000	~3 500	$0,123	$123
OpenAI gpt-5.4-mini (agent haut volume)	~28 000	~3 500	$0,037	$37
OpenAI o4-reasoning (agent recherche)	~28 000	~10 000 (raisonnement inclus)	$1,020	$1 020
Google Gemini 2.5 Pro (agent typique)	~28 000	~3 500	$0,070	$70
Google Gemini 2.5 Flash (agent haut volume)	~28 000	~3 500	$0,017	$17
Gemini 2.5 Pro + 80% prefix mis en cache	~28 000 (5 600 base + 22 400 cache)	~3 500	$0,029 (cache économise 59%)	$29
Claude Sonnet 4.6 + 80% prefix mis en cache	~28 000 (5 600 base + 22 400 cache)	~3 500	$0,076 (cache économise 45%)	$76
OpenAI gpt-5.4 + 80% prefix mis en cache	~28 000 (5 600 base + 22 400 cache)	~3 500	$0,072 (cache économise 42%)	$72

Sources, juin 2026 : tarifs modèle d'OpenAI (https://developers.openai.com/api/docs/pricing), Anthropic (https://claude.com/pricing), Google Gemini (https://ai.google.dev/gemini-api/docs/pricing). Estimations tokens par boucle d'un agent typique 6 appels d'outil avec prompt système 2 000 tokens + définitions d'outil, 6 résultats d'outil moyennant 800 tokens chacun, et ~3 500 tokens totaux de sortie incluant arguments d'appel d'outil. Prefix mis en cache suppose le prompt système et définitions d'outil éligibles au cache et stables dans les boucles ; les hits de cache facturent environ 10% de l'entrée de base sur Claude et OpenAI.

Pourquoi les agents coûtent 10x plus qu'un seul appel

Une boucle agent est une séquence d'appels LLM dans une même requête vue par l'utilisateur. Chaque tour passe l'historique de conversation complet — prompt système + définitions d'outil + tous les messages antérieurs + tous les résultats d'outil antérieurs — en entrée du modèle. L'historique grandit à chaque tour.

Décomposition concrète pour un agent typique 6 appels d'outil :

Tour 1 : prompt système 2 000 tokens + requête utilisateur 200 tokens → 2 200 entrée → 200 sortie (demande d'appel d'outil)

Tour 2 : 2 200 + 200 (sortie tour 1) + 800 (résultat d'outil) → 3 200 entrée → 200 sortie (appel d'outil suivant)

Tour 3 : 3 200 + 200 + 800 → 4 200 entrée → 200 sortie

Tour 4 : 4 200 + 200 + 800 → 5 200 entrée → 200 sortie

Tour 5 : 5 200 + 200 + 800 → 6 200 entrée → 200 sortie

Tour 6 : 6 200 + 200 + 800 → 7 200 entrée → 200 sortie

Tour 7 (réponse finale) : 7 200 + 200 + 800 → 8 200 entrée → 1 500 sortie (réponse à l'utilisateur)

Total : tokens d'entrée sommés sur 7 tours = 36 400. Tokens de sortie = 7 × ~300 = ~2 100 — bien que la réponse finale ajoute 1 500 de plus, soit ~3 500 de sortie au total. La même tâche résolue sans agent coûterait ~2 200 entrée + 1 500 sortie = 3 700 tokens totaux. L'agent coûte environ 11x plus en entrée et 2,3x plus en sortie.

Les nombres ci-dessus sont arrondis pour le tableau. Les vraies boucles varient selon la taille des résultats d'outil, le nombre d'outils, et si le modèle raisonne à haute voix entre les outils.

Exemple concret 1 : 100 boucles agent à des tiers de modèle typiques

Charge de travail de référence : 100 requêtes utilisateur, chacune générant une boucle agent 6 appels d'outil. Totaux par boucle : ~28 000 entrée + ~3 500 sortie (arrondis pour l'ajustement du tableau ; correspond au schéma ci-dessus).

Claude Sonnet 4.6 : 100 × (28k × $3/1M + 3,5k × $15/1M) = 100 × ($0,084 + $0,053) = 100 × $0,137 = $13,70.

Claude Haiku 4.5 : 100 × ($0,028 + $0,018) = 100 × $0,046 = $4,60.

OpenAI gpt-5.5 : 100 × ($0,14 + $0,105) = 100 × $0,245 = $24,50.

OpenAI gpt-5.4-mini : 100 × ($0,021 + $0,016) = 100 × $0,037 = $3,70.

Google Gemini 2.5 Pro : 100 × ($0,035 + $0,035) = 100 × $0,070 = $7,00.

Google Gemini 2.5 Flash : 100 × ($0,0084 + $0,00875) = 100 × $0,017 = $1,74.

Pour 100 boucles, l'écart va de $1,74 (Gemini Flash) à $24,50 (gpt-5.5) — une plage de 14x sur une charge de travail identique. La qualité varie — Gemini Flash échouera plus de boucles que Sonnet 4.6 sur du raisonnement avancé — mais pour les tâches agent haut volume plus simples la différence est de l'argent réel.

Exemple concret 2 : 1 000 boucles/jour avec mise en cache

Charge de travail de référence : 1 000 boucles agent par jour, prompt système + définitions d'outil (2 000 tokens) mis en cache. Écriture de cache facturée une fois par fenêtre de cache ; le reste facture les lectures de cache.

Sans cache (Claude Sonnet 4.6 @ standard) : 1 000 boucles × $0,137 = $137/jour = ~$4 100/mois.

Avec 80% cache d'entrée (prompt système + définitions d'outil mis en cache, historique de conversation pas mis en cache car il grandit par boucle) : portion mise en cache facturée à $0,30/1M, non mise en cache à $3/1M. Par boucle : 22 400 mis en cache × $0,30/1M = $0,0067 + 5 600 non mis en cache × $3/1M = $0,017. Plus sortie inchangée à $0,053. Par boucle : $0,076. Quotidien : $76. Mensuel : ~$2 280. Une réduction de 44%.

Piler avec l'API Batch où applicable (agents d'analyse hors ligne, pas en temps réel utilisateur). 50% de réduction sur l'entrée et sortie des boucles regroupées. Si 30% des boucles quotidiennes sont regroupables : 700 boucles sync × $0,076 + 300 boucles batch × $0,038 = $53,20 + $11,40 = $64,60/jour. Mensuel : ~$1 940. Une réduction de 53% au total.

Baisser d'un tier : mêmes 1 000 boucles sur Haiku 4.5 avec cache : $0,013/boucle × 1 000 = $13/jour = ~$390/mois. Une réduction de 90% par rapport à la baseline Sonnet non cachée. Justifié seulement si l'évaluation montre que Haiku correspond à la précision requise pour le pattern d'utilisation d'outil de cet agent.

Auditer le coût par boucle de l'agent au début. La plupart des équipes découvrent que leurs agents coûtent 5-10x plus que projeté ; la solution est presque toujours le cache + baisse de tier, pas refactoriser le framework.

Taille d'appel d'outil : le plus grand levier de coût

Le facteur que la plupart des équipes négligent est la taille du résultat d'outil. Une recherche web qui retourne 4 000 tokens de contenu coûte plus cher à chaque tour suivant car chaque tour rejeu ce résultat en entrée. Une boucle 6 outils avec résultats 4k-tokens coûte environ 2,5x plus qu'une boucle 6 outils avec résultats 800-tokens.

Compresser les résultats d'outil avant de les retourner au modèle. Extraire les snippets pertinents, résumer les réponses longues, réduire le JSON verbeux. Un outil de recherche web qui retourne 'top 3 résultats, 150 mots chacun' coûte bien moins qu'un retournant le contenu de page complet — et d'ordinaire améliore le comportement agent car le modèle n'est pas distrait par le bruit.

Limiter le nombre d'outils. Chaque définition d'outil dans le prompt système coûte des tokens d'entrée à chaque boucle. Un agent 30 outils a ~6 000 tokens de définitions d'outil ; un agent 5 outils a ~1 000. Si vous pouvez restreindre les outils disponibles par rôle agent, faites-le. Le modèle raisonne aussi mieux avec moins de choix.

Utiliser la sélection d'outil. Certains frameworks (LangGraph, OpenAI Assistants) vous laissent restreindre dynamiquement les outils disponibles par tour. Fournir seulement le sous-ensemble pertinent selon le contexte. Réduit les tokens d'entrée et améliore la justesse de la sélection.

Pour les stratégies de qualité de prompt qui produisent des définitions d'outil plus serrées, notre générateur de prompt code aide à compresser les schémas techniques sans perdre la précision.

Pièges spécifiques aux frameworks

LangGraph : l'état traverse chaque nœud en grandissant à mesure que les nœuds ajoutent. Si votre état inclut la sortie intermédiaire complète de chaque outil, la taille d'entrée se compose à chaque tour. Utiliser des nœuds de trimming d'état qui résument l'ancien contexte avant de passer au nœud suivant — un pattern courant est de résumer le contexte tour-5+ en un récapitulatif 500-tokens avant le tour 8.

Claude Agent SDK / Anthropic Tool Use : les résultats d'outil sont annexés à l'historique de message exactement comme retournés. La mise en cache de prompt d'Anthropic convient bien à ce pattern — marquer le prompt système + définitions d'outil comme éligibles au cache et l'historique de conversation grandit sur le prefix mis en cache. Économies typiques : 40-60% sur l'entrée pour les agents multi-tour.

OpenAI Assistants API : maintient l'état de conversation serveur-side via objets thread + message. Pratique mais facturé identiquement à passer l'historique soi-même — il n'y a pas de magie. L'API Assistants supporte les threads cachés sur les conversations longue durée.

AutoGen : les patterns multi-agent (un modèle orchestrant d'autres modèles) multiplient les coûts par nombre d'agents. Une équipe AutoGen 3-agents exécutant 6 tours chacun = 18 appels LLM au minimum. Utiliser le plus petit modèle compétent pour les agents worker et réserver le tier fort pour l'orchestrateur.

CrewAI : multiplicateur multi-agent similaire. Pattern utile : utiliser Haiku 4.5 ou gpt-5.4-mini pour les agents worker (recherche, résumer, vérifier), Sonnet 4.6 ou gpt-5.5 pour l'orchestrateur. Le coût total est généralement 3-5x une boucle single-agent, pas 10x.

Mise en cache pour agents : la configuration canonique

Étape 1 : identifier la portion stable de votre prompt agent. Prompt système, définitions d'outil, persona, et tout document de référence qui ne change pas entre les tours. C'est le prefix éligible au cache.

Étape 2 : structurer l'ordre des messages pour que le prefix stable s'assoie en premier. L'historique de conversation et résultats d'outil viennent après. L'entrée utilisateur variable vient en dernier.

Étape 3 : activer la mise en cache. Sur Claude : ajouter cache_control: {type: 'ephemeral'} au dernier bloc de message cachable. Sur OpenAI : la mise en cache est opportuniste — les prefixes stables longs se mettent en cache automatiquement dès juin 2026. Sur Gemini : mise en cache de contexte explicite via l'API Caches ; le contenu mis en cache a un TTL configurable.

Étape 4 : mesurer le taux de hit de cache. Sur Anthropic, la réponse inclut usage.cache_read_input_tokens et usage.cache_creation_input_tokens. Viser 70-90% de cache hits sur les boucles agent avec prefixes stables.

Étape 5 : amortir les écritures de cache. Le premier appel à un nouveau prefix facture 1,25x l'entrée de base (TTL 5 minutes) ou 2x l'entrée de base (TTL 1 heure). C'est rentable après environ 3 lectures. Pour les agents qui bouclent plusieurs fois dans une session utilisateur, c'est trivial. Pour les agents qui tirent une fois par session utilisateur, choisir le TTL 1 heure pour maximiser le taux de hit entre utilisateurs dans le même flux produit.

La mise en cache est le plus haut impact levier sur le coût agent. La plupart des équipes qui ne l'ont pas activée paient 2-3x plus que nécessaire.

Choisir le bon tier de modèle pour chaque rôle agent

Les déploiements multi-agent bénéficient d'un déploiement tier mixte. Utiliser un modèle fort seulement où cela compte ; des modèles bon marché partout ailleurs.

Orchestrateur (l'agent qui planifie les appels d'outil et synthétise la réponse finale) : Claude Sonnet 4.6 ou OpenAI gpt-5.5. La qualité de l'orchestrateur pilote directement la qualité de la réponse finale. Ne pas faire l'économie ici.

Travailleurs d'utilisation d'outil (agents qui exécutent des outils spécifiques et retournent les résultats) : Claude Haiku 4.5 ou OpenAI gpt-5.4-mini. Ceux-ci suivent d'ordinaire des schémas serrés (exécuter cette requête, résumer cette page, parser ce JSON) ; le modèle fort est excessif.

Critique / vérificateur (agent qui vérifie le travail de l'orchestrateur) : Claude Sonnet 4.6. La qualité compte ici aussi ; les erreurs du critique en cascade.

Formateur de réponse finale : Claude Haiku 4.5 ou gpt-5.4-mini. L'orchestrateur a déjà fait le raisonnement ; le formateur produit juste la forme de réponse.

Mathématiques concrètes sur une configuration typique 4-agents (1 orchestrateur + 2 workers + 1 critique) à 1 000 boucles/jour : tout Sonnet 4.6 ≈ $548/jour. Tier mixte (Sonnet + 2 Haiku + 1 Sonnet) ≈ $228/jour — 58% moins cher à qualité end-to-end similaire sur la plupart des charges de travail. Les économies se composent mensuellement.

Patterns de délégation de sub-agent : comment chaîner des agents bon marché et forts pour une réduction de coût de 80%

Les boucles single-agent frappent un plafond. Passé 8-10 appels d'outil, la fenêtre de contexte se remplit de résultats d'outil périmés, la qualité de raisonnement de l'orchestrateur se dégrade, et le coût par tour grimpe de façon quadratique car chaque nouveau tour rejeu tout ce qui est venu avant. La solution qui a émergé dans les déploiements production 2026 est le pattern orchestrateur-worker : un agent fort (Sonnet 4.6, gpt-5.5, ou Opus 4.8) décide quel travail doit être fait et délègue des tâches discrètes à une flotte d'agents sub-agent moins cher (Haiku 4.5, gpt-5.4-mini, Gemini 2.5 Flash), chacun opérant dans sa propre fenêtre de contexte fraîche. L'orchestrateur ne voit jamais la sortie brute d'outil — seulement le résumé compressé du worker. Bien fait, cela réduit la facture de 60-80% par rapport à une seule boucle Sonnet à qualité égale ou mieux. Mal fait, cela triple la facture car chaque rechargement de worker paie sa propre taxe prompt système.

Comparaison concrète sur une charge de travail recherche (trouver et synthétiser cinq sources sur une question technique). Boucle Sonnet 4.6 unique : 12 appels d'outil, ~62 000 tokens d'entrée cumulés, ~5 000 sortie. Facture : $0,261 par requête. Version orchestrateur-worker : orchestrateur Sonnet 4.6 exécute une boucle planification 4-appels (~12 000 entrée, 1 200 sortie = $0,054), génère 5 workers recherche Haiku 4.5 parallèles chacun avec prompt scopé 1 500-tokens et 3 appels d'outil retournant un résumé 400-tokens (~8 000 entrée + 600 sortie par worker × 5 = $0,032 + $0,006 = $0,038 totaux), puis un synthétiseur Sonnet 4.6 final prend les 5 résumés (~4 500 entrée + 1 500 sortie = $0,036). Total grand total : $0,128 par requête — une réduction de 51%. La latence end-to-end baisse aussi car les 5 workers s'exécutent en parallèle plutôt que séquentiellement dans une boucle.

Le nombre de sub-agents est un vrai tradeoff, pas un levier gratuit. Trop peu de workers et l'orchestrateur fait toujours la plupart du raisonnement lui-même, ce qui signifie que les tokens tier fort se dépensent en travail de base ; le coût bouge à peine. Trop de workers et trois problèmes composent : chaque worker paie sa propre taxe ~1 500-tokens prompt-système-plus-définitions-d'outil (qui n'est pas amortie à travers l'essaim), l'orchestrateur brûle les tokens en lisant et fusionnant N résumés, et les échecs de coordination (workers refaisant le même travail, ratant le brief) traînent la qualité vers le bas. Le sweet spot pour la plupart des agents production est 3-6 workers par tour d'orchestrateur. Au-dessus de 8 workers, la taxe par-worker setup dépasse les économies bon marché-tier et la facture commence à grimper à nouveau.

Map-reduce est le pattern de base quand l'entrée se divise proprement. L'orchestrateur partitionne le travail (5 documents, 12 shards de log, 30 avis produit), génère un worker bon marché par chunk pour extraire ou scorer, puis fusionne les sorties structurées. Profil de coût : linéaire en nombre de chunks, pas d'accumulation d'historique par worker car chaque worker voit seulement son chunk. Chiffres réels sur une tâche classification 30-documents : boucle Sonnet simple rejouant tous les 30 docs en contexte = ~$0,84 par exécution ; map-reduce avec 30 workers Haiku + fusionneur Sonnet = ~$0,19 par exécution, une réduction de 77%. Vaut le code orchestration quand le nombre de chunks dépasse 5 et les chunks tiennent dans le contexte du worker.

Les paires critique-loop appairent un générateur avec un vérificateur. Le générateur (d'ordinaire bon marché — Haiku 4.5 ou gpt-5.4-mini) brouille une réponse ; le critique (fort — Sonnet 4.6 ou Opus 4.8) l'inspecte pour les erreurs et soit approuve soit retourne des corrections spécifiques. Chaque boucle coûte la somme d'un appel bon marché et d'un appel fort, généralement $0,04-$0,08 par itération, et 1-3 itérations résolvent la plupart des tâches. Le coût net est comparable à un appel Sonnet unique mais avec une précision mesurément plus haute sur les tâches où les erreurs sont faciles à voir mais difficiles à éviter (génération de code, extraction structurée, réclamations factuelles). Ignorer ce pattern quand le critique ne peut pas distinguer fiablement les bonnes réponses des mauvaises — déboguer un critique cassé brûle de l'argent sans améliorer la qualité.

Le split planificateur-exécuteur sépare le raisonnement du modèle fort de l'exécution massive. Un planificateur Sonnet 4.6 ou Opus 4.8 produit un plan structuré 5-15 étapes en un appel ($0,02-$0,06), puis un exécuteur Haiku 4.5 ou gpt-5.4-mini exécute chaque étape avec scope serré et pas besoin de re-planifier. L'exécuteur ne voit jamais le problème entier — seulement l'étape actuelle plus les résultats d'outil pertinents — ce qui maintient sa fenêtre de contexte petite. Utile quand les étapes sont indépendantes ou seulement faiblement couplées. Le débat (N modèles indépendants proposent réponses, un juge choisit la meilleure) est le pattern le plus cher de cette famille et vaut le coût seulement quand la justesse de réponse a des enjeux aval élevés (revue légale, triage médical, décisions financières). Débat trois-modèle à Sonnet 4.6 + Sonnet 4.6 + Opus 4.8 avec juge Opus 4.8 s'exécute environ $0,85 par décision — réserver pour les cas où une mauvaise réponse coûte bien plus que $0,85.

Règle de décision : rester avec une boucle single-agent jusqu'à mesurer un problème concret — bloat de contexte passant 40 000 tokens par boucle, dégradation de qualité passant 8 appels d'outil, ou coût par boucle au-dessus de $0,20 sur une charge haut volume. Ensuite choisir le pattern qui correspond à la défaillance : map-reduce pour l'entrée proprement chunked, critique-loop pour les problèmes de précision, planificateur-exécuteur pour les workflows longs déterministes, débat seulement quand les enjeux le justifient. La discipline de coût qui compte le plus est maintenir le prompt de chaque worker assez scopé pour que la taxe setup par-worker reste sous 25% du spend token total de ce worker.

Comment projeter le coût agent avant de construire

Étape 1 : compter les outils. Lister les outils que l'agent utilisera. Les agents typiques utilisent 3-10 outils ; une définition d'outil est ~100-200 tokens selon le schéma.

Étape 2 : estimer la taille des résultats d'outil. Bytes par résultat et tokens par résultat. Recherche web ≈ 400-2 000 tokens. Requête base de données ≈ 200-800 tokens. Exécution de code ≈ 100-500 tokens. API personnalisée ≈ 100-1 000 tokens selon le payload.

Étape 3 : estimer la profondeur de boucle. Combien d'appels d'outil avant que l'agent n'atteigne la réponse finale ? Typique : 4-8 appels. Agents recherche longue durée : 10-30 appels.

Étape 4 : sommer les tokens d'entrée à travers la boucle. Commencer avec prompt système + définitions d'outil (~2 000-6 000 tokens). Chaque tour ajoute sa sortie antérieure (200-500 tokens) + résultat d'outil (200-2 000 tokens). Après N tours, entrée cumulative ≈ N × N/2 × moyenne_par_tour (la croissance quadratique depuis l'accumulation d'historique).

Étape 5 : multiplier par volume de boucle quotidien et tarif modèle. Comparer à la version cachée, la version regroupée, et une version baisse de tier. Choisir la moins chère qui maintient la qualité.

Si coût projeté > $1 000/jour au lancement, exécuter une passe d'optimisation de coût avant le lancement, pas après. Le cache + baisse de tier + compression de résultat d'outil réduit généralement la facture de 60-80% sans impact de qualité mesurable quand fait pensivement.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Calculateur de coût GPT vs Claude vs Gemini→Tarification Anthropic Claude 2026→Tarification API OpenAI 2026→Limites de débit LLM 2026→

Frequently Asked Questions

Combien coûte un agent IA par boucle ?

Une boucle agent typique 6 appels d'outil coûte $0,02-$0,25 selon le tier de modèle — environ 10x le coût d'un appel de réponse directe. La mise en cache peut réduire cela de 40-60% ; le regroupement peut réduire un autre 50% par-dessus. Les mathématiques $ concrètes pour chaque modèle majeur sont dans le tableau ci-dessus.

Pourquoi les agents coûtent-ils tellement plus que les chat completions ?

Car chaque tour rejeu l'historique de conversation complet (prompt système + messages antérieurs + résultats d'outil antérieurs) en entrée. Après 6 appels d'outil, les tokens d'entrée sont 10-15x ce qu'ils seraient pour un appel de réponse directe. La mise en cache du prompt système stable est la solution canonique.

Quel modèle est le moins cher pour les agents production en 2026 ?

Gemini 2.5 Flash à ~$0,017 par boucle typique est le tier principal le moins cher. Claude Haiku 4.5 à ~$0,046 est le moins cher parmi les modèles Anthropic. gpt-5.4-mini à ~$0,037 est l'option OpenAI la moins chère. Adapter le tier à la profondeur de raisonnement requise — la plupart des agents production se débrouillent bien sur les tiers moins chers si les outils et prompts sont bien structurés.

Combien la mise en cache de prompt économise-t-elle sur les boucles agent ?

40-60% sur les factures d'entrée quand le prompt système + définitions d'outil sont éligibles au cache et stables entre les boucles. Sur un agent Sonnet 4.6 à $137/jour à 1 000 boucles/jour, la mise en cache réduit la facture à ~$76/jour — une économie de $1 800/mois. Les taux de hit de cache plus élevés produisent des économies plus grandes.

Devrais-je utiliser LangGraph, Claude Agent SDK, ou OpenAI Assistants ?

Côté coût, ils sont similaires — tous facturent sur les appels LLM sous-jacents. Choisir selon l'ajustement écosystème : LangGraph pour l'orchestration multi-agent basée graphe, Claude Agent SDK pour l'utilisation d'outil native Anthropic avec mise en cache, OpenAI Assistants pour les threads gérés serveur et la récupération intégrée. Les différences de tarification sont dans l'LLM, pas le framework.

Comment réduire mon coût agent de 50% cette semaine ?

Étape 1 : activer la mise en cache de prompt sur le prompt système + définitions d'outil stables (généralement 40-60% d'économie d'entrée). Étape 2 : baisser la taille des résultats d'outil en résumant ou extrayant avant de retourner (généralement 20-30% d'économies d'entrée supplémentaires). Étape 3 : baisser d'un tier de modèle sur les sub-agents d'exécution d'outil en gardant l'orchestrateur sur un modèle fort. Combiné : 50-70% d'économies sur la plupart des agents.

C'est quoi le multiplicateur d'appel d'outil ?

Environ 10-15x plus de tokens d'entrée et 2-3x plus de tokens de sortie que la même tâche résolue sans outils. Causé par le rejeu de l'historique de conversation complet à chaque tour, plus la sortie par-tour (arguments d'appel d'outil) et les résultats d'outil. La décomposition concrète est dans la section 'Pourquoi les agents coûtent 10x' ci-dessus.

Peux-je exécuter des déploiements multi-agent bon marché ?

Oui — utiliser un déploiement tier mixte. Modèle fort (Sonnet 4.6 ou gpt-5.5) pour l'orchestrateur et le critique ; modèle bon marché (Haiku 4.5 ou gpt-5.4-mini) pour les workers d'exécution d'outil et les formateurs de réponse finale. Économies typiques : 50-60% vs un déploiement all-strong-tier à qualité end-to-end similaire.

Combien de sub-agents un orchestrateur devrait-il générer par tour ?

3-6 workers est le sweet spot pour la plupart des agents production. Au-dessous de 3, l'orchestrateur fait toujours la plupart du raisonnement lui-même et les économies de baisse de tier sont petites. Au-dessus de 8, la taxe ~1 500-tokens prompt-système-plus-définitions-d'outil de chaque worker s'empile plus vite que les économies bon marché-tier peuvent compenser, et la facture recommence à grimper. Les échecs de coordination (workers refaisant la même tâche, ratant le brief) montent aussi avec le nombre de workers.

Quand vaut-il le coût supplémentaire d'une LLM call du pattern critique-loop ?

Quand les erreurs sont faciles pour un modèle fort à voir mais difficiles pour le générateur à éviter — génération de code, extraction structurée, réclamations factuelles, sortie liée au schéma. Une boucle critique typique s'exécute $0,04-$0,08 par itération et résout en 1-3 itérations, comparable à un appel Sonnet unique mais avec une précision mesurément plus haute. Ignorer le pattern quand le critique ne peut pas fiablement distinguer bon de mauvais — un critique flasque brûle de l'argent sans améliorer la qualité.

Combien un pattern orchestrateur-worker peut-il économiser vs une seule boucle Sonnet ?

Généralement 50-80% sur les charges de travail style recherche où le travail se divise proprement. Exemple concret : une boucle recherche Sonnet 4.6 unique avec 12 appels d'outil coûte ~$0,26 par requête ; la version orchestrateur-worker (planificateur Sonnet 4.6 + 5 workers recherche Haiku 4.5 parallèles + synthétiseur Sonnet 4.6) coûte ~$0,13 par requête — une réduction de 51%, plus latence plus basse grâce à l'exécution parallèle. Map-reduce sur l'entrée chunked (par ex. 30 documents) peut frapper 75-80% d'économies.

Obtenir le cheat sheet agent-cost 2026

PDF une page avec mathématiques $ par boucle, la formule du multiplicateur d'appel d'outil, et les leviers cache/regroupement — gratuit, pas de porte de signup.

Browse all prompt tools →