Les tarifs affichés sont abstraits. Ce que les équipes veulent vraiment savoir, c'est : sur ma charge de travail, quelle est la facture mensuelle ? Les trois études de cas ci-dessous parcourent des charges d'entrée-lourde, équilibrées et sortie-lourde en production à des volumes mensuels réalistes. Tous les chiffres sont calculés directement à partir du tarif standard ; les chiffres mis en cache et traitées par batch appliquent la pile de remises de la section ci-dessus (accès au cache à 10 % du tarif d'entrée sur 80 % des tokens d'entrée ; l'API Batch à 50 % de réduction à la fois sur l'entrée et la sortie là où le fournisseur l'offre).
Étude de cas 1 — Northwind Marketing, résumé de ticket de support client. L'équipe ingère 1M tickets de support par mois depuis Zendesk et exécute chacun à travers un LLM qui extrait le produit, le sentiment, la cause première et un thème uniligne. La charge de travail est fortement orientée entrée : 4 000 tokens d'entrée par appel (la transcription du ticket plus la taxonomie de référence) et 200 tokens de sortie (JSON structuré). Factures mensuelles à tarif standard à 1M appels : Claude Sonnet 4.6 = (4 000/1M × 3 $ × 1M) + (200/1M × 15 $ × 1M) = 12 000 $ + 3 000 $ = 15 000 $. gpt-5.4-mini = (4 000/1M × 0,75 $ × 1M) + (200/1M × 4,50 $ × 1M) = 3 000 $ + 900 $ = 3 900 $. Gemini 2.5 Flash = (4 000/1M × 0,30 $ × 1M) + (200/1M × 2,50 $ × 1M) = 1 200 $ + 500 $ = 1 700 $. Appliquez la pile de remises. La taxonomie est identique dans les 1M appels — approximativement 2 500 des 4 000 tokens d'entrée se cachent proprement. Sonnet mis en cache + traité par batch atterrit près de 4 100 $/mois. gpt-5.4-mini mis en cache + traité par batch atterrit près de 1 050 $/mois. Gemini 2.5 Flash n'a pas d'API Batch et des mécaniques de cache plus faibles, donc il s'assoit à environ 1 400 $/mois. Gagnant : gpt-5.4-mini. Il est à 25 % du coût de Gemini Flash sur la carte tarifaire brute mais ajoute l'API Batch et une mise en cache de prompt plus forte, et sur l'évaluation interne de Northwind, il a marqué 94 % de taxonomie correcte contre 89 % pour Gemini Flash. La prime de 350 $/mois se paie d'elle-même dans les économies de file d'examen.
Étude de cas 2 — Cascade SaaS, chatbot intégré au produit pour un outil d'analyse à 220k utilisateurs. Le chatbot traite 500k conversations utilisateur par mois, en moyenne deux tours par session, donc 1M appels LLM. La charge de travail est équilibrée à 1 500 tokens d'entrée / 500 tokens de sortie — typique pour le chat augmenté par récupération avec trois extraits de contexte. Factures mensuelles à tarif standard à 1M appels : gpt-5.5 = (1 500/1M × 5 $ × 1M) + (500/1M × 30 $ × 1M) = 7 500 $ + 15 000 $ = 22 500 $. Sonnet 4.6 = (1 500/1M × 3 $) + (500/1M × 15 $) tous les fois 1M = 4 500 $ + 7 500 $ = 12 000 $. Gemini 2.5 Pro = (1 500/1M × 1,25 $) + (500/1M × 10 $) tous les fois 1M = 1 875 $ + 5 000 $ = 6 875 $. Cascade ne peut pas utiliser l'API Batch — le chat est synchrone — donc la pile de remises est cache-only. Le prompt système plus les docs produit totalisent 900 des 1 500 tokens d'entrée et se cachent de manière fiable. Sonnet mis en cache réduit l'entrée de 4 500 $ à environ 1 170 $ (600 non mis en cache à 3 $ + 900 mis en cache à 0,30 $), facture mensuelle totale 8 670 $. gpt-5.5 mis en cache baisse à environ 14 700 $. Le support du cache Gemini 2.5 Pro est implicite temps-réel et moins agressif, donc sa facture mise en cache atterrit près de 5 600 $. Gagnant : Sonnet 4.6. Gemini Pro est 3 000 $/mois moins cher mais l'évaluation à l'aveugle de Cascade a marqué Sonnet 4.6 à 4,6/5 sur la qualité des réponses contre 4,1/5 pour Gemini Pro, et la différence de coût par conversation (0,006 $ vs 0,011 $) est éclipsée par l'impact de la LTV d'un meilleur chatbot dans un produit à 99 $/siège. gpt-5.5 a été éliminé sur le coût — il n'a offert aucun avantage de qualité mesurable par rapport à Sonnet à presque le double de la facture.
Étude de cas 3 — Mesa AI, une startup d'outils développeur exécutant un assistant de codage qui traite 200k complétions par jour (6M appels par mois). La charge de travail est sortie-lourde : 2 000 tokens d'entrée (contexte de fichier récent plus diff de buffer ouvert) et 1 500 tokens de sortie (le correctif suggéré). Factures mensuelles à tarif standard à 6M appels : gpt-5.4 = (2 000/1M × 2,50 $ × 6M) + (1 500/1M × 15 $ × 6M) = 30 000 $ + 135 000 $ = 165 000 $. Sonnet 4.6 = (2 000/1M × 3 $ × 6M) + (1 500/1M × 15 $ × 6M) = 36 000 $ + 135 000 $ = 171 000 $. Claude Fable 5 = (2 000/1M × 10 $ × 6M) + (1 500/1M × 50 $ × 6M) = 120 000 $ + 450 000 $ = 570 000 $. DeepSeek V4 à l'estimation de 0,40 $/1,20 $ = (2 000/1M × 0,40 $ × 6M) + (1 500/1M × 1,20 $ × 6M) = 4 800 $ + 10 800 $ = 15 600 $. L'écart est environ 36x entre DeepSeek et Fable. Appliquez la pile : la complétion de code est synchrone donc l'API Batch ne s'applique pas ; le cache aide modestement du côté entrée (autour de 30 % de cache-hittable), réduisant la facture d'entrée de 9 000 $-11 000 $ pour OpenAI et Anthropic. Mesa a exécuté une évaluation à l'aveugle sur 800 échantillons de complétion internes : gpt-5.4 a atteint 71 % d'acceptation, Sonnet 4.6 a atteint 73 %, Fable 5 a atteint 79 %, DeepSeek V4 a atteint 64 %. Gagnant : une stratégie de routage tiérisé, pas un modèle unique. Mesa route 75 % des complétions (uniligne, dans le buffer) à DeepSeek V4 à environ 11 700 $/mois pour cette tranche, route 20 % (refactors multi-lignes) à Sonnet 4.6 à environ 32 000 $/mois, et réserve 5 % (réécrits de fichier complet et explique-et-correctif) pour Fable 5 à environ 25 000 $/mois. Facture mensuelle mélangée : environ 68 700 $ avec 74 % d'acceptation mélangée — par rapport à 165 000 $ sur gpt-5.4 seul pour un point moins d'acceptation, ou 570 000 $ sur Fable seul pour cinq points plus.
Ce que les trois cas révèlent. Sur les charges de travail entrée-lourde, les tiers bon marché dominent car la sortie est un arrondi — gpt-5.4-mini, Gemini Flash et Haiku 4.5 sont les contenders, et le choix se résume généralement à quel histoire cache et batch du fournisseur s'adapte au pipeline. Sur les charges de travail synchrones équilibrées, le tier moyen gagne car les différences de qualité apparaissent dans les métriques orientées utilisateur et l'écart absolu est assez petit pour que le gagnant ajusté à la qualité batte généralement l'option la moins chère — Sonnet 4.6 et Gemini 2.5 Pro sont les points d'atterrissage les plus courants. Sur les charges de travail sortie-lourde, aucun modèle unique ne gagne ; le routage par type de tâche bat le choix d'un modèle unique de 30-60 % presque à chaque fois, car le coût de sortie est assez grand pour que le modèle bon marché traite la tranche facile et paie pour le modèle cher sur la tranche difficile.
Deux contrôles arithmétiques importants à garder en tête. Premièrement, la règle de coût-par-appel : multipliez les tokens d'entrée (en milliers) par le prix d'entrée (par 1M, en dollars) et divisez par 1 000 pour obtenir les dollars d'entrée par appel ; idem pour la sortie. À 1M appels par mois, le coût par appel en cents équivaut grossièrement à la facture mensuelle en dizaines de milliers de dollars — un appel de 2 cents équivaut grossièrement à 20 000 $/mois à 1M appels. Deuxièmement, les économies de cache sont limitées par la part d'entrée du coût. Sur le cas Mesa, l'entrée représente seulement 18 % de la facture sur Sonnet — la mise en cache ne peut économiser au maximum que 6 500 $/mois indépendamment de l'agressivité du taux d'accès au cache. Sur le cas Northwind, l'entrée représente 80 % de la facture — la mise en cache est le levier d'impact unique le plus important.
Résumé uniligne de quand chaque fournisseur a tendance à gagner en 2026. OpenAI gagne sur les charges de travail équilibrées où les features d'écosystème (recherche de fichiers, interprète de code, sorties structurées) importent et le budget tolère la prime. Anthropic gagne sur les charges de travail long-contexte et agentiques où la qualité par dollar de Sonnet et le contrôle du cache explicite se composent. Google gagne sur les charges de travail entrée-lourde et multimodales où le coût brut par token et le contexte 2M+ sont la contrainte. Les fournisseurs open-source et budget comme DeepSeek gagnent la tranche facile de toute stratégie de routage tiérisée.