Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Par l'équipe DDH · Digital Dashboard Hub

Coût par jeton pour tous les modèles IA majeurs (2026)

Prix d'entrée et de sortie par million de jetons pour chaque modèle OpenAI, Anthropic et Google majeur, plus les mécaniques de caching, batch et fenêtre de contexte qui décident votre facture mensuelle réelle — à jour en juin 2026.

By DDH Research Team at Digital Dashboard HubUpdated

En juin 2026, les tarifs des modèles IA sont cotés par million de jetons (MTok) et divisés entre un taux d'entrée moins cher et un taux de sortie plus cher. Les modèles de classe frontière les moins chers et capables — gpt-5.4 à $2.50 en entrée / $15.00 en sortie, Claude Sonnet 4.6 à $3 / $15, et Gemini 2.5 Pro à $1.25 / $10 — se regroupent étroitement, tandis que les modèles de raisonnement haut de gamme (gpt-5.5-pro à $30 / $180, Claude Fable 5 à $10 / $50) coûtent 5-12x plus cher. Les tarifs ci-dessous sont extraits de la page de tarification en direct de chaque fournisseur et doivent être re-vérifiés avant d'engager un budget.

Le tarif des jetons seul ne prédira jamais votre facture. Le caching des requêtes, les remises batch et la quantité de contexte que vous versez dans chaque appel font varier les coûts réels de 2 à 10x. Ce guide liste chaque prix actuel, puis montre les mécaniques qui modifient réellement le chiffre — et vous pouvez brancher vos propres volumes dans notre calculateur de coûts de requête IA (fonctionnement) pour estimer une facture mensuelle.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Tarification par jeton, tous les modèles majeurs (par 1M de jetons, juin 2026)

Feature
Entrée ($/MTok)
Sortie ($/MTok)
Niveau
OpenAI gpt-5.55.0030.00Frontière
OpenAI gpt-5.5-pro30.00180.00Raisonnement premium
OpenAI gpt-5.42.5015.00Cheval de bataille
OpenAI gpt-5.4-mini0.754.50Efficace
OpenAI gpt-5.4-nano0.201.25Masse / bon marché
OpenAI gpt-5.3-codex1.7514.00Codage
Claude Opus 4.85.0025.00Frontière
Claude Sonnet 4.63.0015.00Cheval de bataille
Claude Haiku 4.51.005.00Efficace
Claude Fable 510.0050.00Premium
Gemini 3.5 Flash1.509.00Cheval de bataille
Gemini 3.1 Pro (Preview)2.0012.00Frontière (≤200k)
Gemini 3.1 Flash-Lite0.251.50Masse / bon marché
Gemini 2.5 Pro1.2510.00Cheval de bataille
Gemini 2.5 Flash0.302.50Efficace
Gemini 2.5 Flash-Lite0.100.40Moins cher

Tarifs en juin 2026, selon [OpenAI](https://developers.openai.com/api/docs/pricing), [Anthropic](https://claude.com/pricing) ([détail API](https://platform.claude.com/docs/en/about-claude/pricing)) et [Google Gemini](https://ai.google.dev/gemini-api/docs/pricing). Sujets à changement ; confirmez sur les pages en direct.

Qu'y a-t-il dans ce guide

C'est une page de référence. Parcourez le tableau dont vous avez besoin :

1. Comment fonctionne réellement la tarification par jeton (entrée vs sortie, pourquoi la sortie coûte plus cher).

2. Tarification OpenAI API — la famille complète gpt-5.5 et gpt-5.4 plus codex et modèles médias.

3. Tarification Anthropic / Claude API — Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5.

4. Tarification Google Gemini API — niveaux Gemini 3.5, 3.1 et 2.5.

5. La table de comparaison tous modèles en un coup d'œil.

6. Caching des requêtes — comment les lectures en cache réduisent le coût d'entrée jusqu'à 90%.

7. Remises batch — 50% de réduction lorsque la latence n'a pas d'importance.

8. Tarification de la fenêtre de contexte — pourquoi le long contexte peut doubler silencieusement une facture.

9. Comment estimer votre coût mensuel réel.

10. Sources et lectures complémentaires.


Comment fonctionne la tarification par jeton

Chaque API majeure mesure l'utilisation en jetons, pas en mots ou caractères. Un jeton est un morceau de sous-mot ; en anglais, approximativement 1 jeton ≈ 4 caractères ≈ 0,75 mot (selon la documentation de tokenisation d'Anthropic et OpenAI). Un email de 500 mots représente environ 670 jetons ; un document de 10 pages représente approximativement 5 000-6 000 jetons.

La tarification est presque toujours divisée en deux taux. Les jetons d'entrée (votre requête, message système et tout contexte que vous joignez) sont facturés à un taux ; les jetons de sortie (ce que le modèle génère) sont facturés à un taux plus élevé — généralement 4-6x le taux d'entrée. Cette asymétrie explique pourquoi le résumé (longue entrée, courte sortie) est bon marché et la génération (courte entrée, longue sortie) est comparativement chère.

Les taux sont cotés par 1 000 000 de jetons (1M, écrit MTok). Donc gpt-5.4 à $2.50 / $15.00 signifie $2.50 par million de jetons d'entrée et $15.00 par million de jetons de sortie. Une seule requête de 4 000 jetons d'entrée + 1 000 jetons de sortie sur gpt-5.4 coûte (4 000/1 000 000 × $2.50) + (1 000/1 000 000 × $15.00) = $0,01 + $0,015 = $0,025.

Trois modificateurs changent cette arithmétique de base : le caching des requêtes (entrée moins cher répétée), le traitement batch (tâches non urgentes moins chères) et la tarification par niveau de fenêtre de contexte (certains modèles facturent plus au-dessus d'un seuil de contexte). Les trois sont couverts ci-dessous. Pour convertir les nombre de jetons en dollars sans faire l'arithmétique à la main, utilisez le calculateur de coûts de requête IA. Pour une facture exactement comparable à votre volume mensuel, exécutez les chiffres dans notre calculateur de coûts de requête IA. <!-- calc-link-mesh:v2 -->


Tarification OpenAI API (en juin 2026)

La famille gpt-5.5 d'OpenAI est le niveau frontière ; la famille gpt-5.4 est la ligne de travail économe en coûts, avec des variantes mini et nano pour le travail à haut volume et à faible enjeu. Le modèle gpt-5.3-codex est optimisé pour les agents de codage. Tous les chiffres ci-dessous sont par 1M de jetons et proviennent de la page de tarification OpenAI API ; confirmez-le avant de budgétiser.

``` Modèle Entrée ($/MTok) Sortie ($/MTok) gpt-5.5 5.00 30.00 gpt-5.5-pro 30.00 180.00 gpt-5.4 2.50 15.00 gpt-5.4-mini 0.75 4.50 gpt-5.4-nano 0.20 1.25 gpt-5.3-codex 1.75 14.00 ```

Les médias sont tarifés séparément : gpt-image-2 s'exécute à $8.00 d'entrée / $30.00 de sortie par 1M de jetons, et la vidéo Sora-2 est mesurée par seconde — $0,10/sec à 720p et $0,50/sec à 1024p.

Choisir au sein de la famille : gpt-5.4-nano à $0,20 / $1,25 est approximativement 25x moins cher en entrée que gpt-5.5 et est l'option par défaut appropriée pour la classification, l'étiquetage et l'acheminement. Réservez gpt-5.5-pro pour le raisonnement véritablement difficile — à $180/MTok de sortie, c'est le jeton de sortie le plus cher de tous les modèles de ce guide.


Tarification Anthropic / Claude API (en juin 2026)

La ligne Claude d'Anthropic s'étend de Haiku (plus rapide, moins cher), Sonnet (équilibré), Opus (modèle général le plus capable) et Fable 5 (le niveau premium). Notamment, les générations Opus et Sonnet 4.6+ ont un tarif fixe indépendamment de la version ponctuelle que vous appelez. Les chiffres sont par 1M de jetons de la page de tarification Claude et du détail de tarification API.

``` Modèle Entrée ($/MTok) Sortie ($/MTok) Claude Opus 4.8 5 25 Claude Opus 4.5 / 4.6 / 4.7 5 25 Claude Sonnet 4.6 / 4.5 3 15 Claude Haiku 4.5 1 5 Claude Fable 5 10 50 ```

Deux avantages structurels ressortent. Premièrement, Claude Opus 4.8 correspond au prix d'entrée de gpt-5.5 ($5) mais dépassse sa sortie de $5/MTok ($25 vs $30) — et est dramatiquement moins cher que gpt-5.5-pro. Deuxièmement, les lectures en cache sur Opus 4.8 coûtent seulement $0,50/MTok (10% de l'entrée de base), ce qui rend les charges de travail de contexte répété beaucoup moins chères que le taux affiché ne le suggère (voir le caching ci-dessous).

Anthropic facture également séparément les outils côté serveur : l'outil de recherche web est $10 par 1 000 recherches. Si vous construisez un agent de recherche qui recherche à chaque tour, ce poste peut rivaliser avec vos dépenses en jetons, alors mesurez-le explicitement.


Tarification Google Gemini API (en juin 2026)

La ligne Gemini de Google est généralement la moins chère des trois fournisseurs à des niveaux de capacité comparables, en particulier les variantes Flash-Lite pour le travail à haut volume. Certains niveaux (Gemini 3.1 Pro Preview) cotent le taux au seuil de contexte ou en dessous. Les chiffres sont par 1M de jetons de la page de tarification Gemini API.

``` Modèle Entrée ($/MTok) Sortie ($/MTok) Gemini 3.5 Flash 1.50 9.00 Gemini 3.1 Pro (Preview) 2.00 12.00 (≤200k contexte) Gemini 3.1 Flash-Lite 0.25 1.50 Gemini 2.5 Pro 1.25 10.00 Gemini 2.5 Flash 0.30 2.50 Gemini 2.5 Flash-Lite 0.10 0.40 ```

Gemini 2.5 Flash-Lite à $0,10 / $0,40 est le modèle le moins cher de ce guide complet — la moitié du coût d'entrée de gpt-5.4-nano et un quart du taux de sortie de Gemini 3.1 Flash-Lite. Pour l'extraction, la classification et autres tâches en masse à faible enjeu où vous n'avez pas besoin d'un raisonnement frontière, il fixe le prix plancher.

Notez la note de contexte du 3.1 Pro Preview : son taux $2.00 / $12.00 est coté au seuil de contexte ou en dessous de 200k jetons. Comme chez tout fournisseur, les appels de long contexte peuvent se déplacer vers un niveau de tarification différent, alors vérifiez la page en direct pour les seuils exacts avant d'envoyer de très grandes requêtes.


Tous les modèles majeurs en un coup d'œil

Le tableau ci-dessous regroupe chaque modèle dans une seule comparaison afin que vous puissiez voir où chacun se situe. Le prix de sortie est le chiffre qui domine habituellement les factures réelles, puisque la génération tend à produire plus de jetons que prévu. Le niveau 'cheval de bataille bon marché' (gpt-5.4, Sonnet 4.6, Gemini 2.5 Pro) est où devrait s'asseoir la plupart du trafic de production à moins qu'une tâche nécessite vraiment le niveau frontière.


Caching des requêtes : le plus grand levier sur le coût d'entrée

Le caching des requêtes vous permet de réutiliser une grande portion stable d'entrée — une longue requête système, une base de connaissances, un document — dans de nombreuses requêtes à une remise importante. Au lieu de payer le prix d'entrée complet à chaque appel, vous payez un coût d'écriture unique puis un petit coût de lecture à chaque accès au cache.

Sur l'API d'Anthropic, les mécaniques sont explicites (détail de tarification) : une écriture en cache de 5 minutes coûte 1,25x le taux d'entrée de base, une écriture d'1 heure coûte 2x, et une lecture en cache (accès) coûte seulement 0,1x l'entrée de base — c'est-à-dire 10% du prix d'entrée. Pour Claude Opus 4.8, cela signifie que les lectures en cache s'élèvent à $0,50/MTok au lieu de $5,00/MTok, une économie de 90% sur la portion en cache.

L'arithmétique : supposons que vous joignez une base de connaissances de 50 000 jetons à 1 000 requêtes Opus 4.8. Sans caching, c'est 50M de jetons d'entrée à $5 = $250 juste pour le contexte répété. Avec caching, vous payez une écriture (~50 000 jetons × 1,25x = environ $0,31) plus 999 lectures à 10% (≈49,95M × $0,50/MTok ≈ $25). Vous réduisez le coût du contexte répété de $250 à environ $25 — approximativement 90% de réduction.

Le caching est rentable chaque fois que le même grand préfixe apparaît dans de nombreux appels dans la fenêtre de cache. Il ne fait rien pour les requêtes uniques ou les requêtes où la majeure partie de l'entrée change à chaque fois. OpenAI et Google offrent également du caching ; vérifiez la page de tarification de chaque fournisseur pour les taux de remise actuels et les minimums.


Remises batch : 50% de réduction lorsque la latence n'a pas d'importance

Si un travail n'a pas besoin d'une réponse immédiate — résumé nocturne d'un carnet de commandes, classification en masse, étiquetage d'ensemble de données — les APIs batch échangent la latence contre une remise. L'API Batch d'Anthropic offre 50% de réduction à la fois sur l'entrée et la sortie (tarification) ; OpenAI et Google offrent des niveaux batch comparables (vérifiez leurs pages de tarification pour les pourcentages exacts et les fenêtres de délai).

L'empilement compte : batch et caching peuvent se combiner. Un travail nocturne qui réutilise une requête système fixe dans des milliers d'enregistrements peut prendre la remise de lecture en cache sur le préfixe et la remise batch sur le reste. Pour une charge de travail qui est à la fois répétitive et non urgente, le taux effectif peut se situer bien en dessous de la moitié du prix affiché.

Le compromis est le délai — les travaux batch se résolvent généralement dans une fenêtre (souvent jusqu'à 24 heures) plutôt qu'en secondes. Utilisez batch pour les pipelines, pas pour tout ce qu'un utilisateur attend.


Tarification de la fenêtre de contexte : le multiplicateur de facture silencieux

Les modèles modernes acceptent des fenêtres de contexte énormes — Anthropic inclut une fenêtre de contexte de 1M jeton à tarification standard sur Opus 4.6+, Sonnet 4.6 et Fable 5. Cette capacité est une arme à double tranchant : chaque jeton que vous mettez dans le contexte est facturé au taux d'entrée à chaque appel.

Le piège concerne RAG et les applications de conversation longue qui continuent à s'ajouter. Si vous agrandissez une conversation à 100 000 jetons de contexte et faites 20 tours supplémentaires, vous réutilisez ces 100 000 jetons d'entrée à chacun des 20 tours — 2M de jetons d'entrée de surcharge avant de compter tout nouveau contenu. Sur Opus 4.8, c'est $10 en coût pur de rejoue du contexte pour une seule conversation.

Deux atténuations : (1) cachéz la portion stable du contexte pour que la rejoue soit facturée à 10% au lieu de 100% ; (2) résumez ou tronquez les anciens tours afin que la fenêtre ne croisse pas sans limites. Certains fournisseurs facturent également des niveaux au-dessus d'un seuil de contexte (par exemple, Gemini 3.1 Pro Preview cite son taux à ≤200k) — vérifiez le seuil sur la page de tarification en direct avant d'envoyer de très grandes requêtes.


Comment estimer votre coût mensuel réel

Les taux par jeton affichés sont le point de départ, pas la réponse. Pour estimer une facture mensuelle réelle, travaillez à travers cinq chiffres : (1) requêtes par mois, (2) jetons d'entrée moyens par requête, (3) jetons de sortie moyens par requête, (4) quel modèle, et (5) quelle fraction de l'entrée est cacheable ou batchable.

Exemple travaillé. Supposons qu'un assistant support gère 100 000 requêtes/mois sur Claude Sonnet 4.6 ($3 / $15), avec en moyenne 3 000 entrée + 500 jetons de sortie, avec une requête système de 2 000 jetons qui est cacheable. Entrée de base : 100k × 3 000 = 300M jetons ; de cela, ~200M est la requête répétitive cacheable. En cache : ~200M × $0,30/MTok (10% de $3) = $60 ; entrée non-cacheable ~100M × $3 = $300 ; sortie 100k × 500 = 50M × $15 = $750. Total ≈ $1 110/mois — contre environ $1 650 sans caching.

Les deux plus grandes erreurs d'estimation sont de sous-estimer les jetons de sortie (les modèles sont plus bavards que prévu) et d'ignorer la rejoue du contexte dans les applications multi-tours. Construisez une petite feuille de calcul, ou sautez l'arithmétique et branchez vos volumes dans le calculateur de coûts de requête IA — voir comment fonctionne le calculateur pour la méthodologie. Validez ensuite par rapport à votre première semaine réelle de facturation API ; les estimations sont directionnelles jusqu'à ce que l'utilisation mesurée les confirme.

Liste de contrôle de contrôle des coûts : acheminez les tâches faciles vers le modèle le moins cher capable (Gemini 2.5 Flash-Lite, gpt-5.4-nano, Haiku 4.5) ; cachéz les préfixes stables ; batchéz tout ce qui est non urgent ; limitez la longueur de sortie ; et taillez le contexte agressivement. Ces cinq leviers réduisent généralement une facture de moitié ou plus — bien plus que de changer de fournisseur pour une différence de taux fractionnaire.


Sources et lectures complémentaires

Tous les prix de ce guide sont cotés en juin 2026 et sont sujets à changement — toujours confirmer sur les pages en direct ci-dessous avant d'engager un budget.

Tarification OpenAI API : https://developers.openai.com/api/docs/pricing

Tarification Anthropic / Claude : https://claude.com/pricing

Détail de tarification Claude API (caching, batch, outils) : https://platform.claude.com/docs/en/about-claude/pricing

Tarification Google Gemini API : https://ai.google.dev/gemini-api/docs/pricing

Règle de conversion jeton-texte (1 jeton ≈ 4 caractères ≈ 0,75 mots) : selon la documentation de tokenisation d'Anthropic et OpenAI.

Estimez vos propres dépenses avec le calculateur de coûts de requête IA et lisez la méthodologie du calculateur.

Frequently Asked Questions

Quel modèle IA a le coût par jeton le moins cher en 2026 ?

En juin 2026, Gemini 2.5 Flash-Lite est le moins cher à $0,10 entrée / $0,40 sortie par 1M de jetons, selon la page de tarification Gemini. Parmi les niveaux bon marché comparables, gpt-5.4-nano ($0,20 / $1,25) et Claude Haiku 4.5 ($1 / $5) sont les équivalents OpenAI et Anthropic. Ceux-ci sont meilleurs pour les tâches à haut volume et faible enjeu comme la classification et l'extraction, pas pour le raisonnement frontière.

Pourquoi la sortie est-elle plus chère que l'entrée ?

Générer des jetons est plus intensif en calcul que de les lire — chaque jeton de sortie nécessite une passe avant complète à travers le modèle, tandis que l'entrée peut être traitée plus efficacement. Chez tous les fournisseurs, les taux de sortie s'éxécutent approximativement 4-6x le taux d'entrée. C'est pourquoi le résumé (longue entrée, courte sortie) est bon marché et la génération ouverte (courte entrée, longue sortie) est comparativement chère. Consultez la page de tarification de chaque fournisseur pour les ratios exacts.

Combien économise vraiment le caching des requêtes ?

Sur l'API d'Anthropic, une lecture en cache coûte 10% du taux d'entrée de base, donc réutiliser un grand préfixe stable économise environ 90% sur cette portion (détail de tarification). Pour Claude Opus 4.8, l'entrée en cache baisse de $5,00 à $0,50 par 1M de jetons. Le piège : le caching aide seulement quand le même grand préfixe se répète dans de nombreux appels dans la fenêtre de cache. Il ne fait rien pour les requêtes uniques.

Quelle est la remise de l'API batch ?

L'API Batch d'Anthropic offre 50% de réduction à la fois sur l'entrée et la sortie pour les travaux qui n'ont pas besoin d'une réponse immédiate (tarification). OpenAI et Google offrent des niveaux batch comparables — consultez leurs pages de tarification pour les pourcentages exacts et les fenêtres de délai. Batch et caching peuvent s'empiler, donc un pipeline répétitif non urgent peut s'exécuter à bien moins de la moitié du taux affiché.

Est-ce qu'une plus grande fenêtre de contexte coûte plus cher ?

La fenêtre elle-même est souvent incluse à tarification standard — Anthropic inclut le contexte 1M-jeton à taux standard sur Opus 4.6+, Sonnet 4.6 et Fable 5. Mais vous payez le taux d'entrée pour chaque jeton que vous mettez réellement dans le contexte, à chaque appel. Les applications multi-tours qui continuent à s'ajouter réutilisent tout le contexte à chaque tour, ce qui multiplie silencieusement la facture. Cachéz la portion stable et tronquez les anciens tours pour principales atténuations.

Comment puis-je estimer ma facture IA mensuelle réelle ?

Multipliez requêtes/mois par jetons d'entrée et de sortie moyens par requête, appliquez les taux par jeton du modèle, puis réduisez toute portion cacheable ou batchable. Les jetons de sortie et la rejoue du contexte multi-tours sont les deux coûts les plus sous-estimés. Le moyen le plus rapide est de sauter l'arithmétique et d'utiliser le calculateur de coûts de requête IA (méthodologie ici), puis validez par rapport à votre première semaine réelle de facturation API.

Estimez votre facture IA réelle avant de vous engager.

Branchez vos volumes dans le calculateur gratuit de coûts de requête IA — pas d'inscription, fait partie de 40+ outils de requête gratuits de Digital Dashboard Hub.

Browse all prompt tools →

Bibliothèque de prompts gratuite — plus de 100 prompts prêts à copier

Une sélection de prompts chaque semaine pour ChatGPT, Claude, Midjourney et DALL·E. Sans spam. Désinscription en un clic.

Sans spam. Un e-mail par semaine. Plus de ~12 000 utilisateurs de prompts déjà inscrits.