Par l'équipe DDH · Digital Dashboard Hub

Calculatrice coût o1 / o3 (2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Les modèles de raisonnement o-series d'OpenAI — o3, o3-mini et o1 (déprécié) — fonctionnent sur un modèle de facturation complètement différent de tous les modèles chat de l'API. Avant de produire un seul jeton visible pour l'utilisateur, le modèle génère des jetons de raisonnement interne : un bloc-notes privé de chaîne de pensée que le modèle utilise pour planifier, vérifier et affiner sa réponse. Ces jetons de raisonnement ne sont JAMAIS retournés à l'appelant. Mais ils sont facturés au tarif de sortie complet, chaque jeton. Une réponse de 200 jetons qui a nécessité 4 000 jetons de raisonnement pour être produite facture 4 200 jetons de sortie — pas 200.

Ce mécanisme seul est responsable de presque chaque histoire de surprise de facturation que nous entendons sur les modèles de raisonnement. Une équipe estime le coût en comptant les mots dans leur réponse, déploie en production pendant une semaine, et reçoit une facture 5-15x ce qu'elle avait budgétisé. La solution n'est pas d'éviter les modèles de raisonnement — pour les bonnes charges de travail (mathématiques, synthèse de code, planification multi-étapes, vérification formelle), ils sont dramatiquement meilleurs que les modèles chat. La solution est de budgétiser sur la forme des jetons de raisonnement, pas sur la réponse visible.

En juin 2026, l'échelle o-series est : **o3 à $2,00 en entrée / $8,00 en sortie par 1M de jetons**, **o3-mini à $0,55 / $2,20**, et **o1 à $15 / $60** (déprécié — migrez). La transition o1 vers o3 a représenté une baisse de prix de 87% sur le modèle de raisonnement phare — l'une des plus grandes réductions de prix de modèle unique dans l'histoire de l'API (couverture VentureBeat). Le raisonnement est maintenant ~7x moins cher qu'il y a un an, et les mathématiques ci-dessous reflètent ce réinitialisation.

Ci-dessous : le tableau complet des prix des modèles de raisonnement de juin 2026, la formule de coût des jetons de raisonnement (celle que vous avez réellement besoin), quatre exemples concrets de mathématiques en dollars montrant la prime des jetons de réflexion, un arbre décisionnel pour quand le raisonnement surpasse le chat, et une FAQ sourcée. Rédigez rapidement des invites optimisées pour le raisonnement qui minimisent l'inflation des jetons de réflexion avec notre générateur d'invites ChatGPT gratuit. Calculatrices connexes : coût GPT-5 · coût API OpenAI · coût DeepSeek.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Prix des modèles de raisonnement o-series d'OpenAI — juin 2026

Feature	Entrée ($/1M)	Sortie ($/1M, y compris raisonnement)	Fenêtre de contexte
o3	$2.00	$8.00	200K
o3-mini	$0.55	$2.20	200K
o1 (déprécié — migrez vers o3)	$15.00	$60.00	200K

Source, au 20 juin 2026 : tarification OpenAI (https://developers.openai.com/api/docs/pricing). Les jetons de raisonnement sont facturés au tarif de sortie même s'ils ne sont pas retournés à l'appelant. Aucune remise de cache d'entrée publiée sur la série o au moment de cette vérification. La fenêtre de contexte de 200K s'applique aux trois lignes. o1 reste sur la page de tarification pour la compatibilité de la fenêtre de migration mais est en fin de vie — toute nouvelle version devrait cibler o3 ou o3-mini.

La formule de coût des jetons de raisonnement (celle dont personne ne vous parle)

Sur les modèles chat comme GPT-5.5, la formule de coût est simple — vous payez les jetons d'entrée que vous avez envoyés et les jetons de sortie que le modèle a écrits en retour. Sur la série o, il y a un troisième terme qui n'apparaît dans aucun champ de réponse mais qui apparaît absolument sur votre facture :

``` coût = (jetons_entrée / 1 000 000) × prix_entrée + (jetons_raisonnement / 1 000 000) × prix_sortie ← invisible pour l'appelant + (sortie_visible / 1 000 000) × prix_sortie ```

Le nombre de jetons_raisonnement est rapporté dans la réponse API sous `usage.completion_tokens_details.reasoning_tokens`. Lisez-le. Enregistrez-le. Si vous ignorez ce champ, vous n'avez aucune idée de ce que vous payez réellement par appel — le champ `content` vous montre la réponse de 200 jetons, mais le champ `reasoning_tokens` est où la facture de 4 000 jetons se cache.

Forme de jetons de raisonnement pratique que nous voyons sur les déploiements en production : mathématiques simples / classification avec raisonnement activé = 200-800 jetons de raisonnement ; génération de code multi-étapes = 1 500-5 000 jetons de raisonnement ; tâches complexes de planification / style preuve = 5 000-25 000 jetons de raisonnement ; boucles agentiques avec auto-vérification = 20 000-80 000 jetons de raisonnement par requête. Budgétisez l'enveloppe complète, pas juste la réponse visible.

Exemple concret 1 : l'appel de classification « bon marché » qui ne l'est pas

Une équipe migre un pipeline de classification de gpt-5.4-mini vers o3-mini, espérant une meilleure précision sur les cas limites. Entrée : 500 jetons (le rubrique + le document). Sortie visible : 50 jetons (une étiquette JSON). Semble identique au chat en forme — alors elle budgétise sur les mathématiques du chat.

**Estimation chat (fausse)** : 0,0005 × $0,55 + 0,00005 × $2,20 = $0,000275 + $0,00011 = **$0,000385 par appel**. À 100k appels/mois, $38,50.

**Réalité** : o3-mini génère ~1 200 jetons de raisonnement avant de produire chaque étiquette de 50 jetons. Facture de sortie réelle = (1 200 + 50) / 1 000 000 × $2,20 = $0,00275. Total : $0,000275 d'entrée + $0,00275 de sortie = **$0,003 par appel** — 7,8x l'estimation chat. À 100k appels/mois, $300, pas $38,50.

Leçon : même sur le niveau « mini » de l'échelle de raisonnement, la queue des jetons de réflexion domine. Si votre tâche de classification n'a PAS besoin de raisonnement multi-étapes, restez sur gpt-5.4-mini ($0,50 / $1,50 entrée/sortie) — la même forme d'appel coûte $0,000125 par appel, 24x moins cher que o3-mini. La prime de raisonnement ne rentabilise que lorsque le raisonnement est réellement le goulot. Référence croisée : calculatrice coût API OpenAI pour l'échelle chat complète.

Exemple concret 2 : la réponse de 200 jetons qui a coûté $0,0336

L'exemple héroïque. Un utilisateur pose à o3 une question produit complexe en mathématiques. La réponse visible est 200 jetons de prose claire. Le modèle a réfléchi pendant 4 000 jetons de raisonnement pour arriver là — en exécutant des conversions d'unités, des vérifications de cas limites et une passe de vérification finale.

Entrée : 1 000 jetons (la question + une invite système de 500 jetons). Facture de sortie : (4 000 raisonnement + 200 visible) / 1 000 000 × $8,00 = 4 200 / 1 000 000 × $8 = **$0,0336 en sortie uniquement**. Plus l'entrée : 0,001 × $2 = $0,002. **Total par appel : $0,0356.**

Comparez à l'estimation de forme chat sur la réponse visible : 0,001 × $2 d'entrée + 0,0002 × $8 de sortie = $0,002 + $0,0016 = $0,0036. **Le coût réel est 9,9x l'estimation de réponse visible.**

Comparez à gpt-5.5 sur la même entrée/sortie : 0,001 × $5 + 0,0002 × $30 = $0,005 + $0,006 = $0,011 par appel. o3 est 3,2x plus cher que gpt-5.5 sur cet appel — mais la réponse o3 gère correctement le cas limite en mathématiques, et la réponse gpt-5.5 est subtilement fausse. Que la prime de 3,2x en vaut la peine est une question de coût aval des erreurs, pas une question de prix des jetons.

Exemple concret 3 : boucle de synthèse de code agentique sur o3

Un agent de codage génère un module Python de 150 lignes à partir d'une spécification. L'agent s'exécute dans une boucle de 4 tours : planifier → écrire → auto-réviser → corriger. À chaque tour, le modèle réfléchit longuement avant de produire une sortie visible.

Forme par tour : entrée ~2 500 jetons (système + outils + transcript croissant), sortie visible ~400 jetons, raisonnement ~6 000 jetons. Facture de sortie par tour : (6 000 + 400) / 1 000 000 × $8 = **$0,0512**. Entrée par tour : 0,0025 × $2 = $0,005. Total par tour : $0,0562.

**Total de 4 tours : ~$0,225 par synthèse de code sur o3.** Comparez à gpt-5.5-pro sur la même boucle (pas de jetons de raisonnement, mais plus de sortie visible ~800 jetons/tour) : 0,0025 × $30 d'entrée + 0,0008 × $180 de sortie = $0,075 + $0,144 = $0,219/tour × 4 = $0,876. **o3 est 3,9x moins cher que gpt-5.5-pro sur cette charge malgré la prime de raisonnement, car le tarif de sortie pro est tellement plus élevé.**

Le point clé : sur les tâches où le raisonnement est ce que vous achetez, l'échelle de o3 ($2 / $8) surpasse tous les niveaux premium de chat. Le piège est d'utiliser o3 pour les tâches où le raisonnement n'est pas le goulot — c'est là que la queue des jetons de réflexion vous fait payer pour du calcul qui n'améliore pas la réponse.

Exemple concret 4 : 100 000 appels de raisonnement/mois — la réalité budgétaire

Mettez à l'échelle les nombres par appel à une charge de travail mensuelle réaliste. Supposez 100k appels/mois, forme mixte : 1 200 jetons d'entrée en moyenne, 300 de sortie visible, 3 500 jetons de raisonnement (la médiane de production que nous voyons sur le trafic o3 réel).

Par appel : 0,0012 × $2 + (3 500 + 300) / 1 000 000 × $8 = $0,0024 + $0,0304 = $0,0328. **Mensuel sur o3 : $3 280.**

Sur o3-mini (en supposant la même forme ; mini utilise généralement 30-50% moins de jetons de raisonnement — disons 2 000 au lieu de 3 500) : 0,0012 × $0,55 + (2 000 + 300) / 1 000 000 × $2,20 = $0,00066 + $0,00506 = $0,00572. **Mensuel sur o3-mini : $572.** o3-mini est 5,7x moins cher pour la même forme d'appel avec un delta de précision faible.

Sur l'ancien o1 (pour comparaison uniquement — migrez) : 0,0012 × $15 + 3 800/1 000 000 × $60 = $0,018 + $0,228 = $0,246. **Mensuel sur o1 : $24 600.** o3 est 7,5x moins cher que o1 pour la même charge de travail — la baisse de prix de 87% est réelle et vous devriez la capturer.

L'ordre des leviers pour maîtriser les coûts de raisonnement : (1) plafonner `max_completion_tokens` pour limiter le pire cas, (2) utiliser `reasoning_effort: 'low'` où la tâche tolère moins de réflexion, (3) réduire à o3-mini où la qualité tient, (4) router uniquement les requêtes vraiment liées au raisonnement vers o3 — laisser gpt-5.4-mini gérer le reste. Voir notre calculatrice coût DeepSeek pour l'alternative open-weights en raisonnement.

La baisse de prix o1 vers o3 de 87% — et ce qu'elle change

Quand o3 a été lancé à $2 / $8 contre $15 / $60 pour o1, OpenAI a annoncé une réduction de prix effective de 80-87% sur le modèle de raisonnement phare (couverture VentureBeat). En entrée, o3 est 7,5x moins cher que o1. En sortie (où les jetons de raisonnement sont facturés), o3 est aussi 7,5x moins cher. Effet net : toute charge o1 migrée vers o3 coûte ~13% du coût précédent avec des améliorations de qualité sur les benchmarks au même moment.

Ce n'est pas un tweak de prix marginal — c'est un repricing de la catégorie de raisonnement. Les charges qui étaient anti-économiques sur o1 ($25k/mois pour 100k appels de complexité moyenne) sont maintenant sous $4k/mois sur o3. Les modèles de raisonnement sont passés de 'soupape de secours premium pour les problèmes difficiles' à 'défaut plausible pour toute tâche où la chaîne de pensée aide.'

Ce que cela signifie pour votre plan de migration : si vous avez UN trafic o1 encore en cours d'exécution, la migration est en retard. Changement de code : remplacez l'identifiant de modèle `o1` par `o3`, laissez tout le reste identique (même fenêtre de contexte, même mécanisme de facturation des jetons de raisonnement, même forme de réponse). Vous verrez une réduction de coût de 7-8x sur la même charge avant toute autre optimisation.

Ce que cela signifie pour vos décisions de création : quand vous évitez les modèles de raisonnement à cause du tarif de sortie $60/M, reconsidérez. À $8/M, o3 est compétitif avec gpt-5.5 ($30/M sortie) une fois que vous tenez compte de la meilleure qualité de réponse sur les tâches liées au raisonnement. L'argument en dollars pour « chat au lieu de raisonnement » s'est affaibli matériellement.

Arbre décisionnel : quand les modèles de raisonnement surpassent les modèles chat

**Utilisez o3 / o3-mini quand** : (1) la tâche a une correction objectivement vérifiable — mathématiques, code qui s'exécute et passe des tests, énigmes logiques, extraction formelle avec une vérité empirique ; (2) la tâche a des dépendances multi-étapes que les modèles chat manquent (planification multi-contraintes, raisonnement multi-sauts sur une base de connaissances, planifier-puis-exécuter) ; (3) vous avez une évaluation montrant un gain de précision réel sur o3 vs le modèle chat équivalent sur VOTRE tâche — pas sur un benchmark.

**Restez sur les modèles chat (gpt-5.4 / gpt-5.5) quand** : (1) la tâche est une génération ouverte — contenu, copie, conversation, brainstorming — où la « correction » est du goût, pas de la vérité ; (2) la tâche est une extraction simple / classification où les modèles chat atteignent déjà 95%+ de précision (payer 5-15x pour un modèle de raisonnement vous obtient le dernier 1-3%, souvent sans valeur) ; (3) la latence compte et vous ne pouvez pas attendre que le modèle réfléchisse (les modèles de raisonnement ajoutent 5-30 secondes de latence de réflexion interne avant que n'importe quelle sortie ne commence à être diffusée en continu).

**Utilisez o3-mini spécifiquement quand** : (1) vous voulez la forme de raisonnement mais la réponse visible est courte et le coût de l'erreur est modéré ; (2) classification avec cas limites difficiles où le chat-tier atteint ~90% et vous avez besoin de 96%+ ; (3) vous avez une charge de travail à haut volume où la baisse o3 → o3-mini (4x moins cher en entrée, 3,6x moins cher en sortie) est la différence entre un déploiement viable et non viable.

**Le test d'évaluation** : avant de valider une charge pour les modèles de raisonnement, exécutez 100 requêtes représentatives via o3 et votre meilleur modèle chat. Évaluez la correction. Si le gain de précision est <5% absolu, restez sur chat — la prime de raisonnement ne rentabilisera pas. Si le gain est >10%, le raisonnement vaut presque certainement la peine. Entre 5% et 10% est un jugement de coût aval des erreurs.

Comparez l'alternative open-weights : coûts DeepSeek-R1 $0,55 / $2,19 par 1M de jetons — presque identique à o3-mini $0,55 / $2,20. L'écart de coût entre le raisonnement propriétaire (o3-mini) et le raisonnement open-weights (R1) s'est complètement fermé ; la différenciation est maintenant qualité, latence et intégration d'outils, pas le prix.

Comment contrôler l'inflation des jetons de raisonnement (les leviers qui fonctionnent)

**Levier 1 — paramètre `reasoning_effort`.** La série o accepte une valeur `reasoning_effort` de « low », « medium » ou « high ». Low réduit la réflexion interne de 50-70% et réduit les factures de jetons de raisonnement proportionnellement. Pour les tâches où la première réponse plausible du modèle est habituellement correcte, « low » est le bon défaut. Réservez « high » pour les tâches où vous avez mesurément vu « medium » produire des réponses fausses.

**Levier 2 — plafond `max_completion_tokens`.** Définit un plafond dur sur la sortie combinée (raisonnement + visible). Définissez-le sur votre facture par appel acceptable dans le pire cas. Si le modèle atteint le plafond, vous verrez `finish_reason: 'length'` — traitez-le explicitement (réessayez avec un budget plus grand, ou dégrader vers une solution de secours de modèle chat).

**Levier 3 — bloc-notes limité dans l'invite.** Contre-intuitivement, instruire le modèle « travaillez ceci en au maximum 3 étapes » ou « vérifiez uniquement la contrainte critique » façonne la trace de raisonnement et réduit le nombre de jetons sans détériorer mesurément la précision sur la plupart des tâches. Les modèles de raisonnement respectent bien les limites de raisonnement au niveau de l'invite.

**Levier 4 — pré-décomposez la tâche.** Si vous pouvez casser une tâche de raisonnement multi-étapes en 3 appels de modèle chat plus simples + 1 appel de modèle de raisonnement (au lieu d'un seul grand appel de modèle de raisonnement), les appels de chat sont facturés à $0,50/M et le seul appel de raisonnement a un bloc-notes beaucoup plus petit à gérer. Économies courantes de 50-70% sur les charges agentiques.

**Levier 5 — enregistrez `reasoning_tokens` sur chaque appel.** OpenAI expose le nombre dans `usage.completion_tokens_details.reasoning_tokens`. Envoyez-le vers votre pile d'observabilité. La première fois que vous voyez une exception de 25k jetons de raisonnement en production, vous comprendrez pourquoi ce levier compte plus que les quatre autres combinés — attrapez les exceptions, pas la médiane.

**Levier 6 — router la tâche, pas le modèle.** Construisez un classifieur devant votre modèle de raisonnement : les requêtes simples routent vers gpt-5.4-mini ($0,50 / $1,50), les requêtes complexes routent vers o3. Une charge de 100k appels/mois où 70% peuvent aller à chat et 30% ont besoin de raisonnement coûte ~$1 200/mois combiné vs $3 280 si tout va à o3. Le routeur lui-même coûte presque rien.

o3 vs o3-mini : quand le niveau 4x moins cher suffit réellement

o3-mini à $0,55 / $2,20 est environ 4x moins cher que o3 en entrée et 3,6x moins cher en sortie. Il génère aussi généralement 30-50% moins de jetons de raisonnement pour la même tâche — le modèle plus petit converge plus vite vers une réponse. Effet combiné : o3-mini est souvent 5-6x moins cher que o3 en production pour la même charge de travail.

Où o3-mini maintient la qualité : extraction structurée avec cas limites difficiles, génération de code de complexité moyenne (une seule fonction, bien spécifiée), classification avec 5-15 classes et limites ambiguës, Q&A multi-sauts sur une petite base de connaissances.

Où o3-mini fait défaut et vous avez besoin du plein o3 : planification agentique à long terme (>5 étapes de raisonnement séquentiel), travail mathématique style preuve, synthèse de code au-dessus de ~200 lignes, tâches où l'évaluation montre o3-mini à <85% de précision.

Politique « mini par défaut » : déployez chaque nouvelle charge de raisonnement sur o3-mini d'abord. Exécutez une évaluation de 200 échantillons contre o3. Si o3-mini se situe à ±3 points de précision de o3, gardez mini. Si l'écart est 3-7 points, décidez en fonction du coût de l'erreur. Si l'écart est >7 points, déplacez vers o3. Cette politique garde 60-80% du trafic de raisonnement typique sur le niveau moins cher sans impact de qualité mesurable au niveau du produit.

Pourquoi il n'y a pas de remise de cache d'entrée sur la série o (et quoi faire à ce sujet)

Contrairement à la famille chat GPT-5 — où la tarification du cache d'invite lit les accès au cache d'invite à ~10% du tarif d'entrée standard (une réduction de 90%) — la série o ne publie PAS de tarification de cache d'entrée au 20 juin 2026. Chaque jeton d'entrée sur o3 est facturé au taux complet $2/M (ou $0,55/M sur o3-mini) quel que soit l'état du cache.

Pourquoi cela compte : sur les modèles chat, structurer votre préfixe d'invite en premier pour maximiser les accès au cache peut raser 30-50% de la facture d'entrée. Ce levier n'est pas disponible sur les modèles de raisonnement. Chaque invite système longue coûte le prix complet à chaque appel.

Implication pratique : sur les charges de série o, gardez les invites système COURTES. Une invite système de modèle de raisonnement de 2 000 jetons qui mettrait en cache à $0,20/M effectif sur gpt-5.5 coûte plutôt $2/M complet sur o3 — les mêmes jetons, 10x plus cher. Taillez impitoyablement. Déplacez le contexte stable vers le préfixe de message utilisateur uniquement s'il doit vraiment y être.

Contournement pour les motifs de raisonnement répétés : pré-calcul l'étape de raisonnement une fois avec o3, stockez la conclusion, et servez les requêtes ultérieures de forme identique à partir d'un pipeline chat-model + retrieval qui récupère simplement la conclusion mise en cache. Ce motif (reason une fois, servir du cache) route le raisonnement coûteux vers une fraction minuscule du trafic. Voir notre générateur d'invites de code pour les motifs d'invite ancrés au cache qui fonctionnent sur les niveaux chat.

Surveillez le journal des modifications OpenAI — si/quand la mise en cache est déployée pour la série o, les mathématiques de coût dans ce guide changent matériellement. Au 20 juin 2026, ça ne s'est pas produit.

Migration loin de o1 : la liste de contrôle

o1 est déprécié. La tarification reste sur la page pour la compatibilité de migration mais les nouvelles versions devraient cibler o3 ou o3-mini. La migration est l'un des échanges de modèles les plus simples qu'OpenAI ait jamais expédié :

**Étape 1** : remplacez `model: 'o1'` par `model: 'o3'` (ou `model: 'o3-mini'`) dans vos appels API. Même point de terminaison, même forme de requête, même forme de réponse. Le contrat API de la série o est stable dans la transition o1 → o3.

**Étape 2** : ré-accordez le paramètre `reasoning_effort`. o3 converge plus vite que o1 ne le faisait — les charges qui avaient besoin de « high » sur o1 atterrissent fréquemment à « medium » sur o3 avec égale ou meilleure qualité. Testez avant de supposer que « high » est toujours nécessaire.

**Étape 3** : ré-basez votre budget de coût. La baisse de prix de 7,5x sur l'entrée et la sortie signifie que votre facture mensuelle devrait chuter d'~85% pour la même charge. Si elle n'a pas chuté autant, vous émettez probablement plus de jetons de raisonnement — vérifiez si `reasoning_effort` s'est défini par défaut plus haut sur le nouveau modèle.

**Étape 4** : re-lancez votre suite d'évaluation. La qualité devrait être égale ou meilleure sur chaque benchmark sur lequel nous avons des données ; si une tâche spécifique régresse, signalez un problème et considérez si `reasoning_effort` ou la structure d'invite a besoin d'être ajusté pour le nouveau modèle.

**Étape 5** : archivez les chemins de code spécifiques à o1. Plus longtemps o1 reste dans votre base de code, plus un ingénieur risque d'ajouter un autre appel contre elle. Supprimez l'ID hérité, forcez une rupture de build, migrez tout.

Méthodologie de sourcing — comment garder ces chiffres actuels

Chaque prix dans ce guide vient de la page de tarification en direct d'OpenAI à developers.openai.com/api/docs/pricing, récupérée le 20 juin 2026 et contre-vérifiée par les avis de dépréciation sur o1 et les messages de lancement pour o3. Quand un chiffre n'a pas pu être vérifié sur la page officielle (par ex., tarification de cache d'entrée pour série o), nous le notons explicitement comme non publié plutôt que de fabriquer une valeur.

OpenAI ne version pas sa page de tarification avec des entrées de journal des modifications explicites — les changements sont expédiés en silence. La catégorie de série o a été particulièrement volatile : o3 seul a vu une baisse de prix majeure (la réduction de 87% par rapport à o1) et un ajustement silencieux dans la sémantique de facturation des jetons de raisonnement depuis le lancement. Re-vérifiez trimestriellement si votre facture mensuelle de raisonnement dépasse $1 000.

**Comment vérifier avant de budgétiser** : ouvrez developers.openai.com/api/docs/pricing dans une fenêtre incognito, trouvez la section de la série o et confirmez que les quatre chiffres ($2 / $8 pour o3, $0,55 / $2,20 pour o3-mini) correspondent à ce guide. S'ils correspondent, ce guide est actuel. S'ils ne correspondent pas, faites confiance à la page en direct et contactez-nous.

**La sémantique de facturation des jetons de raisonnement est documentée séparément** à platform.openai.com/docs/guides/reasoning. Cette page indique explicitement que les jetons de raisonnement sont facturés au tarif de sortie et sont signalés sous `usage.completion_tokens_details.reasoning_tokens`. Le comportement structurel — bloc-notes interne, jamais retourné, complètement facturé — a été stable depuis le lancement de o1 et s'applique identiquement à o3 et o3-mini.

**Pourquoi nous omettons certains chiffres couramment cités** : les guides tiers énumèrent parfois les taux de cache d'entrée de la série o ou les remises de volume qui n'apparaissent pas sur la page en direct d'OpenAI. Plutôt que de propager des taux possiblement obsolètes ou possiblement fabriqués, nous les omettons. Si OpenAI publie un tarif de cache d'entrée pour la série o après le lancement de ce guide, nous re-récupérerons et mettrons à jour — jusque-là, planifiez contre les taux d'entrée complets.

Comment estimer le coût de n'importe quel appel o-series en 5 étapes

1
Estimez vos jetons d'entrée
Même règle de modèle chat : caractères ÷ 4 ou mots ÷ 0,75. Gardez les invites système courtes sur la série o (pas de remise de cache d'entrée signifie que chaque jeton est facturé au taux complet à chaque appel).
→ Open the Générateur d'invites ChatGPT (optimisé pour raisonnement)
2
Estimez vos jetons de sortie VISIBLES
Estimez la longueur de la réponse visible à l'utilisateur de la même façon — mots ÷ 0,75. C'est la pointe de l'iceberg sur les modèles de raisonnement ; la queue des jetons de raisonnement en dessous domine habituellement la facture.
3
Estimez vos jetons de RAISONNEMENT (le terme caché)
Médianes de production que nous voyons : mathématiques simples/classification 200-800 ; code multi-étapes 1 500-5 000 ; planification complexe 5 000-25 000 ; boucles d'auto-vérification agentiques 20 000-80 000. Pour une première version, budgétisez 3 000-5 000 jetons de raisonnement par appel et affinez contre réel `usage.completion_tokens_details.reasoning_tokens` à partir des logs.
4
Appliquez la formule de coût du raisonnement
coût = (jetons_entrée / 1M) × prix_entrée + ((jetons_raisonnement + sortie_visible) / 1M) × prix_sortie. Appel o3 exemple : 1 000 entrée + 4 000 raisonnement + 200 visible = 0,001 × $2 + 0,0042 × $8 = $0,002 + $0,0336 = $0,0356 par appel. Cet $0,0356 est ~10x ce que l'estimation sortie-visible-seule aurait montré.
5
Accordez `reasoning_effort` + `max_completion_tokens`
Par défaut sur `reasoning_effort: 'low'` et soulevez uniquement quand une évaluation montre des gains de qualité. Définissez toujours `max_completion_tokens` pour qu'un seul bloc-notes incontrôlable ne puisse pas facturer 80k jetons de sortie — c'est $0,64 sur o3 d'une seule mauvaise requête.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Générateur d'invites ChatGPT (optimisé pour raisonnement)→Calculatrice coût GPT-5→Calculatrice coût API OpenAI (échelle complète)→Calculatrice coût DeepSeek (R1 vs o3-mini)→

Frequently Asked Questions

Combien coûte o3 par 1M de jetons en 2026 ?

En juin 2026, OpenAI facture o3 $2,00 par 1M de jetons d'entrée et $8,00 par 1M de jetons de sortie — avec la mise en garde critique que les jetons de raisonnement interne sont facturés au taux de sortie même s'ils ne sont pas retournés à l'appelant. Un appel o3 typique générant 3 500 jetons de raisonnement + 300 jetons de sortie visible facture 3 800 jetons contre le taux de sortie $8/M ($0,0304), plus l'entrée. Source : page de tarification en direct d'OpenAI.

Que sont les jetons de raisonnement et pourquoi coûtent-ils supplémentaire ?

Les jetons de raisonnement sont des jetons de bloc-notes de chaîne de pensée interne que les modèles de la série o génèrent avant de produire la réponse visible à l'utilisateur. C'est comment le modèle planifie, vérifie et affine sa réponse. Ils ne sont jamais retournés à l'appelant (le champ `content` montre uniquement la réponse visible), mais ils sont facturés au tarif de sortie complet. Une réponse de 200 jetons qui a pris 4 000 jetons de raisonnement pour être produite facture 4 200 jetons de sortie — pas 200. C'est le mécanisme unique qui rend les modèles de raisonnement 5-15x plus chers que les modèles chat sur des charges identiques.

Les jetons de raisonnement comptent-ils dans la facturation de sortie ?

Oui. Chaque jeton de raisonnement est facturé au taux de sortie du modèle, identiquement aux jetons de sortie visibles. La réponse API rapporte le nombre sous `usage.completion_tokens_details.reasoning_tokens` — enregistrez ce champ à chaque appel ou vous n'avez aucune visibilité sur votre forme de coût réelle. Le champ `total_tokens` inclut les jetons de raisonnement dans la somme de sortie.

o3 est-il moins cher que o1 ?

Oui — dramatiquement. o3 tarifie à $2 entrée / $8 sortie par 1M de jetons ; o1 (maintenant déprécié) était $15 / $60. C'est une réduction de 7,5x sur l'entrée et la sortie, ou environ 87% de réduction. La même charge qui coûtait $24 600/mois sur o1 atterrit à ~$3 280/mois sur o3 avec qualité à parité ou mieux. Chaque charge de o1 devrait être migrée vers o3. Voir : https://venturebeat.com/ai/openai-announces-80-price-drop-for-o3-its-most-powerful-reasoning-model

Tarification o3 vs o3-mini — quand mini suffit-il ?

o3-mini à $0,55 / $2,20 par 1M de jetons est environ 4x moins cher en entrée et 3,6x moins cher en sortie que o3. Il génère aussi 30-50% moins de jetons de raisonnement pour les tâches typiques. Politique par défaut : déployez chaque nouvelle charge de raisonnement sur o3-mini d'abord, exécutez une évaluation de 200 échantillons contre o3, gardez mini si la précision est dans ±3 points. Mini gère l'extraction structurée, le code de complexité moyenne, la classification avec cas limites difficiles. Déplacez vers o3 complet pour la planification agentique à long terme, les mathématiques style preuve, ou la synthèse de code 200+ lignes.

Comment puis-je réduire mon coût API o3 ?

Six leviers : (1) définissez `reasoning_effort: 'low'` comme défaut et relevez uniquement quand c'est nécessaire ; (2) plafonnez `max_completion_tokens` pour qu'un bloc-notes incontrôlable ne puisse pas facturer 80k jetons ; (3) réduisez à o3-mini là où l'évaluation le permet ; (4) pré-décomposez les tâches multi-étapes en appel chat-model + un appel modèle de raisonnement ; (5) gardez les invites système courtes (pas de remise de cache d'entrée sur la série o — chaque jeton est facturé au taux complet à chaque appel) ; (6) construisez un routeur qui envoie uniquement les requêtes vraiment liées au raisonnement vers o3 et route le reste vers gpt-5.4-mini à $0,50 / $1,50.

o3 vs coût DeepSeek R1 — lequel est moins cher ?

Presque identique au taux affiché. DeepSeek-R1 est $0,55 / $2,19 par 1M de jetons — essentiellement le même qu'o3-mini $0,55 / $2,20. L'écart vers o3 complet ($2 / $8) est environ 4x en faveur de DeepSeek. DeepSeek-R1 offre aussi une remise de cache d'entrée publiée de 90% que la série o n'a pas. Pour le coût pur sur les charges de raisonnement lourd, R1 gagne ; pour l'utilisation d'outils, la profondeur d'appels de fonction et l'intégration d'écosystème OpenAI, o3 ou o3-mini gagne toujours. Voir notre calculatrice coût DeepSeek pour la vision complète des coûts open-weights.

Pourquoi n'y a-t-il pas de remise de cache d'entrée sur la série o ?

Au 20 juin 2026, OpenAI n'a pas publié de tarification de cache d'entrée pour la série o. Chaque jeton d'entrée sur o3 est facturé au taux complet $2/M quel que soit l'état du cache — il n'y a pas de $0,20/M de niveau mis en cache comme sur gpt-5.5. Le contournement structurel : gardez les invites système courtes sur les modèles de raisonnement (chaque jeton coûte le prix complet à chaque appel), et considérez une architecture « reason une fois, servez du cache » où vous pré-calcul l'étape de raisonnement avec o3 et servez les requêtes ultérieures de forme identique à partir d'un pipeline chat-model + retrieval. Surveillez le journal des modifications OpenAI — si/quand la mise en cache arrive pour la série o, les mathématiques de coût changent matériellement.

Arrêtez de trop payer sur les jetons de raisonnement.

La série o facture 5-15x les modèles chat sur des volumes de jetons identiques. Notre générateur d'invites IA rédige des invites optimisées pour le raisonnement qui minimisent l'inflation des jetons de réflexion — basées sur VOTRE métier + tâche. Essai gratuit 14 jours, pas de carte.

Browse all prompt tools →