La formule de coût des jetons de raisonnement (celle dont personne ne vous parle)
Sur les modèles chat comme GPT-5.5, la formule de coût est simple — vous payez les jetons d'entrée que vous avez envoyés et les jetons de sortie que le modèle a écrits en retour. Sur la série o, il y a un troisième terme qui n'apparaît dans aucun champ de réponse mais qui apparaît absolument sur votre facture :
``` coût = (jetons_entrée / 1 000 000) × prix_entrée + (jetons_raisonnement / 1 000 000) × prix_sortie ← invisible pour l'appelant + (sortie_visible / 1 000 000) × prix_sortie ```
Le nombre de jetons_raisonnement est rapporté dans la réponse API sous `usage.completion_tokens_details.reasoning_tokens`. Lisez-le. Enregistrez-le. Si vous ignorez ce champ, vous n'avez aucune idée de ce que vous payez réellement par appel — le champ `content` vous montre la réponse de 200 jetons, mais le champ `reasoning_tokens` est où la facture de 4 000 jetons se cache.
Forme de jetons de raisonnement pratique que nous voyons sur les déploiements en production : mathématiques simples / classification avec raisonnement activé = 200-800 jetons de raisonnement ; génération de code multi-étapes = 1 500-5 000 jetons de raisonnement ; tâches complexes de planification / style preuve = 5 000-25 000 jetons de raisonnement ; boucles agentiques avec auto-vérification = 20 000-80 000 jetons de raisonnement par requête. Budgétisez l'enveloppe complète, pas juste la réponse visible.