La formule de coût (mémorisez celle-ci)
Chaque appel API OpenAI suit les mêmes calculs. Il n'y a pas de frais de plateforme, pas de frais par appel, pas de minimum. Vous payez ce que vous envoyez et ce que vous récupérez, au taux par 1M tokens du modèle :
``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```
Deux ajustements s'ajoutent par-dessus. D'abord, les accès au cache de prompts — portions de votre préfixe d'entrée qu'OpenAI a mises en cache parce que vous les aviez envoyées dans un appel antérieur récent — sont facturés au taux cached-input (~10% de l'entrée standard). Les longs prompts système et les schémas d'outils stables sont les gagnants typiques ; le cache est opportuniste sur la plupart des SDK et ne nécessite pas de changements de code pour s'activer. Deuxièmement, l'API Batch réduit de 50% l'entrée et la sortie en échange d'une fenêtre de livraison de 24 heures ou moins. Les deux remises s'ajoutent : un appel en cache, par lot, sur gpt-5.5 est facturé à $0.25 entrée ÷ 2 = $0.125/1M et $30 sortie ÷ 2 = $15/1M pour la portion cachée + par lot. La structure de vos prompts détermine la quantité de remise que vous pouvez capturer en pratique.
Les tokens de raisonnement sur la série o- sont facturés au taux de sortie même s'ils ne vous sont pas retournés — un modèle qui 'réfléchit' pendant 4 000 tokens avant de produire une réponse de 200 tokens facture 4 200 tokens de sortie. Planifiez un budget de sortie 5-10x sur les tâches lourdes en raisonnement.