La formule de coût GPT-5
Chaque appel GPT-5 utilise la même logique par token. Pas de frais de plateforme, pas de frais par appel, pas de facture minimale. Vous payez les tokens en entrée et en sortie, au tarif par 1M du modèle choisi :
``` cost = (input_tokens / 1,000,000) × input_price_per_M + (output_tokens / 1,000,000) × output_price_per_M ```
Deux ajustements s'empilent par-dessus. Les accès au cache de prompt — portions de votre préfixe d'entrée qu'OpenAI a mises en cache parce que vous les avez envoyées récemment — facturent au tarif d'entrée en cache (10% du prix d'entrée standard sur chaque niveau GPT-5). Les prompts système stables longs et les schémas d'outils réutilisés sont les gagnants typiques. L'API Batch applique une réduction fixe de 50% sur l'entrée et la sortie pour les tâches asynchrones livrées dans les 24 heures. Les remises se composent : un appel GPT-5.5 en cache + batch paie $0.50/1M d'entrée en cache divisé par 2 = $0.25/1M sur la portion en cache, et $30/1M de sortie divisé par 2 = $15/1M sur la sortie.
Sur GPT-5.5 Pro, les tokens de raisonnement générés en interne avant la réponse visible facturent au tarif de sortie $180/1M, le même que le texte de réponse. Une requête qui déclenche 3 000 tokens de raisonnement pour produire une réponse de 500 tokens facture 3 500 tokens de sortie. Budgétisez un multiplicateur de raisonnement de 3-8x sur Pro si la tâche n'est pas triviale. Les modèles GPT-5.5 et GPT-5.4 standard ne mettent pas en surface la chaîne de pensée ; leur facturation de sortie correspond à la longueur de la réponse.