Par l'équipe DDH · Digital Dashboard Hub

Tarification API OpenAI 2026 : le tableau complet par modèle

By DDH Research Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

OpenAI facture par token, exprimé en dollars par 1 000 000 de tokens, et facture l'entrée et la sortie séparément. En juin 2026, la famille GPT-5.5 s'élève à $5.00 d'entrée / $30.00 de sortie par 1M tokens pour le niveau standard et $30.00 / $180.00 pour gpt-5.5-pro, tandis que le plus léger gpt-5.4-nano fonctionne à $0.20 / $1.25 — un écart de 150x entre les points de terminaison les moins et les plus chers. La sortie est presque toujours 5 à 6 fois plus chère que l'entrée sur chaque modèle de la gamme.

Deux leviers de réduction modifient sensiblement la facture : l'API Batch réduit de 50% l'entrée et la sortie pour les tâches asynchrones pouvant attendre jusqu'à 24 heures, et la tarification d'entrée en cache lit les accès au cache de prompts à environ 10% du taux d'entrée standard. Ci-dessous se trouve le tableau de prix complet provenant de la page de tarification active d'OpenAI, suivi d'exemples facturés qui convertissent les chiffres en dollars réels par 1k, 100k et 1M appels. Confirmez les tarifs par rapport à la page de tarification OpenAI avant de budgétiser — ils changent souvent. Évaluez rapidement votre propre charge de travail avec notre calculateur de coût de prompt IA, ou consultez l'aide-mémoire PDF de tarification LLM 2026 gratuit pour une référence imprimable.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Prix API OpenAI par 1M tokens — juin 2026

Feature	Entrée ($/1M)	Entrée en cache ($/1M)	Sortie ($/1M)
gpt-5.5-pro	$30.00	$3.00	$180.00
gpt-5.5	$5.00	$0.50	$30.00
gpt-5.4	$2.50	$0.25	$15.00
gpt-5.4-mini	$0.75	$0.075	$4.50
gpt-5.4-nano	$0.20	$0.02	$1.25
o4-reasoning	$15.00	$1.50	$60.00
o4-mini-reasoning	$3.00	$0.30	$12.00
gpt-4.1	$2.00	$0.50	$8.00
gpt-4.1-mini	$0.40	$0.10	$1.60
gpt-4.1-nano	$0.10	$0.025	$0.40
text-embedding-3-large	$0.13	—	—
text-embedding-3-small	$0.02	—	—

Sources, en juin 2026 : tarification OpenAI (https://developers.openai.com/api/docs/pricing), documentation API Batch OpenAI (https://platform.openai.com/docs/guides/batch). La tarification d'entrée en cache s'applique uniquement aux accès au cache de prompts où le même préfixe est réutilisé dans la fenêtre de cache ; les échecs de cache sont facturés au taux d'entrée standard.

Comment OpenAI vous facture, ligne par ligne

Chaque appel API génère deux flux facturables : les tokens d'entrée (le prompt, le message système, toute définition d'outil et tous les tours précédents que vous relisez) et les tokens de sortie (tout ce que le modèle écrit en retour, y compris les tokens de raisonnement sur la série o et les arguments d'appel d'outil). Ils sont tarifés séparément et énumérés indépendamment sur la facture.

La formule est inchangée par rapport aux versions antérieures de l'API :

``` cost = (input_tokens / 1,000,000) * input_price_per_M + (output_tokens / 1,000,000) * output_price_per_M ```

Deux ajustements importants en 2026. Premièrement, les tokens d'entrée en cache — portions de votre prompt qui accèdent au cache de prompts d'OpenAI dans la fenêtre de cache — sont facturés à environ 10% du taux d'entrée standard. Le cache est opportuniste et ne nécessite pas de modifications de code pour de nombreux SDK ; les longs messages système et les schémas d'outils réutilisés sont les gagnants typiques. Deuxièmement, les demandes soumises via l'API Batch reçoivent 50% de réduction sur l'entrée et la sortie, en échange d'une fenêtre de livraison de jusqu'à 24 heures. Ces deux remises s'empilent sur les prix de base et constituent le seul plus grand levier de coût que la plupart des équipes ignorent.

Les tokens de raisonnement sur la série o (o4-reasoning, o4-mini-reasoning) sont facturés au taux de sortie bien qu'ils ne vous soient pas retournés. Un modèle qui « réfléchit » pendant 4 000 tokens avant de produire une réponse de 200 tokens facture 4 200 tokens de sortie. Planifiez un budget de sortie 5 à 10 fois supérieur sur les tâches lourdes en raisonnement par rapport aux tâches de chat direct.

Exemple facturé 1 : un appel de 1 000 entrée / 500 sortie à chaque niveau

Prenez un appel représentatif — un prompt de 1 000 tokens qui retourne une réponse de 500 tokens, à peu près équivalent à un brief de 750 mots en entrée et une réponse de 375 mots en sortie. Le coût par appel aux tarifs standards se situe comme suit :

gpt-5.5-pro : (1000/1 000 000 × $30.00) + (500/1 000 000 × $180.00) = $0.030 + $0.090 = $0.120 par appel. gpt-5.5 : (0.001 × $5.00) + (0.0005 × $30.00) = $0.005 + $0.015 = $0.020 par appel. gpt-5.4 : $0.0025 + $0.0075 = $0.010. gpt-5.4-mini : $0.00075 + $0.00225 = $0.003. gpt-5.4-nano : $0.0002 + $0.000625 = $0.000825. o4-reasoning (en supposant 2 000 raisonnement + 500 sortie visible) : $0.015 entrée + $0.150 sortie = $0.165 par appel.

Remarquez l'écart de 145x entre gpt-5.4-nano ($0.000825) et gpt-5.5-pro ($0.120) sur des volumes de tokens identiques. Le bon modèle n'est presque jamais le plus cher ; c'est le niveau le moins cher qui répond à votre barre de qualité.

Si vous souhaitez tester en priorité le niveau le moins cher, rédigez des prompts plus clairs qui survivent à un modèle plus petit avec notre générateur de prompt ChatGPT. Les entrées plus serrées réduisent le nombre de tokens et décalent la charge de travail vers l'échelon tarifaire inférieur.

Exemple facturé 2 : passer à l'échelle 100 000 et 1 000 000 d'appels

Multipliez les chiffres par appel ci-dessus par 100 000 (un travail de classification ou de résumé de taille moyenne) et 1 000 000 (une charge de travail de production à grande échelle) :

100k appels — gpt-5.5-pro : $12 000. gpt-5.5 : $2 000. gpt-5.4 : $1 000. gpt-5.4-mini : $300. gpt-5.4-nano : $82.50. o4-reasoning (avec 2k tokens de raisonnement) : $16 500.

1M appels — gpt-5.5-pro : $120 000. gpt-5.5 : $20 000. gpt-5.4 : $10 000. gpt-5.4-mini : $3 000. gpt-5.4-nano : $825. o4-reasoning : $165 000.

Appliquez maintenant la remise API Batch (-50% entrée et sortie) à la ligne gpt-5.5 : $20 000 devient $10 000 pour 1M appels. Appliquez la mise en cache des prompts où 800 des 1 000 tokens d'entrée sur chaque tour sont un préfixe système stable qui accède au cache 80% du temps : ces 640 tokens en cache coûtent $0.50/1M au lieu de $5/1M, économisant 90% sur 64% de l'entrée — environ $2 880 sur la facture d'entrée de $4 000 pour 1M appels, soit environ 14% du total. Empilez les deux remises et la même charge de travail s'exécute autour de $8 300 — une économie de 58% sur le taux standard.

Ce sont les leviers canoniques. Faites d'abord correspondre le niveau de modèle à la difficulté de la tâche, puis regroupez ce qui peut attendre, puis mettez en cache ce qui se répète.

Quand choisir pro, standard, mini ou nano

gpt-5.5-pro est conçu pour le raisonnement à enjeux élevés où une seule mauvaise réponse est plus chère que 100 bonnes — analyse financière, rédaction juridique, synthèse de code complexe avec des exigences strictes de correction. La prime de 6x par rapport à gpt-5.5 n'est justifiée que lorsque le coût d'erreur en aval domine le coût par appel. Pour la plupart des trafics de chat en production, c'est excessif.

gpt-5.5 est la valeur par défaut pour le chat d'usage général, les flux de travail agentiques, la génération de contenu qui est expédiée aux humains et toute tâche pour laquelle vous auriez utilisé GPT-4 en 2024. À $5/$30, c'est à peu près la moitié du prix de GPT-4 fin 2024 avec une qualité substantiellement supérieure.

gpt-5.4-mini ($0.75/$4.50) est le point idéal pour les tâches de sortie structurée à grand volume : classification, extraction, résumé, Q&A simple. La plupart des équipes exécutant 1M+ appels par mois se situent ici. gpt-5.4-nano ($0.20/$1.25) s'adresse aux cas d'utilisation intégrés — autocomplétion, détection d'intention, routage simple — où le coût doit être mesuré en fractions de centime.

La série o (o4-reasoning, o4-mini-reasoning) facture les tokens de raisonnement au taux de sortie, utilisez-la donc uniquement lorsque la chaîne de pensée améliore matériellement la précision sur les problèmes difficiles. Pour la génération simple, les modèles sans raisonnement sont 5 à 10 fois moins chers pour une qualité équivalente. Consultez le guide de raisonnement d'OpenAI pour la ventilation canonique.

API Batch : quand 50% de réduction est vraiment de l'argent gratuit

L'API Batch accepte un fichier JSONL de demandes et retourne les résultats dans les 24 heures, facturés à la moitié des tarifs d'entrée et de sortie standard. Le compromis est la latence — vous ne pouvez pas l'utiliser pour quoi que ce soit qu'un utilisateur attend de manière synchrone. Mais pour les charges de travail hors ligne, c'est l'une des réductions de coûts les plus sous-utilisées de l'API.

Cas canoniques : résumé nocturne des tickets d'hier, classification hebdomadaire des prospects marketing, enrichissement mensuel des contacts CRM, enrichissement unique d'un ensemble de données de 500k lignes. Si la tâche n'a pas à être retournée dans les secondes, regroupez-la.

Anti-cas : chat en direct, agents vocaux, quoi que ce soit dans un tunnel de paiement, quoi que ce soit où les humains lisent la réponse en temps réel. La fenêtre de latence tue l'expérience utilisateur.

Mathématiques facturées : un travail de résumé gpt-5.5 de 1M appels coûte $20 000 au taux standard. Le même travail via Batch coûte $10 000. Si le travail peut attendre jusqu'à demain, la remise est gratuite. Confirmez les conditions actuelles du Batch par rapport à la documentation du batch OpenAI.

Mise en cache de prompts : tarification à 10% sur les préfixes répétés

Le cache de prompts d'OpenAI stocke les préfixes de prompts récents et re-sert les préfixes correspondants du cache au lieu de les re-tokeniser, facturant la portion correspondante à environ 10% du taux d'entrée standard. Le cache est automatique pour la plupart des chemins SDK ; ce que vous contrôlez, c'est si vos prompts ont un préfixe stable et réutilisable qui vaut la peine d'être mis en cache.

Structure de prompt adaptée au cache : un long message système fixe (instructions, guide de style, exemples), un bloc du milieu stable (définitions d'outils, documents de référence), puis une courte queue variable (la question réelle de l'utilisateur). Plus la portion mise en cache est longue et plus souvent elle se répète dans la fenêtre de cache, plus l'économie est importante.

Mathématiques facturées : un chatbot avec un message système de 2 000 tokens qui accède au cache sur 90% des 100 000 appels quotidiens. Sans mise en cache, les messages système seuls coûtent (2 000 × 100 000 / 1 000 000) × $5 = $1 000 par jour sur gpt-5.5. Avec 90% d'accès au cache à $0.50/1M, les 1,8M tokens d'entrée mis en cache coûtent $0.90 — une économie de 99,9% sur la portion mise en cache — et les 10% restants sont facturés à $1.00, total $1.90 par jour pour l'entrée du message système. Même charge de travail, $998 de moins.

La mise en cache n'aide pas si vos prompts sont uniques à chaque appel ou si la portion variable est à l'avant du prompt. Déplacez le texte stable vers l'avant, le texte variable vers l'arrière, et le cache fera le reste. Consultez la documentation de mise en cache des prompts d'OpenAI pour la fenêtre de cache et les règles d'éligibilité.

Suppléments vision, audio et utilisation d'outils

Les entrées d'image sur la famille GPT-5.5 sont converties en tokens en fonction de la résolution. Une image de 1024×1024 facture environ 765 tokens d'entrée au niveau standard ; une image de 2048×2048 facture environ 1 445 tokens. À $5/1M sur gpt-5.5, c'est $0.0038 et $0.0072 par image respectivement — non trivial lorsque vous traitez des millions d'images par mois.

L'entrée audio via les points de terminaison en temps réel et audio facture séparément du texte et à des tarifs plus élevés — environ $40/1M tokens d'entrée et $80/1M tokens de sortie sur gpt-5.5-audio en juin 2026. Un échange parlé d'une minute coûte $0.06-$0.12 selon la densité de la parole.

Les appels d'outils eux-mêmes sont facturés comme des tokens de sortie — le nom de la fonction, les arguments et le résultat de l'outil que vous renvoyez au modèle. Les boucles agentiques avec 5-10 appels d'outils par tour peuvent facturer 10 fois la sortie d'un tour de réponse directe, ce qui explique pourquoi les coûts des agents sont presque toujours dominés par la sortie. Nous détaillons les mathématiques de la boucle d'agent dans notre calculateur de coût d'agent IA.

Tarification API en temps réel et voix/audio en profondeur

Les agents vocaux facturent selon une carte tarifaire complètement différente du chat textuel, et l'écart est assez large pour que les ingénieurs habitués à l'économie des tokens texte sous-budgétisent régulièrement les déploiements en temps réel de 4 à 6 fois. En juin 2026, gpt-5.5-realtime — le point de terminaison conversationnel qui diffuse l'audio en entrée et en sortie sur un WebSocket persistant — facture l'audio d'entrée à $40.00 par 1M tokens et l'audio de sortie à $80.00 par 1M tokens. C'est 8 fois le taux d'entrée textuel ($5.00) et environ 2,7 fois le taux de sortie textuel ($30.00) sur le même modèle sous-jacent. Les sessions multi-modales sont facturées par flux : un tour où l'utilisateur parle et le modèle répond avec audio plus une charge textuelle d'appel d'outil génère des tokens d'entrée audio, des tokens de sortie audio et une petite charge de sortie textuelle sur la même ligne de facture.

Les tokens audio ne sont pas des caractères ou des secondes — c'est une représentation discrète en chunks de la forme d'onde. La règle actuelle est à peu près 1 token audio par 0,1 seconde de parole au taux d'échantillonnage standard de 24 kHz, ce qui résout environ 600 tokens audio par minute de parole dans chaque direction. Pour un contrôle de la facture d'entrée, prenez les minutes de la parole de la personne, multipliez par 600, divisez par 1 000 000 et multipliez par $40. Un appel de service client de 10 minutes où l'utilisateur parle pendant 4 minutes et l'agent pendant 6 minutes génère environ 2 400 tokens d'entrée audio et 3 600 tokens de sortie audio. C'est (2 400/1 000 000 × $40) + (3 600/1 000 000 × $80) = $0.096 + $0.288 = $0.384 par appel avant tout supplément d'utilisation d'outils ou texte.

Exemple facturé — un appel d'agent vocal de 5 minutes. Supposez un partage réaliste : l'utilisateur parle pendant 2 minutes (1 200 tokens d'entrée audio), l'agent parle pendant 3 minutes (1 800 tokens de sortie audio) et l'agent exécute également deux appels d'outils retournant environ 400 tokens de sortie textuelle d'arguments structurés et environ 600 tokens d'entrée textuelle de résultats d'outils renvoyés au contexte. Entrée audio : 1 200/1M × $40 = $0.048. Sortie audio : 1 800/1M × $80 = $0.144. Sortie textuelle (appels d'outils + fragments textuels finaux) : 400/1M × $30 = $0.012. Entrée textuelle (résultats d'outils + message système d'environ 1 500 tokens) : 2 100/1M × $5 = $0.0105. Total : environ $0.215 par appel de 5 minutes, ou environ $2.58 par heure de voix en direct. Exécutez 1 000 appels par jour et la facture en temps réel seule est d'environ $6 450/mois — avant transcription, avant enregistrement, avant toute solution de secours LLM.

La transcription Whisper-3, utilisée pour la parole-en-texte asynchrone où vous n'avez pas besoin d'une réponse de modèle diffusée, reste le point d'entrée audio le moins cher à $0.006 par minute d'audio (facturée en incréments d'une seconde, minimum une seconde). Un arriéré de transcription de 10 000 minutes — disons un mois d'appels de support enregistrés — coûte exactement $60. Le nouveau point de terminaison whisper-3-large, qui ajoute la diarisation et les timestamps au niveau des mots, facture $0.011 par minute. Pour les applications qui n'ont besoin que d'analyses post-appel plutôt que de conversation en direct, transcrire avec Whisper-3 puis exécuter la transcription via gpt-5.4-mini est environ 30 à 50 fois moins cher que d'acheminer le même audio via gpt-5.5-realtime.

La synthèse vocale se situe sur sa propre carte tarifaire et est tarifée par caractère plutôt que par token. La voix standard tts-1-2026 s'exécute à $15.00 par 1M caractères ; la voix de plus haute fidélité tts-1-hd-2026 s'exécute à $30.00 par 1M caractères. Une réponse de 200 mots compte en moyenne environ 1 100 caractères, donc un seul rendu TTS coûte $0.0165 en standard et $0.033 en HD. Le compromis par rapport à la sortie audio en temps réel est la latence et l'interruptibilité : TTS n'est pas convivial pour le streaming pour la conversation aller-retour mais environ 5 fois moins cher que la sortie audio gpt-5.5-realtime pour IVR, lectures de notifications et narration pré-rendue. Un motif de production courant est d'utiliser gpt-5.4-mini ($0.75/$4.50 tarifs texte) pour rédiger la réponse, puis l'acheminer vers tts-1-2026 — le coût total sur cette réponse de 200 mots est à peu près $0.018 texte entrée/sortie plus $0.0165 TTS, par rapport à environ $0.10+ si le même contenu était généré comme audio diffusé via le point de terminaison en temps réel.

La mise en cache des prompts s'applique aux sessions en temps réel mais uniquement à la portion textuelle du prompt — le message système, les schémas d'outils et tout l'historique de conversation sous forme textuelle. Les tokens audio eux-mêmes ne sont pas mis en cache ; chaque chunk de parole est assez unique pour que le cache ne puisse pas le faire correspondre. L'implication pratique : structurez votre message système en temps réel de la même façon que vous le feriez pour le chat — longues instructions stables et définitions d'outils à l'avant, contexte dynamique par appel à l'arrière — et la remise de 90% d'entrée mise en cache s'appliquera à cette portion textuelle dans toute la session WebSocket. Pour un agent vocal avec un message système de 3 000 tokens exécutant 1 000 appels par jour, la mise en cache du préfixe du système réduit le coût d'entrée textuelle de $15.00/jour à environ $1.65/jour. C'est une petite part de la facture en temps réel mais s'empile proprement avec tout le reste. Confirmez les tarifs audio en temps réel actuels par rapport à la documentation de l'API en temps réel d'OpenAI avant de verrouiller la tarification dans un contrat client — les tarifs vocaux ont changé deux fois au cours des 12 derniers mois.

Comment réduire votre facture OpenAI cette semaine

Cinq actions ordonnées par impact typique. Premièrement, réduisez un niveau de modèle. Si vous êtes sur gpt-5.5, exécutez une évaluation côte à côte par rapport à gpt-5.4-mini sur 100 exemples représentatifs ; de nombreuses équipes trouvent une qualité équivalente à 1/6 du coût. Deuxièmement, regroupez tout ce qui n'a pas besoin d'une réponse synchrone — remplissages de données historiques, rapports quotidiens, files d'attente de classification — et prenez la remise Batch de 50%. Troisièmement, restructurez vos prompts pour placer le texte stable en premier afin que la mise en cache des prompts se déclenche.

Quatrièmement, limitez la sortie. Définissez max_tokens agressivement et demandez du JSON structuré au lieu de prose ; un objet JSON de 200 tokens remplace un paragraphe de 1 000 tokens pour la plupart des tâches d'extraction. Cinquièmement, surveillez avec un tableau de bord de coût par route — la plupart des équipes ont une route qui représente 60% des dépenses et une longue traîne de routes bon marché ; l'audit seul révèle généralement une réduction évidente.

Si vous souhaitez rédiger des prompts plus serrés pour commencer, notre constructeur de prompt de code et générateur de méta-description aident à compresser les blocs d'instructions sans perdre la fidélité. Vérifiez les tarifs par rapport à la tarification Anthropic Claude 2026 et le calculateur de comparaison des coûts LLM avant de verrouiller un fournisseur.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Tarification Anthropic Claude 2026→Calculateur de coûts GPT vs Claude vs Gemini→Comparaison de la fenêtre contextuelle LLM 2026→Calculateur de coûts de prompt IA→

Frequently Asked Questions

Quel est le modèle le moins cher d'OpenAI en 2026 ?

gpt-5.4-nano à $0.20 d'entrée / $1.25 de sortie par 1M tokens est le modèle de chat d'usage général le moins cher. text-embedding-3-small à $0.02/1M est encore moins cher mais ne produit que des embeddings, pas du texte généré. Confirmez par rapport à la page de tarification d'OpenAI.

Combien l'API Batch économise-t-elle ?

50% de réduction sur l'entrée et la sortie. Un travail gpt-5.5 de $20 000 au taux standard s'exécute à $10 000 via Batch, en échange d'une fenêtre de livraison de jusqu'à 24 heures. Idéal pour les charges de travail hors ligne — consultez le guide Batch d'OpenAI.

Les tokens d'entrée en cache sont-ils vraiment 90% moins chers ?

Oui — les tokens d'entrée en cache facturent à environ 10% du taux d'entrée standard (donc l'entrée en cache gpt-5.5 est $0.50/1M au lieu de $5.00/1M). L'astuce est que le préfixe doit accéder au cache de prompts d'OpenAI dans la fenêtre de cache, ce qui favorise les longs messages système stables et les schémas d'outils stables à l'avant de la demande.

Pourquoi la sortie est-elle tellement plus chère que l'entrée ?

La génération de tokens nécessite d'exécuter la passe avant complète pour chaque token, tandis que les tokens d'entrée sont traités en une seule passe par lot. OpenAI tarifie généralement la sortie 5 à 8 fois l'entrée dans la gamme — par exemple, $5 entrée / $30 sortie sur gpt-5.5 est un ratio de 6x.

Les tokens de raisonnement de la série o comptent-ils comme sortie ?

Oui. Les modèles o4-reasoning et o4-mini-reasoning facturent la chaîne de pensée cachée au taux de sortie, bien que ces tokens ne vous soient pas retournés. Budgétez 5 à 10 fois le nombre de tokens de sortie visibles lors de l'utilisation de modèles de raisonnement.

OpenAI est-il moins cher qu'Anthropic en 2026 ?

Cela dépend du niveau. gpt-5.5 ($5/$30) est plus cher que Claude Sonnet 4.6 ($3/$15) et Claude Opus 4.8 ($5/$25) en sortie. gpt-5.4-mini ($0.75/$4.50) est moins cher que Claude Haiku 4.5 ($1/$5). Comparez côte à côte à notre calculateur de coûts LLM.

Comment estimer le coût avant d'envoyer une demande ?

Utilisez la formule cost = (input_tokens / 1M × input_price) + (output_tokens / 1M × output_price). Estimez le nombre de tokens en tant que caractères ÷ 4 environ ou mots ÷ 0,75. Pour une procédure détaillée, consultez notre calculateur de coûts de prompt IA.

OpenAI facture-t-il pour les réponses échouées ou refusées ?

Oui — tous les tokens que le modèle produit sont facturés, y compris les messages de refus et les tentatives d'appel d'outil qui donnent une erreur. L'exception est les demandes qui échouent avant que des tokens soient émis (limites de débit, erreurs d'auth, entrée malformée).

Combien coûte vraiment gpt-5.5-realtime par minute de voix ?

Aux tarifs de juin 2026 ($40/1M entrée audio, $80/1M sortie audio, et environ 600 tokens audio par minute de parole), un échange équilibré d'une minute — 30 secondes de parole utilisateur et 30 secondes de réponse d'agent — s'exécute à peu près (300/1M × $40) + (300/1M × $80) = $0.012 + $0.024 = $0.036, avant tous les messages système textuels ou appels d'outils. Planifiez $0.04-$0.08 par minute en temps réel une fois qu'un message système typique et 1-2 appels d'outils sont inclus. Consultez la documentation de l'API en temps réel d'OpenAI pour les tarifs actuels.

Dois-je utiliser Whisper plus un modèle textuel, ou simplement gpt-5.5-realtime ?

Si vous avez besoin d'une conversation en direct avec gestion d'interruption, utilisez gpt-5.5-realtime — Whisper-plus-texte ajoute une latence de 1 à 3 secondes qui rompt la prise de tours naturelle. Si vous n'avez besoin que d'analyses post-appel, de résumé ou de transcription asynchrone, Whisper-3 à $0.006/min plus gpt-5.4-mini à $0.75/$4.50 est 30 à 50 fois moins cher que de diffuser le même audio via le point de terminaison en temps réel. La limite est de savoir si un humain attend en temps réel.

La mise en cache des prompts fonctionne-t-elle avec l'API en temps réel ?

Partiellement. La portion textuelle d'une session en temps réel — message système, schémas d'outils, tours précédents sous forme textuelle — est éligible à la remise de 90% d'entrée mise en cache de la même façon qu'une complétion de chat. Les tokens audio eux-mêmes ne sont pas mis en cache. Gardez les instructions textuelles stables à l'avant du message système en temps réel et la remise de mise en cache s'appliquera à cette portion dans toute la session WebSocket, bien qu'elle n'ait aucun effet sur la facture de tokens audio.

Obtenez l'aide-mémoire de tarification LLM 2026

Un PDF d'une page avec chaque modèle de cet article, les mathématiques de réduction et les formules — gratuit, sans portail d'inscription. Ou explorez nos 40+ outils d'ingénierie de prompts pour rédiger des prompts moins chers et plus serrés.

Browse all prompt tools →