Les agents vocaux facturent selon une carte tarifaire complètement différente du chat textuel, et l'écart est assez large pour que les ingénieurs habitués à l'économie des tokens texte sous-budgétisent régulièrement les déploiements en temps réel de 4 à 6 fois. En juin 2026, gpt-5.5-realtime — le point de terminaison conversationnel qui diffuse l'audio en entrée et en sortie sur un WebSocket persistant — facture l'audio d'entrée à $40.00 par 1M tokens et l'audio de sortie à $80.00 par 1M tokens. C'est 8 fois le taux d'entrée textuel ($5.00) et environ 2,7 fois le taux de sortie textuel ($30.00) sur le même modèle sous-jacent. Les sessions multi-modales sont facturées par flux : un tour où l'utilisateur parle et le modèle répond avec audio plus une charge textuelle d'appel d'outil génère des tokens d'entrée audio, des tokens de sortie audio et une petite charge de sortie textuelle sur la même ligne de facture.
Les tokens audio ne sont pas des caractères ou des secondes — c'est une représentation discrète en chunks de la forme d'onde. La règle actuelle est à peu près 1 token audio par 0,1 seconde de parole au taux d'échantillonnage standard de 24 kHz, ce qui résout environ 600 tokens audio par minute de parole dans chaque direction. Pour un contrôle de la facture d'entrée, prenez les minutes de la parole de la personne, multipliez par 600, divisez par 1 000 000 et multipliez par $40. Un appel de service client de 10 minutes où l'utilisateur parle pendant 4 minutes et l'agent pendant 6 minutes génère environ 2 400 tokens d'entrée audio et 3 600 tokens de sortie audio. C'est (2 400/1 000 000 × $40) + (3 600/1 000 000 × $80) = $0.096 + $0.288 = $0.384 par appel avant tout supplément d'utilisation d'outils ou texte.
Exemple facturé — un appel d'agent vocal de 5 minutes. Supposez un partage réaliste : l'utilisateur parle pendant 2 minutes (1 200 tokens d'entrée audio), l'agent parle pendant 3 minutes (1 800 tokens de sortie audio) et l'agent exécute également deux appels d'outils retournant environ 400 tokens de sortie textuelle d'arguments structurés et environ 600 tokens d'entrée textuelle de résultats d'outils renvoyés au contexte. Entrée audio : 1 200/1M × $40 = $0.048. Sortie audio : 1 800/1M × $80 = $0.144. Sortie textuelle (appels d'outils + fragments textuels finaux) : 400/1M × $30 = $0.012. Entrée textuelle (résultats d'outils + message système d'environ 1 500 tokens) : 2 100/1M × $5 = $0.0105. Total : environ $0.215 par appel de 5 minutes, ou environ $2.58 par heure de voix en direct. Exécutez 1 000 appels par jour et la facture en temps réel seule est d'environ $6 450/mois — avant transcription, avant enregistrement, avant toute solution de secours LLM.
La transcription Whisper-3, utilisée pour la parole-en-texte asynchrone où vous n'avez pas besoin d'une réponse de modèle diffusée, reste le point d'entrée audio le moins cher à $0.006 par minute d'audio (facturée en incréments d'une seconde, minimum une seconde). Un arriéré de transcription de 10 000 minutes — disons un mois d'appels de support enregistrés — coûte exactement $60. Le nouveau point de terminaison whisper-3-large, qui ajoute la diarisation et les timestamps au niveau des mots, facture $0.011 par minute. Pour les applications qui n'ont besoin que d'analyses post-appel plutôt que de conversation en direct, transcrire avec Whisper-3 puis exécuter la transcription via gpt-5.4-mini est environ 30 à 50 fois moins cher que d'acheminer le même audio via gpt-5.5-realtime.
La synthèse vocale se situe sur sa propre carte tarifaire et est tarifée par caractère plutôt que par token. La voix standard tts-1-2026 s'exécute à $15.00 par 1M caractères ; la voix de plus haute fidélité tts-1-hd-2026 s'exécute à $30.00 par 1M caractères. Une réponse de 200 mots compte en moyenne environ 1 100 caractères, donc un seul rendu TTS coûte $0.0165 en standard et $0.033 en HD. Le compromis par rapport à la sortie audio en temps réel est la latence et l'interruptibilité : TTS n'est pas convivial pour le streaming pour la conversation aller-retour mais environ 5 fois moins cher que la sortie audio gpt-5.5-realtime pour IVR, lectures de notifications et narration pré-rendue. Un motif de production courant est d'utiliser gpt-5.4-mini ($0.75/$4.50 tarifs texte) pour rédiger la réponse, puis l'acheminer vers tts-1-2026 — le coût total sur cette réponse de 200 mots est à peu près $0.018 texte entrée/sortie plus $0.0165 TTS, par rapport à environ $0.10+ si le même contenu était généré comme audio diffusé via le point de terminaison en temps réel.
La mise en cache des prompts s'applique aux sessions en temps réel mais uniquement à la portion textuelle du prompt — le message système, les schémas d'outils et tout l'historique de conversation sous forme textuelle. Les tokens audio eux-mêmes ne sont pas mis en cache ; chaque chunk de parole est assez unique pour que le cache ne puisse pas le faire correspondre. L'implication pratique : structurez votre message système en temps réel de la même façon que vous le feriez pour le chat — longues instructions stables et définitions d'outils à l'avant, contexte dynamique par appel à l'arrière — et la remise de 90% d'entrée mise en cache s'appliquera à cette portion textuelle dans toute la session WebSocket. Pour un agent vocal avec un message système de 3 000 tokens exécutant 1 000 appels par jour, la mise en cache du préfixe du système réduit le coût d'entrée textuelle de $15.00/jour à environ $1.65/jour. C'est une petite part de la facture en temps réel mais s'empile proprement avec tout le reste. Confirmez les tarifs audio en temps réel actuels par rapport à la documentation de l'API en temps réel d'OpenAI avant de verrouiller la tarification dans un contrat client — les tarifs vocaux ont changé deux fois au cours des 12 derniers mois.