Voice-Agents werden auf einer völlig anderen Preiskarte als Text-Chat berechnet, und die Lücke ist groß genug, dass Ingenieure, die mit Text-Token-Ökonomie vertraut sind, Realtime-Deployments routinemäßig um 4-6x unterbudgetieren. Ab Juni 2026 berechnet gpt-5.5-realtime – der Konversationsendpunkt, der Audio Ein und Audio Aus über einen persistenten WebSocket streamt – Audio-Eingabe mit $40,00 pro 1M Token und Audio-Ausgabe mit $80,00 pro 1M Token. Das ist 8x die Text-Eingaberate ($5,00) und ~2,7x die Text-Ausgaberate ($30,00) auf dem gleichen zugrunde liegenden Modell. Gemischte Modalitäts-Sessions werden pro Datenstrom berechnet: ein Turn, bei dem der Benutzer spricht und das Modell mit Audio plus einem Text-Payload des Tool-Aufrufs antwortet, erzeugt Audio-Eingabe-Token, Audio-Ausgabe-Token und eine kleine Text-Ausgabegebühr in der gleichen Rechnungszeile.
Audio-Token sind keine Zeichen oder Sekunden – sie sind eine diskrete fragmentierte Darstellung der Wellenform. Die aktuelle Faustregel ist ungefähr 1 Audio-Token pro 0,1 Sekunden Sprache bei der Standard-24kHz-Abtastrate, was sich auf ungefähr 600 Audio-Token pro Minute Sprache in jede Richtung ausläuft. Zum Sanity Check bei Eingaberechnungen, nehmen Sie die Sprecher-Wanduhrzeiten, multiplizieren Sie mit 600, dividieren Sie durch 1.000.000 und multiplizieren Sie mit $40. Ein 10-minütiger Kundenservice-Anruf, bei dem der Benutzer 4 Minuten spricht und der Agent 6 Minuten spricht, erzeugt ungefähr 2.400 Eingabe-Audio-Token und ungefähr 3.600 Ausgabe-Audio-Token. Das ist (2.400/1.000.000 × $40) + (3.600/1.000.000 × $80) = $0,096 + $0,288 = $0,384 pro Aufruf vor Tool-Use oder Text-Overhead.
Praktisches Beispiel – ein 5-minütiger Voice-Agent-Aufruf. Nehmen Sie eine realistische Aufteilung an: der Benutzer spricht 2 Minuten (1.200 Eingabe-Audio-Token), der Agent spricht 3 Minuten (1.800 Ausgabe-Audio-Token), und der Agent führt auch zwei Tool-Aufrufe durch, die ungefähr 400 Text-Ausgabe-Token strukturierter Argumente und ungefähr 600 Text-Eingabe-Token von Tool-Ergebnissen, die in den Kontext zurückgegeben werden, zurückgeben. Audio-Eingabe: 1.200/1M × $40 = $0,048. Audio-Ausgabe: 1.800/1M × $80 = $0,144. Text-Ausgabe (Tool-Aufrufe + abschließende Text-Fragmente): 400/1M × $30 = $0,012. Text-Eingabe (Tool-Ergebnisse + System-Prompt von ungefähr 1.500 Token): 2.100/1M × $5 = $0,0105. Gesamt: ungefähr $0,215 pro 5-Minuten-Aufruf, oder ungefähr $2,58 pro Stunde Live-Voice. Führen Sie 1.000 Anrufe pro Tag aus und die Realtime-Rechnung allein beträgt ungefähr $6.450/Monat – vor Transkription, vor Protokollierung, vor LLM-Fallback.
Whisper-3 Transkription, verwendet für asynchrone Sprache-zu-Text, bei der Sie keine gestreante Modellantwort benötigen, bleibt der billigste Audio-Einstiegspunkt bei $0,006 pro Minute Audio (berechnet in 1-Sekunden-Inkrementen, Minimum 1 Sekunde). Ein 10.000-Minuten-Transkriptions-Backlog – sagen Sie einen Monat aufgezeichneter Support-Anrufe – kostet genau $60. Der neuere whisper-3-large Endpunkt, der Diarization und Wort-Ebenen-Zeitstempel hinzufügt, wird mit $0,011 pro Minute berechnet. Für Anwendungen, die nur Post-Call-Analytik benötigen statt Live-Konversation, Transkribieren mit Whisper-3 und dann die Transkription durch gpt-5.4-mini laufen ist ungefähr 30-50x billiger als die gleiche Audio durch gpt-5.5-realtime zu routen.
Text-to-Speech sitzt auf seiner eigenen Preiskarte und wird pro Zeichen statt pro Token berechnet. Die Standard tts-1-2026 Stimme kostet $15,00 pro 1M Zeichen; die höhere Treue tts-1-hd-2026 Stimme kostet $30,00 pro 1M Zeichen. Eine 200-Wort-Antwort durchschnittlich ungefähr 1.100 Zeichen, daher kostet ein einzelnes TTS-Rendering $0,0165 auf Standard und $0,033 auf HD. Der Tradeoff gegenüber Realtime-Audio-Ausgabe ist Latenz und Interruptibilität: TTS ist nicht streaming-freundlich für Back-and-Forth-Konversation, aber ungefähr 5x billiger als gpt-5.5-realtime Audio-Ausgabe für IVR, Benachrichtigungen und vorab gerenderte Narration. Ein häufiges Produktionsmuster ist die Verwendung von gpt-5.4-mini ($0,75/$4,50 Text-Rates) zum Entwurf der Antwort, dann Route zu tts-1-2026 – Gesamtkosten auf dieser 200-Wort-Antwort ist ungefähr $0,018 Ein-/Ausgabe-Text plus $0,0165 TTS, gegen $0,10+ wenn der gleiche Inhalt als gestreamte Audio durch den Realtime-Endpunkt generiert wurde.
Prompt-Caching gilt für Realtime-Sessions, aber nur für den Text-Teil des Prompts – die Systemmeldung, Tool-Schemas und alle Text-Form-Konversationsgeschichte. Audio-Token selbst werden nicht gecacht; jedes Stück Sprache ist unterschiedlich genug, dass der Cache es nicht abgleichen kann. Die praktische Folge: strukturieren Sie Ihren Realtime-System-Prompt auf die gleiche Weise, wie Sie es für Chat würden – lange stabile Anweisungen und Tool-Definitionen vorne, dynamisch pro-Aufruf Kontext hinten – und der 90%ige Rabatt auf gecachte Eingabe gilt für diesen Text-Teil über die WebSocket-Session. Für einen Voice-Agent mit einem 3.000-Token-System-Prompt mit 1.000 Aufrufen pro Tag, Caching des System-Präfix senkt Text-Eingabekosten von $15,00/Tag auf ungefähr $1,65/Tag. Es ist ein kleiner Schnitt der Realtime-Rechnung, aber stapelt sich sauber mit allem anderen. Bestätigen Sie aktuelle Realtime-Audio-Raten gegen OpenAIs Realtime API Dokumentation vor dem Festlegen von Preisen in einen Kundenvertrag – Voice-Raten haben sich in den letzten 12 Monaten zweimal bewegt.