Fiche modèle · Vérifiée contre la doc OpenAI · 2026-06-20

GPT-5 : Fiche complète (juin 2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

GPT-5 est le modèle généraliste phare d'OpenAI, lancé en août 2025. Il a remplacé GPT-4o et la ligne preview GPT-4.5, consolidant le raisonnement, l'entrée multimodale et l'utilisation d'outils en un seul endpoint. Depuis juin 2026, c'est le modèle par défaut de ChatGPT Plus, Pro, Team et Enterprise, et le choix recommandé sur l'API pour toute tâche où GPT-4o ne suffisait plus.

Les chiffres clés : $1.25 par million de tokens en entrée, $10 par million en sortie, $0.125 par million pour l'entrée en cache (90 % de réduction sur le préfixe mis en cache). La fenêtre contexte est de 400 000 tokens — entrée + sortie combinées — avec un plafond dur de 128 000 tokens de sortie par réponse. Le cutoff des connaissances est le 30 septembre 2024. Les modalités sont l'entrée texte et image ; sortie texte uniquement. L'appel de fonctions, les appels d'outils parallèles, les structured outputs (JSON Schema), l'API Responses, le prompt caching et l'API Batch (50 % de réduction) sont tous supportés.

Ci-dessous : la table de spécifications complète, la requête cURL + Python minimale, quand utiliser GPT-5 vs gpt-5-mini ou gpt-5-nano, une comparaison côte à côte avec Claude Opus 4.7 et Gemini 2.5 Pro, et les FAQ couvrant chaque nuance. Pages liées : Fiche GPT-5 mini · Fiche Claude Opus 4.7 · Fiche Gemini 2.5 Pro. Créez un prompt optimisé GPT-5 gratuitement avec notre générateur de prompts ChatGPT.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

GPT-5 — Fiche complète (juin 2026)

Feature	Spécifications GPT-5
Fournisseur	OpenAI
ID du modèle (API)	gpt-5
Lancé	Août 2025
Tarif entrée (par 1M)	$1.25
Tarif entrée en cache (par 1M)	$0.125 (90 % de réduction)
Tarif sortie (par 1M)	$10.00
Réduction API Batch	50 % entrée + sortie
Fenêtre contexte (entrée + sortie)	400 000 tokens
Tokens max en sortie	128 000 tokens
Modalités (entrée)	Texte, image
Modalités (sortie)	Texte
Appel de fonctions
Appels d'outils parallèles
Structured outputs (JSON Schema)
Streaming
Prompt caching (automatique)
Vision (compréhension d'images)
Contrôle du niveau de raisonnement	minimal / low / medium / high
Cutoff des connaissances	30 septembre 2024
Endpoint	/v1/responses, /v1/chat/completions

Sources vérifiées le 2026-06-20 : page modèle OpenAI (https://platform.openai.com/docs/models/gpt-5), page tarification OpenAI (https://openai.com/api/pricing), référence API Responses OpenAI (https://platform.openai.com/docs/api-reference/responses). Les tarifs et limites changent sans préavis — revérifiez les pages en direct avant de budgétiser.

Ce qu'est réellement GPT-5 (et ce qui a changé depuis GPT-4o)

GPT-5 est le premier modèle OpenAI à embarquer le raisonnement, l'entrée multimodale et l'utilisation d'outils en tant que surface unifiée et unique, plutôt que trois endpoints distincts. Là où GPT-4o, o1 et o3-mini étaient trois surfaces API distinctes en 2024-2025, GPT-5 les fusionne : un seul ID modèle `gpt-5` avec un paramètre `reasoning_effort` (`minimal`, `low`, `medium`, `high`) qui ajuste le nombre de tokens de raisonnement internes que le modèle consomme avant de répondre.

En pratique, vous ne choisissez plus entre un 'modèle chat' et un 'modèle de raisonnement'. Vous choisissez GPT-5 et ajustez le niveau de raisonnement selon la tâche. Un appel de classification utilise `reasoning_effort: minimal` et se facture comme GPT-4o. Un appel de synthèse de code ou de preuve mathématique utilise `reasoning_effort: high` et consomme plusieurs milliers de tokens de raisonnement — facturés au tarif de sortie même s'ils ne sont pas retournés dans la réponse.

La vision est intégrée : passez une URL d'image ou une image encodée en base64 dans n'importe quel message utilisateur et GPT-5 l'analysera. L'appel de fonctions, les appels d'outils parallèles, les structured outputs (forcer le modèle à retourner du JSON conforme à un JSON Schema) et le prompt caching sont tous activés par défaut. L'API Responses (`/v1/responses`) est l'endpoint recommandé par OpenAI pour le nouveau code ; chat completions fonctionne toujours pour tout ce que GPT-5 fait et reste le chemin le moins contraignant pour migrer depuis les modèles GPT antérieurs.

Mathématiques de tarification : ce que GPT-5 coûte réellement par appel

La formule de tarification est le modèle standard par token : `coût = (tokens_entrée / 1M) × $1.25 + (tokens_sortie / 1M) × $10`. Un appel représentatif de 1 000 tokens en entrée / 500 en sortie : `0.001 × $1.25 + 0.0005 × $10 = $0.00125 + $0.005 = $0.00625`. Environ 0.6¢ par appel.

Appliquez le prompt caching : 80 % d'un prompt système de 2 000 tokens mis en cache à travers les appels réduit 1 600 tokens en entrée de $1.25/M à $0.125/M — économisant $0.0018 par appel. À 100 000 appels/mois, cela réduit la facture de $180 sans perte de qualité.

Appliquez l'API Batch : un upload JSONL de 1 000 requêtes avec livraison jusqu'à 24 heures s'exécute à $0.625/M entrée et $5/M sortie — 50 % de réduction sur les deux flux. La charge de travail 1 000 entrée / 500 sortie baisse à $0.003125 par appel.

Les tokens de raisonnement sont la ligne cachée. Avec `reasoning_effort: high`, GPT-5 peut consommer 4 000-10 000 tokens de raisonnement avant de produire une réponse visible de 500 tokens. Ces tokens de raisonnement se facturent au tarif de sortie ($10/M) mais ne sont pas retournés. Un appel avec raisonnement élevé produisant une réponse de 500 tokens avec 5 000 tokens de raisonnement facture 5 500 tokens de sortie = $0.055 — 8.8× un appel sans raisonnement. Budgétisez en conséquence. Pour une analyse complète des coûts dans la famille GPT-5, consultez notre calculatrice de coûts API OpenAI.

Fenêtre contexte : 400K total, plafond sortie 128K

La fenêtre contexte de 400 000 tokens de GPT-5 combine l'entrée + la sortie — ce n'est pas 400K chacune. Le plafond dur en sortie est de 128 000 tokens par réponse, donc une réponse de longueur maximale laisse 272 000 tokens pour l'entrée. En pratique, la plupart des charges de travail en production s'exécutent avec une entrée de 5K-50K et une sortie bien en dessous de 4K via `max_output_tokens`, ce qui est la configuration qui atteint le meilleur compromis prix-performance.

400K est suffisant pour contenir environ un document de 300 000 mots (≈600 pages de texte simple interligne) ou un chunk de codebase complet de 1 500 lignes avec métadonnées. C'est moins que la fenêtre 1M de Gemini 2.5 Pro mais plus que les 200K de Claude Opus 4.7. Pour les flux de travail augmentés par récupération, la fenêtre de GPT-5 est confortable. Pour la synthèse de longs documents où l'entrée entière doit tenir en un seul appel, Gemini 2.5 Pro est le seul modèle frontier avec une fenêtre plus grande.

Limitez toujours la longueur de sortie. Le `max_output_tokens` par défaut est le maximum du modèle (128K), et un modèle qui décide de parler peut s'emballer en coûts. Définir `max_output_tokens: 2000` pour une demande Q&A normale, `max_output_tokens: 8000` pour la génération de code, et ne relever ce plafond que quand la tâche le justifie vraiment (rapport long, révision codebase complète) est la discipline qui sépare les factures prévisibles des factures surprises.

Modalités : texte en, texte + image en, texte sortie

GPT-5 accepte le texte et les images comme entrée. Il n'y a pas d'entrée ou de sortie audio sur l'endpoint standard `gpt-5` (l'API Realtime d'OpenAI utilise un modèle séparé pour la conversion parole-parole). L'entrée d'image est envoyée soit en tant qu'URL qu'OpenAI peut récupérer, soit en tant qu'URL de données encodée en base64 dans le tableau `content` d'un message. Chaque image se facture selon un coût de token fixe selon le niveau de détail de résolution (`low` est ~85 tokens, `high` est jusqu'à ~1 100 tokens par image pour la taille de tuile standard).

La sortie est texte uniquement — pas de génération d'image native. Pour générer des images, appelez `gpt-image-1` (successeur de DALL-E 3) ou envoyez un appel d'outil depuis GPT-5 à votre pipeline de génération d'images. Pour l'audio, intégrez l'API Realtime séparément ou utilisez Whisper pour la transcription avant de passer le texte à GPT-5.

La qualité de vision sur GPT-5 est nettement meilleure que GPT-4o sur les graphiques, diagrammes, texte manuscrit et raisonnement multi-images. Elle peine toujours avec le très petit texte (plaques d'immatriculation, captures d'écran denses à basse résolution), et comme avec chaque modèle de vision, l'OCR est mieux géré par un outil OCR dédié quand le volume le justifie.

Appel de fonctions, outils et structured outputs

GPT-5 supporte la surface API complète d'appel de fonction : définissez les outils en tant que JSON Schema, GPT-5 en choisit un (ou plusieurs, en parallèle) et retourne les arguments à appeler. Les appels d'outils parallèles permettent à GPT-5 d'invoquer plusieurs outils en une seule réponse quand cela accélère la tâche — par exemple, récupérer deux endpoints API simultanément. C'est activé par défaut ; passez `parallel_tool_calls: false` pour désactiver.

Les structured outputs (introduits en 2024 pour GPT-4o, affinés dans GPT-5) vous permettent de passer un paramètre `response_format: { type: 'json_schema', json_schema: {...} }` et OpenAI garantit que la sortie du modèle valide le schéma. Plus de parsing JSON libre et réessais sur erreurs de validation. Supporte les objets imbriqués, tableaux, enums, oneOf — le sous-ensemble JSON Schema qui s'est développé en 2025.

La nouvelle API Responses (`/v1/responses`) est l'endpoint recommandé par OpenAI pour les nouvelles intégrations depuis mi-2025. Elle supporte les conversations avec état (stockage côté serveur des messages), les outils intégrés (recherche de fichiers, recherche web, interpréteur de code, utilisation informatique) et un protocole de streaming plus propre. Chat completions (`/v1/chat/completions`) fonctionne toujours pour tout ce que GPT-5 fait et reste le chemin le moins contraignant pour la migration depuis les modèles GPT antérieurs.

Niveau de raisonnement : le paramètre le plus important de GPT-5

GPT-5 expose un paramètre `reasoning_effort` avec quatre niveaux : `minimal`, `low`, `medium` (défaut) et `high`. C'est le curseur qui transforme GPT-5 d'un modèle chat rapide en modèle de raisonnement lent sur une base par appel — aucun ID modèle séparé nécessaire.

`minimal` : tokens de raisonnement proches de zéro, réponse la plus rapide, facturée essentiellement comme entrée + sortie visible. À utiliser pour la classification, l'extraction, Q&A simple, conversions de format — tout ce où la réponse est mécanique.

`low` : quelques centaines de tokens de raisonnement. Le sweet spot pour le chat généraliste, la génération de contenu et les tâches de code routinières. Ajoute <$0.005 par appel vs minimal sur la plupart des charges de travail.

`medium` (défaut) : typiquement 1 000-3 000 tokens de raisonnement. À utiliser pour l'analyse, la planification multi-étapes, la synthèse de code où l'exactitude compte.

`high` : 4 000-10 000+ tokens de raisonnement. À utiliser pour les preuves mathématiques, la synthèse de code complexe avec exigences strictes d'exactitude, l'analyse juridique/financière. Facture 5-10× un appel sans raisonnement. La plupart des équipes sur-utilisent `high` et sous-utilisent `low` ; profilez votre trafic et ajustez la taille du niveau d'effort pour chaque prompt.

Quand choisir GPT-5 vs gpt-5-mini vs gpt-5-nano

**Choisissez GPT-5** quand la qualité de sortie est le goulot — synthèse de code, raisonnement complexe, planification multi-étapes, tâches de vision avec exigences de haute précision, tout ce qui est livré aux humains où 'assez bon' n'était pas assez bon sur gpt-4o. La prime de prix 8× sur gpt-5-mini est justifiée quand le coût-d'erreur en aval domine le coût par appel.

**Choisissez gpt-5-mini** ($0.25 / $2 par 1M) quand vous avez besoin du suivi d'instructions et des structured outputs de GPT-5 mais la tâche sous-jacente est mécanique : classification, extraction, synthèse, transformation de données structurées, chat simple. La plupart des charges de travail en production avec >100K appels/mois vivent sur gpt-5-mini.

**Choisissez gpt-5-nano** ($0.05 / $0.40 par 1M, où disponible) pour les cas d'usage intégrés — routage d'intention, modération de contenu, suggestions de style autocomplete, classification de télémétrie interne. Évitez pour tout ce nécessitant un raisonnement multi-étapes.

Entre fournisseurs : choisissez **Claude Opus 4.7** pour l'écriture de long-forme où la voix Anthropic et le calibrage des refus comptent plus que le QI brut ; choisissez **Gemini 2.5 Pro** quand vous avez besoin d'une fenêtre contexte 1M en un seul appel ou de la compréhension vidéo native. Voir GPT-5 vs Claude Opus 4.7 pour la comparaison côte à côte.

Sources vérifiées et comment revérifier les chiffres

Chaque chiffre de cette page a été vérifié contre la documentation en direct d'OpenAI le 2026-06-20. Les sources officielles : platform.openai.com/docs/models/gpt-5 pour la fenêtre contexte, les modalités et le support des paramètres ; openai.com/api/pricing pour les tarifs entrée/sortie/cache ; platform.openai.com/docs/api-reference/responses pour le contrat de l'API Responses.

OpenAI ne versionne pas ses pages de tarification ou de modèle avec des entrées de changelog explicites. Les tarifs ont changé 3-5 fois par an en moyenne depuis le lancement de GPT-4 en 2023, presque toujours à la baisse à mesure qu'un modèle mûrit. Revérifiez trimestriellement si votre facture mensuelle dépasse $1 000 — un seul changement de tarif décale matériellement le budget à l'échelle.

Méthodologie : quand un chiffre ne pouvait pas être cross-confirmé contre la page officielle OpenAI à la date de vérification, il a été omis de cette fiche plutôt que deviné. Si vous trouvez une discordance contre la page OpenAI en direct, traitez la page en direct comme officielle.

Faites votre premier appel API GPT-5 en 5 étapes

1
Obtenez une clé API OpenAI
Connectez-vous sur platform.openai.com → dashboard → API keys → Create new secret key. Copiez-la dans un fichier `.env` en tant que `OPENAI_API_KEY=...`. Ne committez jamais les clés dans git.
2
Installez le SDK
Python : `pip install openai`. Node : `npm install openai`. Le SDK supporte GPT-5, l'API Responses, les structured outputs, l'entrée de vision et le prompt caching sans version-pinning au-delà de la dernière version stable.
3
Envoyez un appel minimal
Python : `from openai import OpenAI; client = OpenAI(); r = client.responses.create(model='gpt-5', input='Explain caching prefixes in one sentence.'); print(r.output_text)`. C'est l'aller-retour complet — ID modèle, entrée, réponse.
4
Ajoutez le niveau de raisonnement + le plafond max de sortie
Pour un coût prévisible : `client.responses.create(model='gpt-5', input=prompt, reasoning={'effort': 'low'}, max_output_tokens=2000)`. Le niveau de raisonnement `low` est le bon défaut pour la plupart des charges de travail de style chat ; limitez la sortie pour garder la facture bornée.
→ Open the Générateur de prompts ChatGPT
5
Ajoutez les structured outputs pour la production
Forcez une réponse typée : passez `text={'format': {'type': 'json_schema', 'json_schema': {...}}}` dans l'API Responses ou `response_format` dans chat completions. Le modèle est garanti de retourner du JSON qui valide — pas de boucles de parsing et réessai.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Générateur de prompts ChatGPT (optimisé GPT-5)→Code prompt builder (anchored cache)→Fiche GPT-5 mini→Fiche Claude Opus 4.7→Calculatrice de coûts API OpenAI→

Frequently Asked Questions

Combien coûte GPT-5 en 2026 ?

$1.25 par million de tokens en entrée, $10 par million en sortie, $0.125 par million pour l'entrée en cache (90 % de réduction). L'API Batch retire un autre 50 % sur les deux flux pour les tâches asynchrones avec livraison jusqu'à 24 heures. Un appel représentatif de 1 000 entrée / 500 sortie coûte ~$0.00625. Source : openai.com/api/pricing, vérifiée le 2026-06-20.

Quelle est la fenêtre contexte de GPT-5 ?

400 000 tokens — entrée + sortie combinées. La sortie maximale par réponse est limitée à 128 000 tokens, donc une réponse de longueur maximale laisse 272 000 tokens pour l'entrée. Plus grande que Claude Opus 4.7 (200K), plus petite que Gemini 2.5 Pro (1M).

Quel est le cutoff des connaissances de GPT-5 ?

30 septembre 2024 selon la fiche modèle d'OpenAI. Pour tout après cette date — événements, sorties, changements API — GPT-5 n'a pas de connaissance sauf si vous le fournissez via le contexte ou un appel d'outil de recherche web.

Quelle est la différence entre GPT-5 et GPT-5 mini ?

Même fenêtre contexte (400K), mêmes modalités (entrée texte + image), même ensemble de fonctionnalités (appel de fonctions, structured outputs, prompt caching). La différence est la qualité et le prix : GPT-5 est $1.25/$10 par 1M, mini est $0.25/$2 — environ 5× moins cher. GPT-5 a un meilleur raisonnement, synthèse de code et planification multi-étapes ; mini est le bon choix pour les tâches mécanique à haut volume. Voir notre fiche GPT-5 mini pour la comparaison côte à côte.

GPT-5 supporte-t-il la vision ?

Oui. Passez les images en tant qu'URLs ou URL de données encodées en base64 dans le tableau content d'un message utilisateur. La vision de GPT-5 est nettement meilleure que GPT-4o sur les graphiques, diagrammes, texte manuscrit et raisonnement multi-images. La sortie est texte uniquement — pas de génération d'image native ; utilisez `gpt-image-1` pour cela.

Qu'est-ce que reasoning_effort et comment l'utiliser ?

GPT-5 expose un paramètre `reasoning_effort` avec quatre niveaux : `minimal`, `low`, `medium` (défaut), `high`. Il contrôle combien de tokens de raisonnement internes GPT-5 consomme avant de produire la réponse visible. Les tokens de raisonnement se facturent au tarif de sortie. Utilisez `minimal` pour classification/extraction, `low` pour chat, `medium` pour analyse, `high` uniquement quand l'exactitude domine le coût (preuves, synthèse de code complexe).

GPT-5 est-il disponible dans l'API ou seulement dans ChatGPT ?

Les deux. L'ID modèle `gpt-5` est disponible sur platform.openai.com via l'API Responses (`/v1/responses`, recommandée pour le nouveau code) et chat completions (`/v1/chat/completions`, compatible en arrière). C'est aussi le modèle par défaut pour ChatGPT Plus, Pro, Team et Enterprise. La facturation API et la facturation d'abonnement ChatGPT sont séparées — un abonnement ChatGPT Plus n'inclut pas de crédit API.

Puis-je fine-tuner GPT-5 ?

OpenAI n'a pas ouvert le fine-tuning public sur GPT-5 en juin 2026 — le fine-tuning est disponible sur gpt-4.1, gpt-4o et gpt-4o-mini. Pour la plupart des cas d'usage, GPT-5 + structured outputs + un prompt bien conçu comble le fossé de qualité que le fine-tuning adresserait. Consultez platform.openai.com/docs/guides/fine-tuning pour la disponibilité actuelle du modèle.

Arrêtez de payer trop pour GPT-5. Écrivez des prompts optimisés.

Notre générateur de prompts IA écrit des prompts optimisés GPT-5 (split système+développeur+utilisateur, ready structured-output, cache-anchored) selon VOTRE métier + tâche. Essai gratuit 14 jours DDH Pro, sans carte.

Browse all prompt tools →