Fiche modèle · Vérifié contre docs Anthropic · 2026-06-20

Claude Sonnet 4.6 : Fiche technique complète (juin 2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Claude Sonnet 4.6 est le modèle tier production d'Anthropic et le cheval de bataille production de la famille Claude 4. Lancé en septembre 2025 en tant que successeur à Sonnet 4 et Sonnet 3.7, il se positionne entre Opus (flagship, $15/$75 par 1M) et Haiku (tier économique, ~$1/$5). Sonnet est le modèle le plus déployé d'Anthropic depuis Claude 3 en 2024 car il capture la majorité de la discipline d'Opus à environ 20% du coût d'Opus.

Chiffres clés : $3 par 1M input tokens, $15 par 1M output, $0.30 par 1M pour les lectures d'input cache (90% de réduction), $3.75 par 1M pour les écritures cache (TTL 5 min). La fenêtre de contexte est 200 000 tokens standard, avec une bêta de 1 000 000 tokens (1M) disponible via l'en-tête `context-1m-2025-08-07`. Le max output est 64 000 tokens. Les modalités sont entrée texte + vision ; sortie texte uniquement. Utilisation d'outils, appels d'outils parallèles, cache de prompt, extended thinking, et l'API Batch (50% de réduction) sont tous supportés.

Ci-dessous : tableau de specs complet, quand Sonnet est le bon choix vs Opus ou GPT-5 mini, comparaison side-by-side contre le reste du menu mid-tier, requête API minimale, et 8 FAQ. Pages apparentées : fiche Claude Opus 4.7 · fiche GPT-5 mini · fiche Gemini 2.5 Flash. Écrivez une requête optimisée pour Sonnet gratuitement avec notre générateur de prompts ChatGPT (mode Claude).

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Claude Sonnet 4.6 — Fiche technique complète (juin 2026)

Feature	Specs Sonnet 4.6
Fournisseur	Anthropic
ID modèle (API)	claude-sonnet-4-6
Lancé	Septembre 2025
Prix entrée (par 1M)	$3.00
Lecture cache entrée (par 1M)	$0.30 (90% de réduction)
Écriture cache (par 1M, TTL 5 min)	$3.75 (surcoût 25%)
Écriture cache (par 1M, TTL 1 heure)	$6.00 (surcoût 2×)
Prix sortie (par 1M)	$15.00
Remise API Batch	50% sur entrée + sortie
Fenêtre contexte (standard)	200 000 tokens
Fenêtre contexte (bêta 1M)	1 000 000 tokens
Prix entrée bêta 1M (>200K entrée)	$6.00 (tier 2×)
Prix sortie bêta 1M (>200K entrée)	$22.50 (tier 1.5×)
Max tokens sortie	64 000 tokens
Modalités (entrée)	Texte, image
Modalités (sortie)	Texte
Utilisation d'outils
Utilisation parallèle d'outils
Sorties structurées (via schémas outils)
Streaming
Cache de prompt
Extended thinking (raisonnement)
Vision (compréhension d'image)
Cutoff de connaissance	Mars 2025
Endpoint	/v1/messages

Sources vérifiées 2026-06-20 : documentation modèles Anthropic (https://docs.anthropic.com/en/docs/about-claude/models), page tarification Anthropic (https://www.anthropic.com/pricing), docs cache de prompt Anthropic (https://docs.anthropic.com/en/docs/build-with-claude/prompt-caching). La bêta contexte 1M requiert l'en-tête `anthropic-beta: context-1m-2025-08-07` et facture au tier 2× entrée / 1.5× sortie pour entrée >200K tokens. Re-vérifiez les pages en direct avant de budgétiser.

Ce que Sonnet 4.6 est vraiment (et pourquoi c'est le défaut)

Sonnet 4.6 est le modèle tier production d'Anthropic : pas aussi cher qu'Opus, pas aussi petit que Haiku, avec la surface de features complète Claude 4. Anthropic positionne Sonnet comme le bon choix pour « la plupart des workloads production » et les données le confirment — à travers les déploiements clients, Sonnet gère la majorité du trafic avec Opus réservé au sous-ensemble difficile et Haiku réservé au sous-ensemble économique.

Même architecture qu'Opus 4.7 (même base Claude 4), entraîné sur les mêmes données avec la même discipline RLHF, avec une taille de modèle plus petite qui sacrifie quelques points de pourcentage de qualité sur le raisonnement difficile pour une réduction de coût 5×. La surface de features est identique : utilisation d'outils, appels d'outils parallèles, extended thinking, cache de prompt, entrée vision, sorties structurées via schémas outils, l'API Batch.

La feature phare de Sonnet vs tous les autres modèles mid-tier : la fenêtre de contexte optionnelle 1M tokens. Opt-in via l'en-tête `anthropic-beta: context-1m-2025-08-07`. Anthropic double le prix d'entrée et ajoute 50% à la sortie pour la portion d'une requête dépassant 200K tokens — mais l'option long-contexte permet à Sonnet de rivaliser avec Gemini 2.5 Pro sur les workloads d'échelle document. Aucun autre tier Claude n'expose 1M.

Mathématiques de tarification : ce que Sonnet 4.6 coûte vraiment par appel

Tarifs standard : `coût = (input_tokens / 1M) × $3 + (output_tokens / 1M) × $15`. L'appel représentatif 1 000 entrée / 500 sortie : `0.001 × $3 + 0.0005 × $15 = $0.003 + $0.0075 = $0.0105`. Environ 1¢ par appel — 5× moins cher qu'Opus sur les mêmes tokens, mais 8× plus cher que gpt-5-mini.

Le cache de prompt est le plus grand levier de coût. Marquez les blocs stables avec `cache_control: {type: 'ephemeral'}` et Anthropic cache ce préfixe pendant 5 minutes (ou 1 heure avec `ttl: '1h'`). Les lectures en cache baissent de $3/M à $0.30/M — 90% de réduction. Surcoûts première écriture : 25% sur TTL 5 min, 100% sur TTL 1 heure.

Exemple : un pipeline support client avec 3 000 tokens de prompt système en cache, 100K appels/mois, 600 entrée dynamique + 200 sortie. Sans cache : `(0.0036 × $3 + 0.0002 × $15) × 100K = $4 080/mois`. Avec cache (taux hit 90%) : le préfixe système facture à $0.30/M la plupart du temps, le total baisse à ~$1 250/mois. ~70% de réduction — entièrement de la structure de prompt, aucun changement de modèle.

API Batch par-dessus : 50% de réduction sur les deux flux pour les workloads asynchrones. La pile cache + batching transforme Sonnet en option compétitive en prix même contre gpt-5-mini pour la bonne forme de workload. Calculez les coûts à travers la famille Claude : calculateur coût API Claude.

La bêta contexte 1M — quand ça vaut le surcoût entrée 2×

Opt-in au contexte 1M en ajoutant `anthropic-beta: context-1m-2025-08-07` aux en-têtes de votre requête API. Sonnet accepte alors jusqu'à 1 000 000 input tokens dans un seul appel. La tarification change quand l'entrée dépasse 200K : le tier prix d'entrée passe à $6/M (2×), la sortie à $22.50/M (1.5×).

Ça vaut le surcoût quand : vous avez besoin de caser un document long complet (un livre entier, un chunk codebase complet, un historique de conversation de plusieurs mois) dans un seul appel pour du raisonnement cross-section. Le contexte 1M permet à Sonnet de faire des choses qu'aucun modèle 200K ne peut — répondre à des questions qui nécessitent de tirer de la page 2 et de la page 600 du même document.

Ça ne vaut pas le surcoût quand : la génération augmentée par récupération (RAG) sur documents fragmentés suffit. RAG sur Sonnet à standard 200K est dramatiquement moins cher que Sonnet contexte 1M, et sur la plupart des workloads knowledge-Q&A, RAG bien tuné atteint la même qualité de réponse.

Comparaison : Gemini 2.5 Pro offre aussi contexte 1M à une structure tarifaire différente ($2.50 entrée >200K vs $6 de Sonnet). Pour le coût raw contexte 1M, Gemini 2.5 Pro est moins cher. Pour la voix Anthropic + discipline à 1M, la bêta Sonnet 4.6 1M est la seule option.

Extended thinking sur Sonnet 4.6

Sonnet 4.6 supporte la même feature extended thinking qu'Opus 4.7. Configurez via `thinking: {type: 'enabled', budget_tokens: 3000}` dans l'appel API. Sonnet brûlera jusqu'à 3 000 tokens de raisonnement interne avant de produire la réponse visible.

La dynamique de coût est différente sur Sonnet que sur Opus car le taux de sortie de Sonnet est 5× moins cher. Un budget thinking de 3 000 tokens sur Sonnet ajoute `0.003 × $15 = $0.045` à l'appel. Le même budget sur Opus ajoute `0.003 × $75 = $0.225`. Extended thinking est plus défendable économiquement sur Sonnet — vous pouvez vous permettre de l'appliquer à une classe plus large de tâches.

Budgets thinking Sonnet typiques : 1 000-2 000 tokens pour les tâches d'analyse de routine, 3 000-5 000 pour la synthèse code avec logique non triviale, 5 000+ pour les tâches mathématiques/preuve. Comme sur Opus, n'ajoutez pas de thinking à la classification ou extraction — c'est un coût additionnel sans amélioration de qualité.

Quand choisir Sonnet 4.6 vs Opus 4.7 vs gpt-5-mini

**Choisissez Sonnet 4.6** comme défaut production dans tout workflow qui bénéficie de la voix Anthropic, de la discipline, ou de la tooling : chat face-client, génération de contenu, pipelines données structurées, résumé avec exigences de qualité, revue et explication de code, workflows agentiques qui ne nécessitent pas la planification tier Opus. La plupart des équipes qui standardisent Claude exécutent >80% du trafic sur Sonnet.

**Choisissez Opus 4.7** quand la qualité de Sonnet sur un sous-ensemble difficile spécifique n'est pas suffisante — boucles agentiques complexes, synthèse code multi-fichiers avec correction stricte, analyse légale/financière où une mauvaise réponse est coûteuse, synthèse de recherche profonde. Payez 5× pour le boost Opus uniquement sur les tâches qui en ont besoin.

**Choisissez gpt-5-mini** ($0.25 / $2 par 1M) sur Sonnet quand : le coût est la contrainte dominante, la tâche est mécanique (classification, extraction), vous êtes déjà dans l'écosystème OpenAI, ou vous avez besoin du contexte 400K plus grand sans la complexité bêta 1M. gpt-5-mini est 12× moins cher que Sonnet sur l'entrée. Sonnet le bat sur la voix, l'écriture long-forme, et la discipline suivi-d'instructions.

Comparaison head-to-head cross-tier : Claude Sonnet vs GPT-5 mini.

Utilisation d'outils, sorties structurées, et la convention XML-tag

Sonnet 4.6 embarque l'API tool-use complet d'Anthropic : définissez des outils en JSON Schema dans le paramètre `tools`, Sonnet en choisit un (ou plusieurs, en parallèle) et retourne les arguments dans un bloc de contenu `tool_use`. L'utilisation parallèle d'outils est activée par défaut ; désactiver avec `disable_parallel_tool_use: true`.

Les sorties structurées suivent le même pattern tool-use qu'Opus : définissez un outil dont le schéma d'entrée est votre schéma de sortie désiré, forcez l'appel avec `tool_choice: {type: 'tool', name: 'extract_data'}`. L'application du JSON Schema est fiable ; les sorties invalides sont extrêmement rares sur les schémas bien formés.

Les prompts XML-tag fonctionnent bien : `<task>...</task>`, `<context>...</context>`, `<example>...</example>`, `<output_format>...</output_format>`. Sonnet, comme Opus, est entraîné à assister à ces derniers de manière fiable et la docs patterns-avancés d'Anthropic les utilise de façon cohérente. Les prompts en en-tête markdown ou en paragraphe simple fonctionnent aussi mais tendent à sous-performer vs équivalents XML-tagués sur les instructions multi-section complexes.

Sources vérifiées et comment re-vérifier les nombres

Chaque nombre de cette page a été vérifié contre la documentation en direct d'Anthropic le 2026-06-20. Sources : docs.anthropic.com/en/docs/about-claude/models pour la fenêtre contexte, modalités, et support de features ; anthropic.com/pricing pour prix entrée/sortie/cache et le tier bêta 1M ; docs.anthropic.com/en/docs/build-with-claude/prompt-caching pour la mécanique lecture/écriture cache.

La bêta contexte 1M requiert l'en-tête explicite `anthropic-beta: context-1m-2025-08-07`. Anthropic version les features bêta par ID — quand la bêta passe en disponibilité générale, l'en-tête change. Regardez docs.anthropic.com/en/release-notes pour l'annonce GA.

Méthodologie : quand un nombre n'a pas pu être cross-confirmé contre une page Anthropic officielle à la date de vérification, il a été omis de cette fiche plutôt que deviné.

Passez de gpt-5-mini (ou Opus) à Sonnet 4.6 en 5 étapes

1
Obtenez une clé API Anthropic
console.anthropic.com → Settings → API Keys → Create Key. Ajoutez un petit achat de crédit avant que le premier appel ne devienne en direct. Définissez `ANTHROPIC_API_KEY=...` dans `.env`.
2
Installez le SDK et envoyez un appel minimal
`pip install anthropic` (Python) ou `npm install @anthropic-ai/sdk` (Node). Python : `from anthropic import Anthropic; c = Anthropic(); r = c.messages.create(model='claude-sonnet-4-6', max_tokens=1024, messages=[{'role': 'user', 'content': 'Hello'}]); print(r.content[0].text)`. `max_tokens` est requis.
3
Ajoutez le cache de prompt à votre prompt système
Enveloppez vos instructions stables : `system=[{'type': 'text', 'text': '...', 'cache_control': {'type': 'ephemeral'}}]`. TTL 5 min par défaut. Dans la TTL, les lectures en cache facturent à $0.30/M au lieu de $3/M — 90% de réduction sur la portion en cache.
4
Convertissez votre prompt en XML tags
Restructurez : au lieu de 'You are a helpful assistant. Here is the user's request: ...', utilisez `<role>helpful research assistant</role><task>{user_request}</task><output_format>JSON with fields summary, sources, confidence</output_format>`. Sonnet assiste aux XML tags plus fiablement qu'aux en-têtes markdown.
→ Open the Générateur de prompts ChatGPT (mode Claude)
5
Opt-in au contexte 1M uniquement si vous en avez besoin
La plupart des workloads Sonnet rentrent dans 200K. Si vous avez vraiment besoin de passer un document de 500K tokens dans un seul appel, ajoutez l'en-tête `anthropic-beta: context-1m-2025-08-07`. La tarification pour entrée >200K passe à $6/M (tier 2×). Pour la plupart des équipes, RAG à 200K est dramatiquement moins cher que contexte 1M pour la même qualité de réponse.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Générateur de prompts (mode Claude)→Générateur de prompts code (XML-tagué)→Fiche technique Claude Opus 4.7→Fiche technique GPT-5 mini→Calculateur coût API Claude→

Frequently Asked Questions

Combien coûte Claude Sonnet 4.6 en 2026 ?

$3 par 1M input tokens, $15 par 1M output tokens, $0.30 par 1M pour les lectures input en cache (90% de réduction). Les écritures cache coûtent $3.75/M (TTL 5 min) ou $6/M (TTL 1 heure). L'API Batch enlève 50% sur les deux flux standard. La bêta contexte 1M facture à $6/M entrée (tier 2×) et $22.50/M sortie pour entrée >200K. Un appel représentatif 1 000 entrée / 500 sortie coûte ~$0.0105. Source : anthropic.com/pricing, vérifié 2026-06-20.

Quelle est la fenêtre contexte de Claude Sonnet 4.6 ?

200 000 tokens standard, avec une bêta optionnelle de 1 000 000 tokens (1M) via l'en-tête `anthropic-beta: context-1m-2025-08-07`. La bêta 1M facture entrée >200K au tarif 2× et sortie à 1.5×. Sonnet est le seul tier Claude exposant actuellement 1M — Opus 4.7 ne le fait pas.

Quelle est la différence entre Claude Sonnet 4.6 et Claude Opus 4.7 ?

Même contexte (200K standard), mêmes modalités, même surface de features (utilisation d'outils, cache de prompt, extended thinking). Opus 4.7 est $15/$75 par 1M — 5× plus cher que Sonnet 4.6's $3/$15. Opus gagne sur le raisonnement difficile, la synthèse code complexe, la planification multi-étape. Sonnet gagne sur le prix-performance et est le bon défaut pour >80% du trafic production. Sonnet a aussi la bêta contexte 1M ; Opus ne l'a pas.

Sonnet 4.6 supporte-t-il l'extended thinking ?

Oui. Configurez via `thinking={'type': 'enabled', 'budget_tokens': 3000}`. Sonnet brûle jusqu'à 3 000 tokens de raisonnement interne avant de produire la réponse visible ; les tokens thinking facturent au taux de sortie ($15/M). Plus économique que l'extended thinking Opus ($75/M) — appliquez-le à une classe plus large de tâches d'analyse.

Comment fonctionne le cache de prompt sur Sonnet 4.6 ?

Explicite : marquez les blocs avec `cache_control: {type: 'ephemeral'}` (TTL 5 min par défaut) ou `{type: 'ephemeral', ttl: '1h'}` (TTL 1 heure). La première écriture coûte 25% plus cher (5 min) ou 100% plus cher (1 heure). Les lectures ultérieures dans la TTL facturent à 10% du prix d'entrée. Plus grand levier de coût sur Sonnet — un préfixe système stable en cache coupe typiquement la facture entrée 70-90%.

Devrais-je utiliser Sonnet 4.6 ou gpt-5-mini ?

gpt-5-mini est 12× moins cher sur l'entrée, 7.5× moins cher sur la sortie ($0.25/$2 vs $3/$15). Sonnet 4.6 gagne sur la voix écriture long-forme, la discipline suivi-d'instructions sur les prompts complexes, la mécanique cache de prompt, et le contexte 1M optionnel. Pour les tâches purement économiques mécaniques, gpt-5-mini. Pour les workloads production qualité Claude, Sonnet. Voir Claude Sonnet vs GPT-5 mini.

Où Sonnet 4.6 est-il disponible ?

API Anthropic (console.anthropic.com), Amazon Bedrock, Google Cloud Vertex AI, et via les apps consommateurs Claude (tier Claude.ai Pro et supérieur). La tarification Bedrock et Vertex correspond à Anthropic direct à partir de juin 2026.

Puis-je affiner (fine-tune) Sonnet 4.6 ?

L'affinage sur les modèles Claude est limité. Anthropic offre l'affinage sur Claude Haiku via Amazon Bedrock ; l'affinage Sonnet n'est pas généralement disponible à partir de juin 2026. Pour la plupart des cas d'usage, Sonnet + un prompt bien élaboré XML-tagué + préfixe système en cache ferme l'écart de qualité que l'affinage adresserait.

Sonnet est le point idéal production. Mettez en cache chaque appel.

Notre générateur de prompts IA écrit des prompts optimisés Sonnet (XML-tagués, ancrés-cache, contexte dynamique en dernier) basés sur VOTRE métier + tâche — pour que le prix lecture en cache 90%-off se déclenche vraiment. Essai gratuit 14 jours de DDH Pro, sans carte.

Browse all prompt tools →