Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Fiche modèle · Vérifiée sur docs Google · 2026-06-20

Gemini 2.5 Pro : Fiche complète (juin 2026)

By The DDH Team at Digital Dashboard HubUpdated

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

14 days, no card. Cancel in 2 clicks.

Gemini 2.5 Pro est le modèle généraliste phare de Google DeepMind, lancé en mars 2025 en remplacement de Gemini 2.0 Pro. C'est le seul modèle frontier d'un grand fournisseur doté d'une fenêtre de contexte native de 1 000 000 tokens en disponibilité générale (Sonnet d'Anthropic dispose de 1M en version bêta ; GPT-5 d'OpenAI plafonne à 400K). C'est également le seul modèle frontier avec compréhension vidéo native — passez directement un fichier MP4 au modèle et posez-lui des questions à ce sujet.

Chiffres clés : tarification par paliers selon la taille de l'entrée. Pour les entrées ≤200 000 tokens : 1,25 $ par 1M tokens d'entrée / 10 $ par 1M tokens de sortie. Pour les entrées >200 000 tokens : 2,50 $ par 1M tokens d'entrée / 15 $ par 1M tokens de sortie. L'entrée mise en cache coûte 0,31 $/M (palier ≤200K) ou 0,625 $/M (palier >200K) — réduction de 75 %. La fenêtre de contexte est de 1 000 000 tokens (2M en aperçu privé). La sortie maximale est de 65 536 tokens. Les modalités incluent entrées texte, image, audio, vidéo et PDF ; sortie texte uniquement. Les appels de fonction, les sorties structurées, l'exécution de code et le mode thinking sont tous supportés.

Ci-dessous : tableau de spécifications complet, quand utiliser Gemini 2.5 Pro plutôt que Claude Opus ou GPT-5, quand le contexte 1M justifie la surcharge tarifaire du palier >200K, la requête API minimale, et 8 questions fréquentes. Pages connexes : Fiche Gemini 2.5 Flash · Fiche GPT-5 · Fiche Claude Opus 4.7. Générez un prompt optimisé pour Gemini gratuitement avec notre générateur de prompts ChatGPT.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Gemini 2.5 Pro — Fiche de spécifications complète (juin 2026)

Feature
Spécifications Gemini 2.5 Pro
FournisseurGoogle DeepMind
ID modèle (API)gemini-2.5-pro
LancéMars 2025
Prix entrée ≤200K (par 1M)$1,25
Prix entrée >200K (par 1M)$2,50
Entrée mise en cache ≤200K (par 1M)$0,31 (réduction 75 %)
Entrée mise en cache >200K (par 1M)$0,625 (réduction 75 %)
Prix sortie ≤200K (par 1M)$10,00
Prix sortie >200K (par 1M)$15,00
Réduction API Batch50% réduction entrée + sortie
Fenêtre de contexte1 000 000 tokens
Tokens sortie maximum65 536 tokens
Modalités (entrée)Texte, image, audio, vidéo, PDF
Modalités (sortie)Texte
Appels de fonction
Appels de fonction parallèles
Sorties structurées (JSON Schema)
Streaming
Exécution de code (outil intégré)
Recherche Google ancrée (outil intégré)
Mode thinking (raisonnement)
Compréhension vidéo
Compréhension audio
Date limite de connaissanceJanvier 2025
Point de terminaison (Google AI)generativelanguage.googleapis.com/v1/models/gemini-2.5-pro:generateContent
Point de terminaison (Vertex AI){LOCATION}-aiplatform.googleapis.com

Sources vérifiées 2026-06-20 : documentation des modèles Google Gemini API (https://ai.google.dev/gemini-api/docs/models/gemini), tarification Google AI Studio (https://ai.google.dev/pricing), tarification Vertex AI Gemini (https://cloud.google.com/vertex-ai/generative-ai/pricing). Le changement de palier tarifaire se fait à 200K tokens d'entrée — les appels avec moins de 200K d'entrée se facturent au palier inférieur même si l'allocation de fenêtre de contexte est plus élevée. Re-vérifiez les pages en direct avant de budgétiser.

Ce qu'est réellement Gemini 2.5 Pro (et ce qui le rend unique)

Gemini 2.5 Pro est le modèle phare de Google DeepMind dans la famille Gemini 2.x, lancé en mars 2025. Il a succédé à Gemini 2.0 Pro (qui lui-même avait remplacé Gemini 1.5 Pro fin 2024) et a apporté trois sauts qualitatifs : mode thinking natif (budget de raisonnement configurable par appel), vision de qualité tier-2 rivalisant avec les benchmarks de vision de GPT-5, et comportement stable du contexte 1M avec un rappel qui se maintient sur toute la fenêtre.

Ce qui rend Gemini 2.5 Pro structurellement différent de GPT-5 ou Claude Opus : il est nativement multimodal sur plus de modalités que l'un ou l'autre. Les entrées texte, image, audio, vidéo et PDF circulent toutes dans le même tableau `contents`. Passez un fichier vidéo MP4, un enregistrement audio, une pile de PDFs et une question en texte libre — Gemini accepte tout cela en un seul appel et raisonne entre les différentes entrées. GPT-5 supporte texte + image. Claude supporte texte + image. Seul Gemini 2.5 Pro (et son homologue Flash) supportent vidéo et audio nativement en production.

Le mode thinking (nom de Google pour le raisonnement configurable) est activé par défaut sur Gemini 2.5 Pro avec un budget déterminé par le modèle. Forcez un budget spécifique avec `thinking_config: {thinking_budget: 5000}` ; désactivez entièrement le thinking avec `thinking_budget: 0` pour la réponse la plus rapide possible. Les tokens de thinking se facturent au tarif de sortie comme les tokens de raisonnement sur GPT-5 et les tokens de thinking sur Claude.


Calcul tarifaire : le palier 200K d'entrée et ce qu'il signifie

Gemini 2.5 Pro utilise un modèle tarifaire par paliers unique parmi les fournisseurs frontier. Sous 200 000 tokens d'entrée par appel : 1,25 $/M d'entrée, 10 $/M de sortie. Au-dessus de 200 000 tokens d'entrée : 2,50 $/M d'entrée, 15 $/M de sortie. Le palier s'applique à l'appel entier — si vous envoyez 250K tokens d'entrée, les 250K complets se facturent au palier supérieur, pas seulement la portion au-dessus de 200K.

Exemple : un appel avec 100K tokens d'entrée + 1K de sortie se facture `(0,100 × $1,25) + (0,001 × $10) = $0,125 + $0,01 = $0,135`. Le même appel avec 250K + 1K de sortie se facture `(0,250 × $2,50) + (0,001 × $15) = $0,625 + $0,015 = $0,640`. Franchir le seuil de 200K est une fonction d'escalier — multiplier le prix d'entrée par 2 et celui de la sortie par 1,5 —, pas une rampe douce.

Implication : gardez les appels sous 200K d'entrée quand vous le pouvez. Si vous êtes à 195K, passer à 205K pour en ajouter un morceau de plus représente une augmentation tarifaire de 5×. Si vous allez dépasser 200K, allez tout le chemin — 250K et 500K se facturent au même tarif par token.

Mise en cache : explicite, via le point de terminaison API `cachedContents`. Pré-créez un bloc de contenu mis en cache (TTL par défaut 1 heure, configurable jusqu'à 24 heures), référencez-le par ID dans les appels suivants. La portion mise en cache se lit avec 75% de réduction ($0,31/M au palier ≤200K, $0,625/M au palier >200K). Levier de coût majeur sur les charges de travail de long contexte. Calculs $ transfournisseurs : calculateur de coût GPT/Claude/Gemini.


La fenêtre de contexte 1M : quand elle compte vraiment

Gemini 2.5 Pro accepte 1 000 000 tokens en un seul appel. Pour référence : un scénario de long-métrage complet représente ~30K tokens, un roman de 300 pages ~150K tokens, la base de code d'une application SaaS moyenne 200-500K tokens, la trilogie du Seigneur des Anneaux complète ~600K tokens. Gemini 2.5 Pro tient tout cela dans un seul appel.

Le rappel se maintient sur la fenêtre 1M entière — les benchmarks aiguille-dans-meule de Google montrent >99% de rappel sur ~1M tokens pour le modèle Pro. Le goulot d'étranglement pratique est le coût et la latence, pas le rappel. Un appel 1M se facture `1,0 × $2,50 + (sortie × $15) = $2,50+` par appel avant les coûts de sortie et s'exécute en 30-60 secondes end-to-end aux débits de streaming typiques.

Quand 1M compte réellement : raisonnement sur base de code complète (planifier une refonte sur l'ensemble d'un référentiel), Q&A sur document complet de livres ou contrats légaux, compréhension audio/vidéo de long format (transcrire et analyser une réunion d'une heure en un seul coup), synthèse de recherche multi-documents.

Quand 1M ne compte pas : classification, extraction, chat, tâches de données structurées, tout ce qui tient en 50K tokens avec RAG. Pour la plupart des charges de travail en production, le palier inférieur ≤200K sur Gemini 2.5 Pro (ou même Gemini 2.5 Flash à $0,30/M) est le bon choix.


Multimodal : vidéo, audio, PDF — nativement en un seul appel

Passez un fichier vidéo en tant que blob base64 en ligne ou via l'API Fichiers Google (recommandé pour les fichiers >20 Mo). Gemini extrait les images à 1 IPS par défaut, transcrit l'audio, et raisonne sur le flux combiné. Comptabilité des tokens : la vidéo se facture à ~258 tokens par seconde de vidéo (compressée sur vidéo + audio).

Une vidéo de 5 minutes se facture `300 secondes × 258 tokens = 77 400 tokens` — toujours sous le palier 200K. Une transcription de réunion de 30 minutes représente ~465K tokens — au-delà du seuil 200K, dans le palier >200K. Planifiez en conséquence.

Les PDFs sont traités page par page avec extraction d'image + texte. Une page PDF typique riche en texte représente ~258 tokens ; les pages riches en images peuvent être substantiellement plus. Passez via l'API Fichiers pour les documents dépassant 20 Mo.

L'audio (sans vidéo) se facture à ~32 tokens par seconde. Un enregistrement audio de 10 minutes représente ~19 200 tokens. Utilisez pour la transcription de réunion + résumé, analyse de podcast, structuration de notes vocales.

Caveat pratique : les entrées multimodales gonflent rapidement les comptages de tokens. Un appel naïf 'résumez cette réunion d'une heure' peut facilement dépasser 200K tokens (1 heure vidéo = ~930K tokens). Mettez plutôt la vidéo en cache via l'API Fichiers et référencez-la sur plusieurs appels analytiques au lieu de la réuploader.


Appels de fonction, sorties structurées et outils intégrés

Gemini 2.5 Pro supporte les appels de fonction JSON Schema : déclarez les fonctions dans le paramètre `tools`, le modèle en choisit une (ou plusieurs en parallèle) et renvoie les arguments. Les appels de fonction parallèles sont supportés et activés par défaut pour le modèle Pro.

Les sorties structurées sont une primitive : passez un `responseSchema` (sous-ensemble JSON Schema) dans `generationConfig` et Google garantit que la sortie du modèle se valide par rapport à ce schéma. Supporte les objets imbriqués, les tableaux, les énumérations — comparable aux sorties structurées d'OpenAI et au motif appels-d'outils-en-sortie d'Anthropic.

Outils intégrés que vous n'avez pas à implémenter vous-même : **exécution de code** (le modèle écrit et exécute Python dans un sandbox, voit la sortie, itère), **ancrage de recherche Google** (le modèle émet une recherche Google et cite les résultats dans sa réponse, avec attribution), **contexte URL** (le modèle récupère et lit les URLs dans la conversation). Les outils intégrés sont uniques à Gemini dans le menu des modèles frontier et réduisent dramatiquement le code d'orchestration pour les flux de travail agentic.


Mode thinking : le cadran de raisonnement de Google

Le mode thinking est activé par défaut sur Gemini 2.5 Pro avec un budget de thinking déterminé par le modèle. Remplacez par `thinking_config: {thinking_budget: N}` où N est le nombre maximum de tokens de thinking pour l'appel. Réglez N=0 pour désactiver le thinking complètement ; réglez N=-1 (ou très élevé) pour laisser le modèle décider dynamiquement.

Les tokens de thinking se facturent au tarif de sortie (comme les tokens de raisonnement sur GPT-5 et les tokens de thinking sur Claude). Sur Gemini 2.5 Pro : `$10/M` au palier ≤200K, `$15/M` au palier >200K. Un budget de thinking de 3 000 tokens sur un appel ≤200K ajoute $0,03 à l'appel.

Quand définir des budgets de thinking explicites : contrôle de coût (limiter à 1 000 pour les tâches de routine), contrôle de qualité (augmenter à 5 000-10 000 pour le raisonnement complexe), contrôle de latence (réglez à 0 pour la réponse la plus rapide sur les tâches simples). Quand laisser le thinking en auto : chat généraliste où l'étalonnage de Gemini est bien accordé au mélange de tâches.


Quand choisir Gemini 2.5 Pro vs Claude Opus 4.7 vs GPT-5

**Choisissez Gemini 2.5 Pro** quand vous avez besoin de multimodal natif sur vidéo/audio/PDF, quand vous avez besoin du contexte 1M en disponibilité générale, quand les outils intégrés (exécution de code, ancrage Search) remplacent l'orchestration personnalisée, ou quand vous êtes déjà dans l'écosystème Google Cloud / Workspace et la facturation Vertex AI simplifie l'approvisionnement.

**Choisissez Claude Opus 4.7** quand la voix d'écriture de long format, la discipline d'étalonnage du refus, ou le raisonnement difficile est le goulot d'étranglement. Opus coûte 15 $/75 $ vs 1,25 $/10 $ (≤200K) pour Gemini 2.5 Pro — Gemini est dramatiquement moins cher pour tout sauf les tâches étroites où la prime de qualité d'Opus se justifie.

**Choisissez GPT-5** quand vous avez besoin du contexte 400K sans la surcharge tarifaire du palier >200K de Gemini, quand vous êtes dans l'écosystème d'outils OpenAI (Responses API, Assistants, ChatGPT Pro), ou quand les sorties structurées avec l'application JSON Schema la plus mature comptent.

Comparaison transfournisseurs : GPT-4o vs Gemini 2.5 Pro.


Sources vérifiées et comment re-vérifier les chiffres

Chaque chiffre de cette page a été vérifié par rapport à la documentation en direct de Google le 2026-06-20. Sources : ai.google.dev/gemini-api/docs/models/gemini pour le contexte, les modalités et le support des fonctionnalités ; ai.google.dev/pricing pour la tarification directe AI Studio ; cloud.google.com/vertex-ai/generative-ai/pricing pour la tarification Vertex AI (actuellement identique à la tarification directe AI Studio).

Les mises à jour tarifaires de Google sont annoncées via les notes de publication de Vertex AI et le journal des modifications ai.google.dev. Les prix ont changé deux fois sur Gemini 2.5 Pro depuis le lancement (les deux fois à la baisse). Re-vérifiez trimestriellement si votre facture est significative.

Méthodologie : quand un chiffre ne pouvait pas être recoupé par rapport à une page officielle de Google à la date de vérification, il a été omis de cette fiche plutôt que d'être deviné.

Effectuez votre premier appel Gemini 2.5 Pro en 5 étapes

  1. 1

    Obtenez une clé API

    Chemin le plus facile : aistudio.google.com → Get API key → Create. Copiez dans `.env` en tant que `GEMINI_API_KEY=...`. Pour la production à grande échelle, utilisez Vertex AI sur Google Cloud à la place (meilleur quota, SLA, contrôle régional).

  2. 2

    Installez le SDK

    Python : `pip install google-genai`. Node : `npm install @google/genai`. Le SDK `google-genai` est le client canonique actuel à partir de 2026 ; le SDK `google-generativeai` plus ancien est obsolète pour le nouveau code.

  3. 3

    Envoyez un appel minimal

    Python : `from google import genai; client = genai.Client(); r = client.models.generate_content(model='gemini-2.5-pro', contents='Hello'); print(r.text)`. C'est le round-trip entier.

  4. 4

    Ajoutez les sorties structurées et budget thinking explicite

    Pour la production : `client.models.generate_content(model='gemini-2.5-pro', contents=prompt, config={'response_mime_type': 'application/json', 'response_schema': MySchema, 'thinking_config': {'thinking_budget': 2000}})`. Force la sortie typée et limite le coût du thinking.

    → Open the Générateur de prompts ChatGPT
  5. 5

    Utilisez l'API Fichiers pour les grandes entrées multimodales

    Pour PDFs/vidéos/audio dépassant 20 Mo : `file = client.files.upload(file='meeting.mp4'); r = client.models.generate_content(model='gemini-2.5-pro', contents=[file, 'Summarize the key decisions'])`. Les fichiers persistent côté serveur pendant 48 heures et peuvent être référencés sur plusieurs appels sans être réuploadés.

Frequently Asked Questions

Combien coûte Gemini 2.5 Pro en 2026 ?

Tarification par paliers selon la taille de l'entrée. Pour les entrées ≤200K tokens : 1,25 $ par 1M d'entrée, 10 $ par 1M de sortie. Pour les entrées >200K tokens : 2,50 $ par 1M d'entrée, 15 $ par 1M de sortie. L'entrée mise en cache se facture à 75% de réduction du tarif du palier ($0,31/M ≤200K, $0,625/M >200K). L'API Batch prend encore 50% sur les deux flux. Source : ai.google.dev/pricing, vérifiée 2026-06-20.

Quelle est la fenêtre de contexte de Gemini 2.5 Pro ?

1 000 000 tokens — la plus grande de tout modèle frontier en disponibilité générale. Un contexte de 2M tokens est en aperçu privé. Le rappel se maintient sur la fenêtre 1M complète par les benchmarks aiguille-dans-meule de Google (>99% de précision sur 1M tokens pour le modèle Pro).

Quel est le palier tarifaire d'entrée 200K ?

Gemini 2.5 Pro utilise une tarification par paliers : les appels avec ≤200 000 tokens d'entrée se facturent à $1,25/$10 par 1M ; les appels avec >200 000 tokens d'entrée se facturent à $2,50/$15 par 1M. Le palier s'applique à l'appel entier, pas seulement la portion au-dessus de 200K. Implication : un appel 195K d'entrée est dramatiquement moins cher qu'un appel 205K d'entrée. Planifiez en conséquence.

Gemini 2.5 Pro supporte-t-il la vidéo et l'audio ?

Oui — nativement, dans le même appel que l'entrée texte. La vidéo se facture à ~258 tokens par seconde de vidéo ; l'audio à ~32 tokens par seconde. Passez via base64 en ligne (petits fichiers) ou l'API Fichiers Google (recommandé pour >20 Mo). Une vidéo de 5 minutes représente ~77K tokens ; une réunion de 30 minutes ~465K (franchit le palier >200K).

Qu'est-ce que le mode thinking sur Gemini 2.5 Pro ?

Le nom de Google pour le raisonnement explicite en chaîne de pensée, activé par défaut avec un budget déterminé par le modèle. Remplacez par `thinking_config={'thinking_budget': N}` où N est le maximum de tokens de thinking. Réglez N=0 pour désactiver pour la réponse la plus rapide. Les tokens de thinking se facturent au tarif de sortie. Utilisez pour les tâches de raisonnement difficile ; désactivez pour la classification/extraction.

Quelle est la différence entre Gemini 2.5 Pro et 2.5 Flash ?

Même contexte (1M), mêmes modalités, même support multimodal, mêmes outils intégrés. Flash est plus petit et plus rapide, avec une structure tarifaire plate ($0,30/$2,50 par 1M pour les entrées texte/image/vidéo). Utilisez Pro pour le raisonnement difficile et la synthèse de code ; Flash pour le volume en production et le sweet spot mid-tier large. Consultez notre fiche Gemini 2.5 Flash.

Gemini 2.5 Pro supporte-t-il les appels de fonction et les sorties structurées ?

Oui aux deux. Appels de fonction avec support des appels parallèles ; sorties structurées via `responseSchema` JSON Schema dans `generationConfig`. La sortie est garantie de se valider par rapport au schéma. Les outils intégrés (exécution de code, ancrage de recherche Google, contexte URL) sont uniques à Gemini — réduit l'orchestration personnalisée pour les flux de travail agentic.

Où Gemini 2.5 Pro est-il disponible ?

Google AI Studio (direct, niveau gratuit + payant), Google Cloud Vertex AI (niveau entreprise, contrôle régional, SLA) et les applications de consommation Gemini (gemini.google.com niveaux Pro et Advanced). La facturation API et consommation sont séparées.

1M contexte c'est du pouvoir. 1M contexte gaspillé c'est une facture.

Notre Générateur de Prompts IA écrit des prompts optimisés pour Gemini (long-contexte structuré, contents+parts prêts, budget thinking limité) basés sur VOTRE métier + tâche — pour dépenser 1M où ça compte. Essai gratuit 14 jours de DDH Pro, sans carte.

Browse all prompt tools →

Bibliothèque de prompts gratuite — plus de 100 prompts prêts à copier

Une sélection de prompts chaque semaine pour ChatGPT, Claude, Midjourney et DALL·E. Sans spam. Désinscription en un clic.

Sans spam. Un e-mail par semaine. Plus de ~12 000 utilisateurs de prompts déjà inscrits.