Ce qu'est réellement Gemini 2.5 Pro (et ce qui le rend unique)
Gemini 2.5 Pro est le modèle phare de Google DeepMind dans la famille Gemini 2.x, lancé en mars 2025. Il a succédé à Gemini 2.0 Pro (qui lui-même avait remplacé Gemini 1.5 Pro fin 2024) et a apporté trois sauts qualitatifs : mode thinking natif (budget de raisonnement configurable par appel), vision de qualité tier-2 rivalisant avec les benchmarks de vision de GPT-5, et comportement stable du contexte 1M avec un rappel qui se maintient sur toute la fenêtre.
Ce qui rend Gemini 2.5 Pro structurellement différent de GPT-5 ou Claude Opus : il est nativement multimodal sur plus de modalités que l'un ou l'autre. Les entrées texte, image, audio, vidéo et PDF circulent toutes dans le même tableau `contents`. Passez un fichier vidéo MP4, un enregistrement audio, une pile de PDFs et une question en texte libre — Gemini accepte tout cela en un seul appel et raisonne entre les différentes entrées. GPT-5 supporte texte + image. Claude supporte texte + image. Seul Gemini 2.5 Pro (et son homologue Flash) supportent vidéo et audio nativement en production.
Le mode thinking (nom de Google pour le raisonnement configurable) est activé par défaut sur Gemini 2.5 Pro avec un budget déterminé par le modèle. Forcez un budget spécifique avec `thinking_config: {thinking_budget: 5000}` ; désactivez entièrement le thinking avec `thinking_budget: 0` pour la réponse la plus rapide possible. Les tokens de thinking se facturent au tarif de sortie comme les tokens de raisonnement sur GPT-5 et les tokens de thinking sur Claude.