Tarification : Gemini 2.5 Pro est moins cher, mais seulement dans la tranche 200K de contexte
**GPT-4o est listé à 2,50 $/1M en entrée et 10 $/1M en sortie.** C'est le même prix d'entrée que GPT-5.4 et 40% du prix d'entrée de GPT-5.5 — GPT-4o est solidement milieu de gamme dans la ligne OpenAI 2026.
**Gemini 2.5 Pro est listé à 1,25 $/1M en entrée et 10 $/1M en sortie** pour les prompts sous 200K tokens. C'est la moitié du prix d'entrée de GPT-4o au même prix de sortie — une victoire claire en coût pour toute charge de travail qui tient dans 200K de contexte.
**Au-delà de 200K de contexte, la tarification de Gemini double sur l'entrée (2,50 $/1M) et passe à 1,5x sur la sortie (15 $/1M).** Cela compte : la fenêtre de contexte phare de 2M est une vraie capacité, mais elle n'est pas gratuite — l'utiliser coûte plus par token que l'utilisation d'un prompt plus court. Planifiez votre utilisation de la fenêtre de contexte en gardant cela à l'esprit.
**La réduction cache sur Gemini 2.5 Pro est de 75% de réduction** sur la lecture cache — fait baisser l'entrée en cache à 0,31 $/1M (contexte court) ou 0,625 $/1M (contexte long). Agressif, et deuxième uniquement après la réduction cache-read de 90% d'Anthropic sur Claude.
**La réduction prompt-cache de 50% hit sur GPT-4o** fait baisser l'entrée en cache à 1,25 $/1M — rapprochant du prix sans cache de Gemini. Le cache aide les deux, mais la réduction de Gemini est structurellement plus grande.
**Sur un appel typique 5K-entrée, 1K-sortie** : GPT-4o sans cache coûte 0,0225 $. Gemini 2.5 Pro sans cache (contexte court) coûte 0,01625 $ — 28% moins cher. En cache, les deux se rapprochent à quelques centièmes de cent par appel. À 100K appels/jour, c'est une différence de 7-8K $/an sans cache, descendant au bruit en cache. **Le coût n'est rarement le facteur décisif** à l'échelle à laquelle fonctionnent la plupart des équipes ; les différences de capacité comptent plus.