Modellkarte · Verifiziert gegen Google-Dokumentation · 2026-06-20

Gemini 2.5 Pro: Vollständiges Datenblatt (Juni 2026)

By The DDH Team at Digital Dashboard Hub·Updated June 19, 2026

Stop writing AI prompts from scratch.

Tell us your business + your task + your model. We write the prompt — perfectly tuned for ChatGPT, Claude, Grok, Gemini, Midjourney, or any model. Plus 500+ pre-built prompts in your library.

Gemini 2.5 Pro ist das Flagship-Modell von Google DeepMind für allgemeine Zwecke, veröffentlicht im März 2025 als Nachfolger von Gemini 2.0 Pro. Es ist das einzige Frontier-Modell eines großen Anbieters mit nativem 1.000.000-Token-Kontextfenster in allgemeiner Verfügbarkeit (Anthropic's Sonnet hat 1M in Beta; OpenAI's GPT-5 maximal 400K). Es ist auch das einzige Frontier-Modell mit nativem Videoverständnis – Sie können eine MP4-Datei direkt an das Modell übergeben und Fragen dazu stellen.

Eckdaten: gestaffelte Preisgestaltung nach Eingabegröße. Für Input ≤200.000 Token: $1,25 pro 1M Input / $10 pro 1M Output. Für Input >200.000 Token: $2,50 pro 1M Input / $15 pro 1M Output. Gecachter Input kostet $0,31/M (≤200K-Stufe) oder $0,625/M (>200K-Stufe) – 75% Rabatt. Das Kontextfenster beträgt 1.000.000 Token (2M in private Preview). Die maximale Ausgabe beträgt 65.536 Token. Modalitäten sind Text-, Bild-, Audio-, Video- und PDF-Eingaben; nur Textausgabe. Funktionsaufrufe, strukturierte Ausgaben, Code-Ausführung und Thinking-Modus werden alle unterstützt.

Nachfolgend: vollständige Spezifikationstabelle, wann Gemini 2.5 Pro die richtige Wahl ist im Vergleich zu Claude Opus oder GPT-5, wann das 1M-Kontextfenster die Preiserhöhung der >200K-Stufe rechtfertigt, die minimale API-Anfrage und 8 FAQs. Verwandte Seiten: Gemini 2.5 Flash Datenblatt · GPT-5 Datenblatt · Claude Opus 4.7 Datenblatt. Schreiben Sie einen Gemini-optimierten Prompt kostenlos mit unserem ChatGPT Prompt Generator.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Gemini 2.5 Pro — Vollständiges Datenblatt (Juni 2026)

Feature	Gemini 2.5 Pro Spezifikation
Anbieter	Google DeepMind
Modell-ID (API)	gemini-2.5-pro
Veröffentlicht	März 2025
Input-Preis ≤200K (pro 1M)	$1,25
Input-Preis >200K (pro 1M)	$2,50
Gecachter Input ≤200K (pro 1M)	$0,31 (75% Rabatt)
Gecachter Input >200K (pro 1M)	$0,625 (75% Rabatt)
Output-Preis ≤200K (pro 1M)	$10,00
Output-Preis >200K (pro 1M)	$15,00
Batch API Rabatt	50% Rabatt auf Input + Output
Kontextfenster	1.000.000 Token
Maximale Output-Token	65.536 Token
Modalitäten (Input)	Text, Bild, Audio, Video, PDF
Modalitäten (Output)	Text
Funktionsaufrufe
Parallele Funktionsaufrufe
Strukturierte Ausgaben (JSON Schema)
Streaming
Code-Ausführung (integriertes Tool)
Google-Suche Grounding (integriertes Tool)
Thinking-Modus (Reasoning)
Videoverständnis
Audioverständnis
Knowledge Cutoff	Januar 2025
Endpoint (Google AI)	generativelanguage.googleapis.com/v1/models/gemini-2.5-pro:generateContent
Endpoint (Vertex AI)	{LOCATION}-aiplatform.googleapis.com

Quellen verifiziert 2026-06-20: Google Gemini API Modellendokumentation (https://ai.google.dev/gemini-api/docs/models/gemini), Google AI Studio Preisgestaltung (https://ai.google.dev/pricing), Vertex AI Gemini Preisgestaltung (https://cloud.google.com/vertex-ai/generative-ai/pricing). Die Preisstufe wechselt bei 200K Input-Token – Anfragen unter 200K Input werden in der niedrigeren Stufe abgerechnet, auch wenn die Kontextfenster-Zuweisung höher ist. Überprüfen Sie die Live-Seiten erneut, bevor Sie budgetieren.

Was Gemini 2.5 Pro wirklich ist (und was es einzigartig macht)

Gemini 2.5 Pro ist das Flagship-Modell von Google DeepMind in der Gemini 2.x Familie, veröffentlicht im März 2025. Es folgte auf Gemini 2.0 Pro (das selbst Gemini 1.5 Pro Ende 2024 ersetzte) und brachte drei Leistungssprünge: nativer Thinking-Modus (konfigurierbares Reasoning-Budget pro Anfrage), Vision-Qualität der Tier-2, die mit GPT-5's Vision-Benchmarks mithalten kann, und stabiles 1M-Token-Kontext-Verhalten mit Recall über das gesamte Fenster hinweg.

Was Gemini 2.5 Pro strukturell von GPT-5 oder Claude Opus unterscheidet: Es ist nativ multimodal über mehr Modalitäten als beide. Text-, Bild-, Audio-, Video- und PDF-Eingaben fließen alle durch das gleiche `contents` Array. Übergeben Sie eine MP4-Videodatei, eine Audioaufnahme, einen Stapel PDFs und eine freie Textfrage – Gemini akzeptiert alles in einem Aufruf und denkt über alle hinweg. GPT-5 unterstützt Text + Bild. Claude unterstützt Text + Bild. Nur Gemini 2.5 Pro (und sein Flash-Schwestermodell) unterstützen Video und Audio nativ in der Produktion.

Thinking-Modus (Googles Name für konfigurierbares Reasoning) ist standardmäßig auf Gemini 2.5 Pro mit einem vom Modell festgelegten Budget aktiviert. Erzwingen Sie ein spezifisches Budget mit `thinking_config: {thinking_budget: 5000}`; deaktivieren Sie Thinking komplett mit `thinking_budget: 0` für die schnellstmögliche Antwort. Thinking-Token werden zum Output-Satz abgerechnet wie Reasoning-Token auf GPT-5 und Thinking-Token auf Claude.

Preisberechnung: die 200K Input-Stufe und was sie bedeutet

Gemini 2.5 Pro verwendet ein einzigartiges gestaffeltes Preismodell unter Frontier-Anbietern. Unter 200.000 Input-Token pro Aufruf: $1,25/M Input, $10/M Output. Über 200.000 Input-Token: $2,50/M Input, $15/M Output. Die Stufe gilt für den gesamten Aufruf – wenn Sie 250K Input-Token senden, werden die vollen 250K in der höheren Stufe abgerechnet, nicht nur der Teil über 200K.

Beispielrechnung: Ein 100K-Token-Input + 1K Output Aufruf kostet `(0,100 × $1,25) + (0,001 × $10) = $0,125 + $0,01 = $0,135`. Die gleiche Eingabe als 250K + 1K Output kostet `(0,250 × $2,50) + (0,001 × $15) = $0,625 + $0,015 = $0,640`. Das Überschreiten der 200K-Grenze ist eine 2× Input-Preis + 1,5× Output-Preis Sprungfunktion, nicht eine glatte Rampe.

Implikation: Halten Sie Aufrufe wo möglich unter 200K Input. Wenn Sie bei 195K sind, wird das Auffüllen auf 205K, um einen weiteren Block zu passen, zu einer 5× Preiserhöhung. Wenn Sie über 200K gehen werden, gehen Sie ganz – 250K und 500K werden zum gleichen Token-Satz abgerechnet.

Caching: explizit, über den `cachedContents` API-Endpoint. Pre-erstellen Sie einen gecachten Content-Block (1-Stunde Standard-TTL, konfigurierbar bis 24 Stunden), referenzieren Sie ihn in nachfolgenden Aufrufen per ID. Der gecachte Teil wird mit 75% Rabatt gelesen ($0,31/M in der ≤200K-Stufe, $0,625/M in der >200K-Stufe). Größter Kostenhebel bei Long-Context-Workloads. Kostenrechnung über Anbieter: GPT/Claude/Gemini Kostenrechner.

Das 1M Kontextfenster: wann es wirklich wichtig ist

Gemini 2.5 Pro akzeptiert 1.000.000 Token in einem einzigen Aufruf. Zum Vergleich: Ein vollständiges Spielfilm-Drehbuch ist ~30K Token, ein 300-seitiger Roman ist ~150K Token, die Codebasis einer mittleren SaaS-Anwendung ist 200-500K Token, die komplette Herr-der-Ringe-Trilogie ist ~600K Token. Gemini 2.5 Pro passt alles davon in einen Aufruf.

Der Recall hält über das gesamte 1M-Fenster – Googles Needle-in-Haystack-Benchmarks zeigen >99% Recall durch ~1M Token für das Pro-Modell. Der praktische Engpass ist Kosten und Latenz, nicht Recall. Ein 1M-Token-Aufruf kostet `1,0 × $2,50 + (Output × $15) = $2,50+` pro Aufruf vor Output-Kosten und läuft 30-60 Sekunden End-to-End bei typischen Streaming-Raten.

Wann 1M wirklich wichtig ist: Reasoning über gesamte Codebasis (Refaktor-Planung über ein ganzes Repository), Full-Document Q&A zu Büchern oder Rechtsdokumenten, Long-Form Audio-/Videoverständnis (transkribieren und analysieren Sie ein 1-Stunden-Meeting in einem Shot), Multi-Document-Forschungssynthese.

Wann 1M nicht wichtig ist: Klassifikation, Extraktion, Chat, strukturierte Datentasks, alles das in 50K Token mit RAG passt. Für die meisten Production-Workloads ist die kleinere ≤200K-Stufe auf Gemini 2.5 Pro (oder sogar Gemini 2.5 Flash bei $0,30/M) die richtige Wahl.

Multimodal: Video, Audio, PDF – nativ in einem Aufruf

Übergeben Sie eine Videodatei als inline base64-Blob oder über die Google File API (empfohlen für Dateien >20MB). Gemini extrahiert Frames mit 1 FPS standardmäßig, transkribiert Audio und denkt über den kombinierten Stream nach. Token-Accounting: Video wird mit ~258 Token pro Sekunde Filmmaterial berechnet (komprimiert über Video + Audio).

Ein 5-Minuten-Video kostet `300 Sekunden × 258 Token = 77.400 Token` – immer noch unter der 200K-Stufe. Eine 30-Minuten-Meetingaufzeichnung ist ~465K Token – über der 200K-Grenze, in der >200K-Stufe. Planen Sie entsprechend.

PDFs werden Seite für Seite mit Bild- und Text-Extraktion verarbeitet. Eine typische textlastige PDF-Seite ist ~258 Token; bildreiche Seiten können wesentlich mehr sein. Übergeben Sie über die File API für Dokumente über 20MB.

Audio (ohne Video) kostet ~32 Token pro Sekunde. Eine 10-Minuten-Audioaufnahme ist ~19.200 Token. Verwenden Sie für Meeting-Transkription + Zusammenfassung, Podcast-Analyse, Voice-Note-Strukturierung.

Praktische Warnung: Multimodale Eingaben erhöhen Token-Counts schnell. Ein naiver ‚Fassen Sie dieses einstündige Meeting zusammen'-Aufruf kann leicht 200K Token überschreiten (1 Stunde Video = ~930K Token). Cachen Sie das Video über die File API und referenzieren Sie es über mehrere analytische Aufrufe, anstatt es erneut hochzuladen.

Funktionsaufrufe, strukturierte Ausgaben und integrierte Tools

Gemini 2.5 Pro unterstützt JSON Schema Funktionsaufrufe: Deklarieren Sie Funktionen im `tools` Parameter, das Modell wählt eine (oder mehrere parallel) und gibt die Argumente zurück. Parallele Funktionsaufrufe werden unterstützt und sind standardmäßig für das Pro-Modell aktiviert.

Strukturierte Ausgaben sind First-Class: Übergeben Sie ein `responseSchema` (JSON Schema Subset) in `generationConfig` und Google garantiert, dass die Ausgabe des Modells gegen dieses Schema validiert. Unterstützt verschachtelte Objekte, Arrays, Enums – vergleichbar mit OpenAI's strukturierten Ausgaben und Anthropic's Tool-Use-as-Output-Muster.

Integrierte Tools, die Sie nicht selbst implementieren müssen: **Code-Ausführung** (das Modell schreibt und führt Python in einer Sandbox aus, sieht die Ausgabe, iteriert), **Google-Suche Grounding** (das Modell führt eine Google-Suche durch und zitiert die Ergebnisse in seiner Antwort, mit Zuordnung), **URL-Kontext** (das Modell ruft URLs in der Konversation ab und liest sie). Integrierte Tools sind einzigartig für Gemini im Frontier-Modell-Menü und reduzieren die Orchestrierungs-Code dramatisch für agentenbasierte Workflows.

Thinking-Modus: Googles Reasoning-Regler

Thinking-Modus ist standardmäßig auf Gemini 2.5 Pro mit einem vom Modell festgelegten Thinking-Budget aktiviert. Überschreiben Sie mit `thinking_config: {thinking_budget: N}`, wobei N die maximalen Thinking-Token für den Aufruf ist. Setzen Sie N=0, um Thinking komplett zu deaktivieren; setzen Sie N=-1 (oder sehr hoch), um das Modell dynamisch entscheiden zu lassen.

Thinking-Token werden zum Output-Satz abgerechnet (gleich wie Reasoning-Token auf GPT-5 und Thinking-Token auf Claude). Auf Gemini 2.5 Pro: `$10/M` in der ≤200K-Stufe, `$15/M` in der >200K-Stufe. Ein 3.000-Token Thinking-Budget auf einem ≤200K-Aufruf addiert $0,03 zum Aufruf hinzu.

Wann Sie explizite Thinking-Budgets festlegen sollten: Kostenkontrolle (auf 1.000 für Routine-Aufgaben begrenzen), Qualitätskontrolle (auf 5.000-10.000 für komplexes Reasoning erhöhen), Latenz-Kontrolle (auf 0 für schnellstmögliche Antwort bei einfachen Aufgaben setzen). Wann Sie Thinking auf Auto lassen sollten: allgemeiner Chat, wo Geminis Kalibrierung gut für die Task-Mischung abgestimmt ist.

Wann Sie Gemini 2.5 Pro vs Claude Opus 4.7 vs GPT-5 wählen sollten

**Wählen Sie Gemini 2.5 Pro**, wenn Sie nativer Multimodal über Video/Audio/PDF brauchen, wenn Sie 1M Kontext in allgemeiner Verfügbarkeit brauchen, wenn integrierte Tools (Code-Ausführung, Search Grounding) benutzerdefinierte Orchestrierung ersetzen, oder wenn Sie bereits im Google Cloud / Workspace-Ökosystem sind und Vertex AI-Abrechnung die Beschaffung vereinfacht.

**Wählen Sie Claude Opus 4.7**, wenn Long-Form-Writing-Voice, Refusal-Kalibrierungs-Disziplin oder hartes Reasoning der Engpass ist. Opus ist $15/$75 vs Gemini 2.5 Pro's $1,25/$10 (≤200K) – Gemini ist dramatisch billiger für alles außer den engen Tasks, wo Opus's Qualitätsprämium passt.

**Wählen Sie GPT-5**, wenn Sie 400K Kontext ohne die >200K-Stufen-Erhöhung auf Gemini brauchen, wenn Sie im OpenAI-Tooling-Ökosystem sind (Responses API, Assistants, ChatGPT Pro), oder wenn strukturierte Ausgaben mit der am meisten ausgereiften JSON Schema-Durchsetzung wichtig sind.

Cross-Vendor Head-to-Head: GPT-4o vs Gemini 2.5 Pro.

Verifizierte Quellen und wie Sie die Zahlen überprüfen können

Jede Zahl auf dieser Seite wurde gegen Googles Live-Dokumentation am 2026-06-20 verifiziert. Quellen: ai.google.dev/gemini-api/docs/models/gemini für Kontext, Modalitäten und Feature-Unterstützung; ai.google.dev/pricing für AI Studio direkte Preisgestaltung; cloud.google.com/vertex-ai/generative-ai/pricing für Vertex AI Preisgestaltung (derzeit identisch mit AI Studio direkt).

Googles Preis-Updates werden über Vertex AI Release Notes und das ai.google.dev Changelog angekündigt. Die Preise haben sich zweimal auf Gemini 2.5 Pro seit Start bewegt (beide abwärts). Re-verifizieren Sie vierteljährlich, wenn Ihre Rechnung erheblich ist.

Methodik: Wenn eine Zahl nicht gegen eine offizielle Google-Seite am Verifizierungsdatum cross-bestätigt werden konnte, wurde sie von dieser Karte ausgelassen, anstatt erraten zu werden.

Machen Sie Ihren ersten Gemini 2.5 Pro Aufruf in 5 Schritten

1
Holen Sie sich einen API-Schlüssel
Einfachster Weg: aistudio.google.com → API-Schlüssel abrufen → Erstellen. Kopieren Sie in `.env` als `GEMINI_API_KEY=...`. Für Production im großen Maßstab verwenden Sie stattdessen Vertex AI auf Google Cloud (bessere Quoten, SLAs, regionale Kontrolle).
2
Installieren Sie das SDK
Python: `pip install google-genai`. Node: `npm install @google/genai`. Das `google-genai` SDK ist ab 2026 der aktuelle kanonische Client; das ältere `google-generativeai` SDK ist für neuen Code veraltet.
3
Senden Sie einen minimalen Aufruf
Python: `from google import genai; client = genai.Client(); r = client.models.generate_content(model='gemini-2.5-pro', contents='Hello'); print(r.text)`. Das ist die gesamte Round-Trip.
4
Fügen Sie strukturierte Ausgaben und explizites Thinking-Budget hinzu
Für Production: `client.models.generate_content(model='gemini-2.5-pro', contents=prompt, config={'response_mime_type': 'application/json', 'response_schema': MySchema, 'thinking_config': {'thinking_budget': 2000}})`. Erzwingt typisierte Ausgabe und begrenzt Thinking-Kosten.
→ Open the ChatGPT Prompt Generator
5
Verwenden Sie die File API für große Multimodal-Eingaben
Für PDFs/Videos/Audio über 20MB: `file = client.files.upload(file='meeting.mp4'); r = client.models.generate_content(model='gemini-2.5-pro', contents=[file, 'Summarize the key decisions'])`. Dateien bleiben 48 Stunden server-seitig erhalten und können über mehrere Aufrufe referenziert werden ohne erneutes Hochladen.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related calculators

OpenAI Pricing Calculator →GPT-5.5, 5.4, mini, nano — full per-call cost in one input.Claude Pricing Calculator →Opus 4.8, Sonnet 4.6, Haiku 4.5, Fable 5 — input + output combined.Context Window Comparison →Max input length and price per 1M for every current model.

Related prompt tools

Prompt Generator (Gemini-optimiert)→Gemini 2.5 Flash Datenblatt→GPT-5 Datenblatt→Claude Opus 4.7 Datenblatt→GPT/Claude/Gemini Kostenrechner→

Frequently Asked Questions

Was kostet Gemini 2.5 Pro im Jahr 2026?

Gestaffelt nach Eingabegröße. Für Input ≤200K Token: $1,25 pro 1M Input, $10 pro 1M Output. Für Input >200K Token: $2,50 pro 1M Input, $15 pro 1M Output. Gecachter Input wird mit 75% Rabatt auf den Stufensatz abgerechnet ($0,31/M ≤200K, $0,625/M >200K). Batch API nimmt weitere 50% auf beide Streams. Quelle: ai.google.dev/pricing, verifiziert 2026-06-20.

Was ist Gemini 2.5 Pro's Kontextfenster?

1.000.000 Token – das größte aller Frontier-Modelle in allgemeiner Verfügbarkeit. Ein 2M-Token-Kontext ist in Private Preview. Recall hält über das gesamte 1M-Fenster pro Googles Needle-in-Haystack-Benchmarks (>99% Genauigkeit durch 1M Token für das Pro-Modell).

Was ist die 200K Input-Preisstufe?

Gemini 2.5 Pro verwendet gestaffelte Preisgestaltung: Aufrufe mit ≤200.000 Input-Token werden mit $1,25/$10 pro 1M abgerechnet; Aufrufe mit >200.000 Input-Token werden mit $2,50/$15 pro 1M abgerechnet. Die Stufe gilt für den gesamten Aufruf, nicht nur für den Teil über 200K. Implikation: Ein 195K-Input-Aufruf ist dramatisch billiger als ein 205K-Input-Aufruf. Planen Sie entsprechend.

Unterstützt Gemini 2.5 Pro Video und Audio?

Ja – nativ, im gleichen Aufruf wie Text-Eingabe. Video wird mit ~258 Token pro Sekunde Filmmaterial berechnet; Audio mit ~32 Token pro Sekunde. Übergeben Sie über inline base64 (kleine Dateien) oder die Google File API (empfohlen für >20MB). Ein 5-Minuten-Video ist ~77K Token; ein 30-Minuten-Meeting ist ~465K (überquert die >200K-Stufe).

Was ist der Thinking-Modus auf Gemini 2.5 Pro?

Googles Name für explizites Chain-of-Thought-Reasoning, standardmäßig mit einem vom Modell festgelegten Budget aktiviert. Überschreiben Sie mit `thinking_config={'thinking_budget': N}`, wobei N die maximalen Thinking-Token sind. Setzen Sie N=0, um es für schnellstmögliche Antwort zu deaktivieren. Thinking-Token werden zum Output-Satz abgerechnet. Verwenden Sie für harte Reasoning-Aufgaben; deaktivieren Sie für Klassifikation/Extraktion.

Was ist der Unterschied zwischen Gemini 2.5 Pro und 2.5 Flash?

Gleicher Kontext (1M), gleiche Modalitäten, gleiche Multimodal-Unterstützung, gleiche integrierte Tools. Flash ist kleiner und schneller, mit flacher Preisstruktur ($0,30/$2,50 pro 1M für Text-/Bild-/Videoeingabe). Verwenden Sie Pro für hartes Reasoning und Code-Synthese; Flash für Production-Volume und den breiten Mid-Tier Sweet-Spot. Siehe unsere Gemini 2.5 Flash Spec Sheet.

Unterstützt Gemini 2.5 Pro Funktionsaufrufe und strukturierte Ausgaben?

Ja zu beiden. Funktionsaufrufe mit paralleler Call-Unterstützung; strukturierte Ausgaben über `responseSchema` JSON Schema in `generationConfig`. Ausgabe wird garantiert gegen das Schema validiert. Integrierte Tools (Code-Ausführung, Google-Suche Grounding, URL-Kontext) sind einzigartig für Gemini – reduziert benutzerdefinierte Orchestrierung für agentenbasierte Workflows.

Wo ist Gemini 2.5 Pro verfügbar?

Google AI Studio (direkt, kostenloses Tier + bezahlt), Google Cloud Vertex AI (Enterprise-Tier, regionale Kontrolle, SLAs) und die Gemini Consumer Apps (gemini.google.com Pro und Advanced Tiers). API und Consumer-Abrechnung sind separat.

1M Kontext ist Kraft. Verschwendeter 1M Kontext ist Rechnung.

Unser AI Prompt Generator schreibt Gemini-optimierte Prompts (Long-Context strukturiert, contents+parts ready, Thinking-Budget gedeckelt) basierend auf IHREM Geschäft + Task – damit Sie die 1M dort ausgeben, wo es zählt. 14-Tage kostenlose Testphase von DDH Pro, keine Karte.

Browse all prompt tools →