Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Von The DDH Team · Digital Dashboard Hub

Wie LLMs wirklich funktionieren — für Prompt-Schreiber (2026)

Gerade genug über die echte Funktionsweise großer Sprachmodelle – Tokens, Context Windows, Sampling, Training vs. Inference und Halluzinationen – um messbar bessere Prompts zu schreiben.

By DDH Research Team at Digital Dashboard HubUpdated

Ein großes Sprachmodell ist ein Next-Token-Prädiktor: Es produziert eine Wahrscheinlichkeitsverteilung über den nächsten Token und sampelt einen, wiederholt, bis es stoppt. Alles, das wie Verständnis wirkt – Reasoning, Stil, Verweigerung, Halluzination – folgt aus dieser einen Schleife plus dem Training des Modells. Du brauchst die Mathematik nicht zum guten Prompting, aber die Mechanik: Jede hat direkte, praktische Auswirkungen auf deine Prompts.

Dieser Leitfaden erklärt Tokens, Context Windows, Sampling-Parameter (Temperature und Top_p), den Unterschied zwischen Training und Inference und warum Modelle halluzinieren – und danach jeweils die Konsequenz für deine Prompts. Ein guter Ankerpunkt: 1 Token ≈ 4 Zeichen ≈ 0,75 Wörter im Englischen (gemäß OpenAI und Anthropic Tokenisierungs-Dokumentation). Um die Konsequenzen praktisch umzusetzen, bake der ChatGPT Prompt Generator und Code Prompt Builder die Erkenntnisse direkt ein.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

LLM-Mechaniken und was jede für deine Prompts bedeutet

Feature
Was es ist
Prompt-Konsequenz
TokenSub-Wort-Einheit; ~4 Zeichen ≈ 0,75 WörterBudget in Tokens; keep Context schlank
Context WindowMax Tokens betrachtbar auf einmalKey Instructions first/last; retrieve relevante Chunks
Prediction LoopWiederholtes Next-Token SamplingReason vor Antwort; fix Issues Upstream
TemperatureZufälligkeit der Token-WahlNiedrig für Fact, höher für Creative
Top_pNucleus: kleinste Menge summierend zu pAdjust einen Regler, nicht beide
Training vs. InferenceGefrorene Gewichte bei AufrufSupply aktuelle Facts; Few-Shot ist temporär
HallucinationSelbstbewusster, nicht gestützter OutputGround in Sources; require "Ich weiß nicht"

Mechaniken zusammengefasst aus Fundamental-Research und Provider-Docs: [Wei et al. 2022 (CoT)](https://arxiv.org/abs/2201.11903), [Brown et al. 2020 (Few-Shot)](https://arxiv.org/abs/2005.14165), [Yao et al. 2023 (ReAct)](https://arxiv.org/abs/2210.03629), und Sampling-Docs in der [OpenAI API Reference](https://platform.openai.com/docs/api-reference/chat). Token-Faustregel per OpenAI/Anthropic Tokenisierungs-Docs. Aktuell Juni 2026.

Was ist in diesem Leitfaden

Jeder Abschnitt erklärt einen Mechanismus und dann die Prompt-Konsequenz. Die Abschnitte:

1. Tokens – die Einheit, die das Modell wirklich liest.

2. Context Windows – das Arbeitsgedächtnis des Modells.

3. Die Vorhersage-Schleife – warum Modelle Next-Token-Prädikatoren sind.

4. Sampling: Temperature und Top_p – die Zufallsregler.

5. Training vs. Inference – was das Modell weiß und wann.

6. Warum Halluzinationen passieren – und wie Prompting sie reduziert.

7. Was das alles für das Schreiben von Prompts bedeutet (die Zusammenfassung).

8. Quellen & Weiterführendes.


Tokens: die Einheit, die das Modell wirklich liest

Modelle sehen nicht Wörter oder Zeichen – sie sehen Tokens, Sub-Wort-Chunks, die ein Tokenizer produziert. Häufige Wörter sind oft ein Token; seltene, lange Wörter und ungewöhnliche Strings spalten sich in mehrere auf. Als Faustregel: 1 Token ≈ 4 Zeichen ≈ 0,75 Wörter im Englischen (gemäß OpenAI und Anthropic Dokumentation). Also etwa 1.000 Tokens sind rund 750 Wörter, und ein 10-seitiges Dokument sind grob 5.000–6.000 Tokens.

Warum Prompt-Schreiber das kümmert: (1) Kosten und Limits werden in Tokens gemessen, nicht in Wörtern – siehe unseren Cost Per Token Across All Major AI Models für die Preis-Seite. (2) Tokenisierung ist sprach- und inhaltsabhängig: Nicht-englischer Text, Code und ungewöhnliche Formatierung können weit mehr Tokens pro "Wort" kosten als reines Englisch. (3) Das Struktur-Verständnis des Modells ist Token-Ebene, darum helfen konsistente Formatierung und klare Trennzeichen – du formst den Token-Stream, aus dem das Modell vorhersagt.

Praktische Konsequenz: Budget Prompts in Tokens, nicht Wörtern; halte Kontext schlank, weil jeder Token auf jedem Call gelesen (und bezahlt) wird; und wundere dich nicht, wenn ein kurzes Dense-Code-Snippet oder eine nicht-englische Passage mehr Tokens nutzt als ihre Länge suggeriert. Die Aufschlüsselung – inklusive der Rabatte, die die Antwort ändern – findet sich in unserem AI Prompt Cost Calculator. <!-- calc-link-mesh:v2 -->


Context Windows: das Arbeitsgedächtnis des Modells

Das Context Window ist die maximale Anzahl von Tokens, die das Modell auf einmal berücksichtigen kann – dein Prompt, Gesprächsverlauf, angehängte Dokumente und der generierte Output teilen sich dieses Budget. 2026 sind Windows groß: Anthropic bietet ein 1M-Token-Context-Window zu Standard-Preisen auf Opus 4.6+, Sonnet 4.6 und Fable 5 Modellen, zum Beispiel.

Zwei Fakten sind für Prompting relevant. Erstens: Alles außerhalb des Fensters existiert für das Modell nicht – in einem langen Gespräch können frühe Turns aus dem Kontext fallen, und das Modell kann sie wirklich nicht "erinnern". Zweitens: Auch innerhalb des Fensters spielt Position eine Rolle – Modelle konzentrieren sich am zuverlässigsten auf den Anfang und das Ende, darum ist es riskant, eine kritische Anweisung mitten in einen riesigen Prompt zu verstecken.

Praktische Konsequenzen: Wichtigste Anweisungen an den Anfang (und optional restate den Schlüssel-Constraint am Ende); bei langen Dokumenten retrieve und include nur relevante Chunks statt alles zu kopieren; und in langen Chats restate kritischen Kontext periodisch, weil alte Turns aus dem Fenster scroll können. Ein größeres Fenster ist eine Kapazität, nicht ein Grund, es zu füllen – schlanker Kontext erzeugt üblicherweise schärferen, billigeren Output.


Die Vorhersage-Schleife: warum Modelle Next-Token-Prädikatoren sind

Bei der Inference wiederholt das Modell einen Schritt: Lese alle bisherigen Tokens, berechne eine Wahrscheinlichkeitsverteilung über den nächsten Token, pick einen, hänge ihn an, wiederhole – bis es einen Stop-Token emittiert oder ein Längen-Limit trifft. Es gibt keine separate "Planungs"-Phase; das apparent Reasoning ist das Modell, das Tokens generiert, die statistisch dazu neigen, gut-trainiertes Reasoning zu folgen.

Das erklärt mehrere Verhaltensweisen. Chain-of-Thought funktioniert, weil die Reasoning-Schritte als Tokens die späteren Answer-Tokens bedingt – das Modell schneidet wirklich besser ab, wenn es "laut denkt", wie Wei et al., 2022 (arXiv:2201.11903) zeigt. Es erklärt auch, warum Modelle sich selbst in eine Ecke malen können: Ein früher falscher Token verschiebt die Wahrscheinlichkeiten für alles danach.

Praktische Konsequenzen: Frage nach Reasoning vor der Antwort bei harten Aufgaben (die Reihenfolge zählt – Reasoning muss zuerst kommen, um die Antwort zu bedingen); und wenn Output entgleist, ist die Lösung oft früher im Prompt, weil alles Downstream davon bedingt wird, was davor kam. Für Agent-Loops, die Reasoning mit Actions verschachteln, siehe ReAct (Yao et al., 2023, arXiv:2210.03629).


Sampling: Temperature und Top_p

Das Modell gibt eine Wahrscheinlichkeitsverteilung über den nächsten Token aus, aber wie es aus dieser Verteilung pickt, wird durch Sampling-Parameter gesteuert – vor allem Temperature und Top_p (dokumentiert in der OpenAI API Reference).

Temperature skaliert die Schärfe der Verteilung. Niedrige Temperature (nahe 0) lässt das Modell hochwahrscheinliche Tokens picken, was deterministischeren, schärferen, wiederholbaren Output produziert. Hohe Temperature flacht die Verteilung ab, macht niedrigwahrscheinliche Tokens wahrscheinlicher – mehr Varianz, Kreativität und Unvorhersehbarkeit. Top_p (Nucleus Sampling) beschränkt stattdessen Wahlmöglichkeiten auf die kleinste Menge von Tokens, deren Wahrscheinlichkeiten sich zu p addieren; niedriges Top_p behält nur die wahrscheinlichsten Optionen.

Praktische Konsequenzen: Für Fact-Extraction, Klassifikation, strukturierten Output und alles, das wiederholbar sein muss, use niedrige Temperature (oft 0 oder nahe dran). Für Brainstorming, kreative Copy und Varianten, erhöhe sie. Allgemeine Guideline: Adjust einen von Temperature oder Top_p, nicht beide gleichzeitig. Beachte, dass niedrige Temperature Variabilität reduziert – es macht das Modell nicht korrekt und stoppt keine Halluzination. Wenn ein Prompt nur bei Temperature 0 funktioniert, ist der Prompt fragil; fix den Prompt, not nur den Regler.


Training vs. Inference: was das Modell weiß und wann

Es gibt zwei verschiedene Phasen. Training ist, wenn das Modell seine Gewichte aus großen Text-Korpora lernt (Pretraining) und dann ausgerichtet wird, um hilfreich und sicher zu sein (Fine-Tuning / RLHF). Inference ist, wenn du das Modell aufrufst: die Gewichte sind eingefroren, und das Modell nutzt nur diese festen Gewichte plus was in deinem Prompt-Context-Fenster ist. Dein Prompt lehrt das Modell nichts Permanentes.

Diese Unterscheidung löst viel Verwirrung auf. Das "Wissen" des Modells ist, was in seinen Trainingsdaten bis zur Cutoff-Zeit war – es hat keine Live-Awareness von Events danach und kann nichts nachschlagen, außer du gibst ihm Tools oder Retrieved Context. In-Context Learning (Few-Shot Beispiele) ist kein Training; es ist das Modell, das auf Beispiele innerhalb des Prompts bedingt wird, wie in Brown et al., 2020 (arXiv:2005.14165) beschrieben. Der Effekt verflüchtigt sich, wenn der Context endet.

Praktische Konsequenzen: Assume nie, dass das Modell aktuelle Facts kennt – supply sie im Context oder via Retrieval/Tools. Treat Few-Shot Beispiele als temporäre Anweisungen, nicht als permanentes Lernen. Und wenn du authoritative, up-to-date Information brauchst, ground das Modell in Quellen, die du bereitstellst, statt dass du recalled Facts vertraust (der nächste Abschnitt erklärt warum).


Warum Halluzinationen passieren

Eine Halluzination ist flüssiger, selbstbewusster Output, der faktisch falsch oder nicht gestützt ist. Das ist eine direkte Konsequenz der Vorhersage-Schleife: Das Modell ist optimiert, um plausibel klingende nächste Tokens zu produzieren, und Plausibilität ist nicht das Gleiche wie Wahrheit. Wenn das Modell den relevanten Fact fehlt, weiß es nicht, dass es ihn fehlt – es generiert die wahrscheinlichste aussehende Fortsetzung, die eine selbstbewusste Erfindung sein kann.

Beitragende Faktoren: Der Fact war nicht in Trainingsdaten (oder selten/widersprüchlich); die Frage ist außerhalb der Knowledge Cutoff des Modells; der Prompt lädt Spekulation ein, ohne "Ich weiß nicht" zu erlauben; oder Sampling bei hoher Temperature surfaced ein niedriges Probability Token, das falsch ist. Crucially: Das Modell hat kein built-in Signal, das "Ich erinnere einen Fact" von "Ich generiere eine plausible Vermutung" unterscheidet – beide kommen gleich flüssig heraus.

Prompting reduziert Halluzination, kann sie aber nicht vollständig eliminieren. Die High-Leverage Moves: (1) Ground das Modell in supplied Context und instruct es, nur diesen zu nutzen; (2) Explicitly permit und require "not specified / Ich weiß nicht" statt zu raten; (3) Lower Temperature für Fact-Tasks; und (4) für alles High-Stakes, keep a human in the loop und cite real sources. Retrieval-grounded Prompts mit einer strikten Uncertainty-Regel sind das einzeln wirksamste Pattern – siehe das Negative-Constraint Pattern in unserem 12 Prompt Patterns That Convert.


Was das alles für das Schreiben von Prompts bedeutet

Die Mechanik zusammengezogen zu Prompting-Regeln:

**Tokens →** Budget in Tokens; keep Context schlank; erwarte, dass Code und nicht-Englisch mehr pro Wort kosten.

**Context Window →** Key Instructions am Start, restate am Ende, retrieve nur relevante Chunks, refresh Context in langen Chats.

**Prediction Loop →** Ask für Reasoning vor der Antwort bei harten Tasks; fix Probleme Upstream im Prompt, da alles Downstream davon bedingt wird.

**Sampling →** Niedrige Temperature für Fact/Repeatable Work, höher für Creative; adjust einen Regler, nicht beide; mistake nicht Temperature 0 für Correctness.

**Training vs. Inference →** Supply aktuelle Facts im Context; treat Few-Shot als temporär; assume nie Live Knowledge.

**Hallucination →** Ground in Sources, require "Ich weiß nicht", lower Temperature, keep Humans in the Loop für High-Stakes Output.

Diese Regeln erklären, warum die Techniken in unserem Complete Guide to Prompt Engineering so funktionieren, wie sie es tun. Den Mechanismus verstehen macht Prompting aus Trial-and-Error zu etwas, das du reasonen kannst. Start mit dem ChatGPT Prompt Generator oder Code Prompt Builder.


Quellen & Weiterführendes

Referenzen für die Mechaniken oben (Stand Juni 2026):

Chain-of-Thought / warum Reasoning-First hilft (Wei et al., 2022): https://arxiv.org/abs/2201.11903

In-Context / Few-Shot Learning (Brown et al., 2020): https://arxiv.org/abs/2005.14165

ReAct, Reasoning verschachtelt mit Actions (Yao et al., 2023): https://arxiv.org/abs/2210.03629 ; Tree of Thoughts (Yao et al., 2023): https://arxiv.org/abs/2305.10601

Sampling-Parameter (Temperature, Top_p) – OpenAI API Reference: https://platform.openai.com/docs/api-reference/chat ; Provider-Prompting-Guidance: https://platform.openai.com/docs/guides/prompt-engineering , https://docs.claude.com/en/docs/build-with-claude/prompt-engineering/overview , https://ai.google.dev/gemini-api/docs/prompting-strategies

Token-Ökonomie (Context Budgeting): siehe unseren Cost Per Token Guide und die Live-Provider-Preis-Seiten, die er linkt.

Token Faustregel (1 Token ≈ 4 Zeichen ≈ 0,75 Wörter): gemäß OpenAI und Anthropic Tokenisierungs-Dokumentation.

Frequently Asked Questions

Was ist ein Token in einem LLM?

Ein Token ist der Sub-Wort-Chunk, den das Modell wirklich liest – häufige Wörter sind oft ein Token, während seltene oder lange Wörter sich in mehrere aufteilen. Die Faustregel ist 1 Token ≈ 4 Zeichen ≈ 0,75 Wörter im Englischen (gemäß OpenAI und Anthropic Docs), also etwa 1.000 Tokens sind rund 750 Wörter. Kosten und Context-Limits werden in Tokens gemessen, nicht Wörtern, und dichter Code oder nicht-englischer Text nutzt mehr Tokens pro Wort als reines Englisch.

Was ist ein Context Window und warum spielt es für Prompts eine Rolle?

Das Context Window ist die maximale Anzahl von Tokens, die das Modell auf einmal berücksichtigen kann – dein Prompt, History, angehängte Dokumente und der generierte Output teilen sich es. Alles außerhalb existiert für das Modell nicht. Praktisch: Key Instructions am Start platzieren (Modelle konzentrieren sich am zuverlässigsten auf Anfang und Ende), nur relevante Chunks von langen Dokumenten retrieveen, und kritischen Context in langen Gesprächen restate, weil frühe Turns aus dem Fenster rollen können.

Was macht Temperature, und sollte ich es auf 0 setzen?

Temperature kontrolliert, wie zufällig das Modell den nächsten Token pickt. Niedrige Temperature (nahe 0) gibt schärferen, wiederholbaren Output; hohe Temperature gibt variierten, kreativen Output. Use niedrig für Fact-Extraction, Klassifikation und strukturierten Output; erhöhe für Brainstorming. Aber Temperature 0 macht Output deterministisch, nicht korrekt – es stoppt keine Halluzination. Wenn ein Prompt nur bei 0 funktioniert, ist der Prompt fragil und sollte fixed werden. Siehe die OpenAI API Reference.

Warum halluzinieren LLMs?

Weil sie optimiert sind, um plausible nächste Tokens zu produzieren, und Plausibilität ist nicht Wahrheit. Wenn ein Modell einen Fact fehlt, weiß es nicht, dass es ihn fehlt – es generiert die wahrscheinlich aussehendste Fortsetzung, die eine selbstbewusste Erfindung sein kann, ohne internes Signal, das Recall von Raten unterscheidet. Prompting reduziert das: Ground das Modell in supplied Context, require es, "not specified" zu sagen statt zu raten, lower Temperature für Fact-Tasks, und keep Humans in the Loop für High-Stakes Output.

Lehrt mein Prompt das Modell permanent etwas?

Nein. Training (Gewichte lernen) und Inference (Modell rufen) sind separate Phasen. Bei Inference sind Gewichte eingefroren, und das Modell nutzt nur diese plus was im Context Window ist. Few-Shot Beispiele sind In-Context Learning – temporäre Bedingtheit, die verflüchtigt, wenn Context endet, per Brown et al. 2020 – nicht permanentes Lernen. Das Modell hat auch keine Live-Kenntnis nach seiner Training-Cutoff, außer du supply aktuelle Facts via Context oder Tools.

Warum verbessert das Modell "Schritt für Schritt denken" zu lassen Antworten?

Weil das Modell ein Next-Token-Prädiktor ist: die Tokens, die es schreibt, bedingen die Tokens, die folgen. Wenn es Reasoning zuerst ausschreibt, ist die finale Antwort bedingt von diesem Reasoning, was Genauigkeit bei Multi-Step Problemen messbar verbessert – der Chain-of-Thought Effekt von Wei et al. 2022. Die Reihenfolge zählt: Reasoning muss vor der Antwort kommen, um Effekt zu haben. Moderne Reasoning-Tuned Modelle tun das oft intern, also hilft es weniger bei Top-Tier Modellen.

Die Mechaniken in bessere Prompts umwandeln.

Der kostenlose ChatGPT Prompt Generator und Code Prompt Builder apply Context-, Format- und Grounding-Best-Practices für dich – kein Signup, Teil von 40+ kostenlosen Prompt-Tools.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.