Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Par l'équipe DDH · Digital Dashboard Hub

Comment fonctionnent les LLM — pour rédacteurs de prompts (2026)

Les bases essentielles du fonctionnement réel des grands modèles de langage — tokens, fenêtres de contexte, échantillonnage, entraînement vs inférence, hallucinations — pour rédiger des prompts nettement plus efficaces.

By DDH Research Team at Digital Dashboard HubUpdated

Un grand modèle de langage est un prédicteur de token suivant : à partir du texte fourni, il produit une distribution de probabilité sur le token suivant et en échantillonne un, de manière répétée, jusqu'à l'arrêt. Tout ce qui ressemble à de la compréhension — le raisonnement, le style, le refus, l'hallucination — découle de cette boucle unique et de la façon dont le modèle a été entraîné. Vous n'avez pas besoin des mathématiques pour rédiger de bons prompts, mais vous avez besoin des mécanismes, car chacun a une implication directe et pratique sur la façon dont vous rédigez vos prompts.

Ce guide explique les tokens, les fenêtres de contexte, les contrôles d'échantillonnage (température et top_p), la différence entre l'entraînement et l'inférence, et pourquoi les modèles hallucinent — et après chacun, ce que cela signifie pour vos prompts. Un point de repère utile : 1 token ≈ 4 caractères ≈ 0,75 mots en anglais (selon la documentation de tokenisation d'OpenAI et Anthropic). Pour mettre tout cela en pratique, notre Générateur de prompts ChatGPT et Code Prompt Builder intègrent les implications.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

Mécanismes LLM et ce que chacun signifie pour vos prompts

Feature
Ce que c'est
Implication pour les prompts
TokenUnité de sous-mot ; ~4 caractères ≈ 0,75 motsBudgétisez en tokens ; gardez le contexte léger
Fenêtre de contexteTokens max considérés à la foisInstructions clés en premier/dernier ; récupérez chunks pertinents
Boucle de prédictionÉchantillonnage de token suivant répétéRaisonnement avant réponse ; réparez les problèmes en amont
TempératureCaractère aléatoire du choix de tokenBasse pour le factuel, plus élevée pour le créatif
Top_pNucleus : plus petit ensemble somment à pAjustez un curseur, pas les deux
Entraînement vs inférencePoids figés au moment de l'appelFournissez les faits actuels ; few-shot est temporaire
HallucinationSortie confiante et non soutenueAncrez dans les sources ; exigez « Je ne sais pas »

Mécanismes résumés à partir de recherches fondamentales et de docs de fournisseurs : [Wei et al. 2022 (CoT)](https://arxiv.org/abs/2201.11903), [Brown et al. 2020 (few-shot)](https://arxiv.org/abs/2005.14165), [Yao et al. 2023 (ReAct)](https://arxiv.org/abs/2210.03629), et docs d'échantillonnage dans la [Référence de l'API OpenAI](https://platform.openai.com/docs/api-reference/chat). Règle empirique de tokens selon docs de tokenisation OpenAI/Anthropic. À jour en juin 2026.

Ce que contient ce guide

Chaque section explique un mécanisme, puis l'implication pour les prompts. Les sections sont :

1. Tokens — l'unité que le modèle lit réellement.

2. Fenêtres de contexte — la mémoire de travail du modèle.

3. La boucle de prédiction — pourquoi les modèles sont des prédicteurs de token suivant.

4. Échantillonnage : température et top_p — les curseurs de caractère aléatoire.

5. Entraînement vs inférence — ce que le modèle sait et quand.

6. Pourquoi les hallucinations se produisent — et comment les prompts les réduisent.

7. Ce que tout cela signifie pour la rédaction de prompts (le résumé).

8. Sources et lectures complémentaires.


Tokens : l'unité que le modèle lit réellement

Les modèles ne voient pas les mots ou les caractères — ils voient les tokens, des fragments de sous-mots produits par un tokeniseur. Les mots courants sont souvent un seul token ; les mots rares, longs et les chaînes inhabituelles se divisent en plusieurs. En règle générale, 1 token ≈ 4 caractères ≈ 0,75 mots en anglais (selon OpenAI et Anthropic). Donc ~1 000 tokens c'est environ 750 mots, et un document de 10 pages compte approximativement 5 000-6 000 tokens.

Pourquoi les rédacteurs de prompts devraient s'en soucier : (1) les coûts et les limites sont mesurés en tokens, pas en mots — consultez notre Coût par token pour tous les principaux modèles IA pour les tarifs. (2) La tokenisation dépend de la langue et du contenu : le texte non anglais, le code et le formatage inhabituel peuvent coûter beaucoup plus de tokens par « mot » que l'anglais ordinaire. (3) La perception de la structure par le modèle est au niveau des tokens, c'est pourquoi un formatage cohérent et des délimiteurs clairs aident — vous façonnez le flux de tokens à partir duquel le modèle prédit.

Conseil pratique : budgétisez les prompts en tokens, pas en mots ; gardez le contexte léger car chaque token est lu (et payé) à chaque appel ; et ne soyez pas surpris si un petit fragment de code dense ou un passage non anglais utilise plus de tokens que sa longueur ne le suggère. Le détail ligne par ligne — y compris les réductions qui changent la réponse — se trouve dans notre Calculateur de coût de prompts IA. <!-- calc-link-mesh:v2 -->


Fenêtres de contexte : la mémoire de travail du modèle

La fenêtre de contexte est le nombre maximum de tokens que le modèle peut considérer à la fois — votre prompt, l'historique de conversation, les documents attachés et la sortie générée partagent tous ce budget. En 2026, les fenêtres sont grandes : Anthropic propose une fenêtre de contexte de 1M tokens aux tarifs standard sur ses modèles Opus 4.6+, Sonnet 4.6 et Fable 5, par exemple.

Deux faits importent pour les prompts. Premièrement, tout ce qui est en dehors de la fenêtre n'existe pas pour le modèle — dans une longue conversation, les premiers tours peuvent sortir du contexte, et le modèle ne peut littéralement pas s'en « souvenir ». Deuxièmement, même dans la fenêtre, la position compte : les modèles tendent à faire attention de manière plus fiable au début et à la fin du contexte, donc enfouir une instruction critique au milieu d'un énorme prompt est risqué.

Conseils pratiques : placez vos instructions les plus importantes au début (et optionnellement restituez la contrainte clé à la fin) ; pour les documents longs, récupérez et incluez seulement les chunks pertinents plutôt que tout coller ; et dans les longs chats, restituez périodiquement le contexte critique car les anciens tours peuvent être sortis de la fenêtre. Une fenêtre plus grande est une capacité, pas une raison de la remplir — un contexte léger produit généralement une sortie plus nette et moins chère.


La boucle de prédiction : pourquoi les modèles sont des prédicteurs de token suivant

À l'inférence, le modèle répète une seule étape : lit tous les tokens jusqu'à présent, calcule une distribution de probabilité sur le token suivant, en choisit un, l'ajoute, puis recommence — jusqu'à ce qu'il émette un token d'arrêt ou atteigne une limite de longueur. Il n'y a pas de phase de « planification » distincte ; le raisonnement apparent est le modèle générant des tokens qui, statistiquement, tendent à suivre un bon raisonnement dans ses données d'entraînement.

Cela explique plusieurs comportements. La chaîne de pensée fonctionne parce que rédiger les étapes de raisonnement en tant que tokens conditionne les tokens de réponse ultérieurs sur ce raisonnement — le modèle fonctionne littéralement mieux quand il « réfléchit à voix haute », comme le montrent Wei et al., 2022 (arXiv:2201.11903). Cela explique aussi pourquoi les modèles peuvent se mettre dans un mauvais cas : un token erroné en début de réponse décale les probabilités de tout ce qui suit.

Conseils pratiques : demandez le raisonnement avant la réponse sur les tâches difficiles (l'ordre compte — le raisonnement doit venir en premier pour conditionner la réponse) ; et quand la sortie déraille, la correction est souvent plus haut dans le prompt, car tout ce qui suit est conditionné par ce qui le précède. Pour les boucles d'agents qui entrelacent le raisonnement avec les actions, voir ReAct (Yao et al., 2023, arXiv:2210.03629).


Échantillonnage : température et top_p

Le modèle produit une distribution de probabilité sur le token suivant, mais la façon dont il la choisit est contrôlée par les paramètres d'échantillonnage — principalement la température et top_p (documentés dans la Référence de l'API OpenAI).

La température échelonne l'acuité de la distribution. Une température basse (proche de 0) fait que le modèle choisit des tokens de haute probabilité, produisant une sortie plus déterministe, ciblée et reproductible. Une température élevée aplatit la distribution, rendant les tokens de faible probabilité plus probables — une sortie plus variée, créative et imprévisible. Top_p (nucleus sampling) restreint au lieu cela les choix au plus petit ensemble de tokens dont les probabilités somment à p ; un top_p bas garde seulement les options les plus probables.

Conseils pratiques : pour l'extraction factuelle, la classification, la sortie structurée et tout ce qui doit être reproductible, utilisez une température basse (souvent 0 ou proche). Pour le brainstorming, la copie créative et les alternatives variées, augmentez-la. La recommandation générale est d'ajuster l'un de la température ou top_p, pas les deux à la fois. Notez qu'une température basse réduit la variabilité — elle ne rend pas le modèle correct, et elle n'arrête pas l'hallucination. Si un prompt ne fonctionne qu'à température 0, le prompt est fragile ; réparez le prompt, ne pinces pas juste le curseur.


Entraînement vs inférence : ce que le modèle sait et quand

Il y a deux phases distinctes. L'entraînement est quand le modèle apprend ses poids à partir de grands corpus de texte (pré-entraînement) et est ensuite aligné pour être utile et sûr (fine-tuning / RLHF). L'inférence est quand vous appelez le modèle : les poids sont figés, et le modèle utilise seulement ces poids fixes plus ce qui est dans la fenêtre de contexte de votre prompt. Votre prompt n'enseigne rien de permanent au modèle.

Cette distinction résout beaucoup de confusion. Les « connaissances » du modèle sont ce qui était dans ses données d'entraînement jusqu'à sa date limite — il n'a pas de conscience en direct des événements après cela, et il ne peut rien chercher à moins que vous lui donniez des outils ou du contexte récupéré. L'apprentissage en contexte (exemples few-shot) n'est pas l'entraînement ; c'est le modèle se conditionnant sur des exemples dans le prompt, comme décrit dans Brown et al., 2020 (arXiv:2005.14165). L'effet disparaît quand le contexte prend fin.

Conseils pratiques : ne supposez jamais que le modèle connaît les faits actuels — fournissez-les en contexte ou via la récupération/les outils. Traitez les exemples few-shot comme des instructions temporaires, pas de l'apprentissage permanent. Et quand vous avez besoin d'informations faisant autorité et à jour, ancrez le modèle dans des sources que vous fournissez plutôt que de faire confiance à des faits rappelés (la section suivante explique pourquoi).


Pourquoi les hallucinations se produisent

Une hallucination est une sortie fluide et confiante qui est factuellement erronée ou non soutenue. C'est une conséquence directe de la boucle de prédiction : le modèle est optimisé pour produire des tokens suivants plausibles, et la plausibilité n'est pas la même chose que la vérité. Quand le modèle manque du fait pertinent, il ne sait pas qu'il le manque — il génère la continuation la plus probable, qui peut être une fabrication confiante.

Facteurs contributifs : le fait n'était pas dans les données d'entraînement (ou était rare/contradictoire) ; la question est en dehors de la date limite du modèle ; le prompt invite la spéculation sans permettre « Je ne sais pas » ; ou l'échantillonnage à température élevée fait remonter un token improbable et erroné. De manière cruciale, le modèle n'a pas de signal intégré qui distingue « Je me souviens d'un fait » de « Je génère une supposition plausible » — les deux sortent également fluides.

Les prompts réduisent l'hallucination mais ne peuvent pas l'éliminer complètement. Les mouvements à fort impact : (1) ancrez le modèle dans un contexte fourni et instruisez-le d'utiliser seulement ce contexte ; (2) permets et exigez explicitement « non spécifié / Je ne sais pas » plutôt que de deviner ; (3) abaissez la température pour les tâches factuelles ; et (4) pour tout ce qui est à enjeu élevé, gardez un humain dans la boucle et citez des sources réelles. Les prompts ancrés par récupération avec une règle d'incertitude stricte sont le motif unique le plus efficace — voir le motif de contrainte négative dans notre 12 motifs de prompts qui convertissent.


Ce que tout cela signifie pour la rédaction de prompts

En rassemblant les mécanismes dans les règles de rédaction de prompts :

**Tokens →** budgétisez en tokens ; gardez le contexte léger ; attendez-vous à ce que le code et le non-anglais coûtent plus par mot.

**Fenêtre de contexte →** mettez les instructions clés au début, restituez à la fin, récupérez seulement les chunks pertinents, et rafraîchissez le contexte dans les longs chats.

**Boucle de prédiction →** demandez le raisonnement avant la réponse sur les tâches difficiles ; réparez les problèmes en amont du prompt, car tout ce qui suit est conditionné par lui.

**Échantillonnage →** température basse pour le travail factuel/reproductible, plus élevé pour le créatif ; ajustez un curseur, pas les deux ; ne confondez pas température 0 avec la justesse.

**Entraînement vs inférence →** fournissez les faits actuels en contexte ; traitez few-shot comme temporaire ; ne supposez jamais les connaissances en direct.

**Hallucination →** ancrez dans les sources, exigez « Je ne sais pas », abaissez la température, et gardez les humains dans la boucle pour la sortie à enjeux élevés.

Ces règles expliquent pourquoi les techniques dans notre Guide complet de l'ingénierie des prompts fonctionnent comme elles le font. Comprendre le mécanisme transforme les prompts de tâtonnement en quelque chose sur lequel vous pouvez raisonner. Commencez à l'appliquer avec le Générateur de prompts ChatGPT ou Code Prompt Builder.


Sources et lectures complémentaires

Références pour les mécanismes ci-dessus (à partir de juin 2026) :

Chaîne de pensée / pourquoi le raisonnement en premier aide (Wei et al., 2022) : https://arxiv.org/abs/2201.11903

Apprentissage en contexte / few-shot (Brown et al., 2020) : https://arxiv.org/abs/2005.14165

ReAct, raisonnement entrelacé avec les actions (Yao et al., 2023) : https://arxiv.org/abs/2210.03629 ; Arbre de pensées (Yao et al., 2023) : https://arxiv.org/abs/2305.10601

Paramètres d'échantillonnage (température, top_p) — Référence de l'API OpenAI : https://platform.openai.com/docs/api-reference/chat ; conseils d'incitation du fournisseur : https://platform.openai.com/docs/guides/prompt-engineering , https://docs.claude.com/en/docs/build-with-claude/prompt-engineering/overview , https://ai.google.dev/gemini-api/docs/prompting-strategies

Économie des tokens (budgétisation du contexte) : voir notre Guide Coût par token et les pages de tarification des fournisseurs en direct qu'il lie.

Règle empirique des tokens (1 token ≈ 4 caractères ≈ 0,75 mots) : selon la documentation de tokenisation d'OpenAI et Anthropic.

Frequently Asked Questions

Qu'est-ce qu'un token dans un LLM ?

Un token est le fragment de sous-mot que le modèle lit réellement — les mots courants sont souvent un seul token, tandis que les mots rares ou longs se divisent en plusieurs. La règle empirique est 1 token ≈ 4 caractères ≈ 0,75 mots en anglais (selon OpenAI et Anthropic), donc ~1 000 tokens c'est environ 750 mots. Les coûts et les limites de contexte sont mesurés en tokens, pas en mots, et le code dense ou le texte non anglais utilisent plus de tokens par mot que l'anglais ordinaire.

Qu'est-ce qu'une fenêtre de contexte et pourquoi est-ce important pour les prompts ?

La fenêtre de contexte est le nombre maximum de tokens que le modèle peut considérer à la fois — votre prompt, l'historique, les documents attachés et la sortie générée partagent tous ce budget. Tout ce qui se trouve en dehors n'existe effectivement pas pour le modèle. En pratique : mettez les instructions clés au début (les modèles font attention de manière plus fiable au début et à la fin), récupérez seulement les chunks pertinents de documents longs, et restituez le contexte critique dans les longues conversations car les tours en début peuvent sortir de la fenêtre.

Que fait la température, et dois-je la mettre à 0 ?

La température contrôle la façon aléatoire dont le modèle choisit le token suivant. Une température basse (proche de 0) donne une sortie ciblée et reproductible ; une température élevée donne une sortie variée et créative. Utilisez-la basse pour l'extraction factuelle, la classification et la sortie structurée ; augmentez-la pour le brainstorming. Mais température 0 rend la sortie déterministe, pas correcte — cela n'arrête pas l'hallucination. Si un prompt ne fonctionne qu'à 0, le prompt est fragile et devrait être réparé. Voir la Référence de l'API OpenAI.

Pourquoi les LLM hallucininent-ils ?

Parce qu'ils sont optimisés pour produire des tokens suivants plausibles, et la plausibilité n'est pas la vérité. Quand un modèle manque d'un fait, il ne sait pas qu'il le manque — il génère la continuation la plus probable, qui peut être une fabrication confiante, sans signal interne distinguant le rappel de la supposition. Les prompts réduisent cela : ancrez le modèle dans un contexte fourni, exigez qu'il dise « non spécifié » plutôt que de deviner, abaissez la température pour les tâches factuelles, et gardez un humain dans la boucle pour la sortie à enjeux élevés.

Mon prompt enseigne-t-il au modèle quelque chose de permanent ?

Non. L'entraînement (apprentissage des poids) et l'inférence (appel du modèle) sont des phases distinctes. À l'inférence, les poids sont figés, et le modèle utilise seulement ceux-ci plus ce qui est dans votre fenêtre de contexte. Les exemples few-shot sont l'apprentissage en contexte — un conditionnement temporaire qui disparaît quand le contexte prend fin, selon Brown et al. 2020 — pas de l'apprentissage permanent. Le modèle n'a non plus aucune connaissance en direct après sa date limite d'entraînement à moins que vous ne fournissiez les faits actuels via le contexte ou les outils.

Pourquoi demander au modèle de « réfléchir étape par étape » améliore-t-il les réponses ?

Parce que le modèle est un prédicteur de token suivant : les tokens qu'il écrit conditionnent les tokens qui suivent. Quand il écrit le raisonnement en premier, la réponse finale est conditionnée par ce raisonnement, ce qui améliore mesurément la précision sur les problèmes multi-étapes — l'effet de chaîne de pensée de Wei et al. 2022. L'ordre compte : le raisonnement doit venir avant la réponse pour avoir un effet. Les modèles modernes de raisonnement ajusté le font souvent en interne, donc cela aide moins sur les modèles de premier plan.

Transformez les mécanismes en meilleurs prompts.

Le Générateur de prompts ChatGPT gratuit et Code Prompt Builder appliquent les meilleures pratiques de contexte, format et ancrage pour vous — sans inscription, faisant partie de 40+ outils gratuits.

Browse all prompt tools →

Bibliothèque de prompts gratuite — plus de 100 prompts prêts à copier

Une sélection de prompts chaque semaine pour ChatGPT, Claude, Midjourney et DALL·E. Sans spam. Désinscription en un clic.

Sans spam. Un e-mail par semaine. Plus de ~12 000 utilisateurs de prompts déjà inscrits.