Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Par l'équipe DDH · Digital Dashboard Hub

Qu'est-ce que RAG (Retrieval-Augmented Generation) ? (2026)

RAG ancre un modèle dans vos propres documents au moment de la requête — la façon la plus courante de faire répondre un LLM à partir de faits sur lesquels il n'a jamais été entraîné.

By DDH Research Team at Digital Dashboard HubUpdated

RAG (Retrieval-Augmented Generation) est une technique qui récupère les documents pertinents au moment de la requête et les insère dans le prompt, permettant au modèle de répondre à partir de preuves fournies plutôt que de sa mémoire d'entraînement seule. C'est le moyen standard d'ancrer un modèle dans des connaissances privées, actuelles ou spécialisées qu'il n'a jamais vues lors de l'entraînement — et cela réduit considérablement les hallucinations.

Plutôt que d'espérer que le modèle 'connaisse' votre réponse, vous récupérez les bons passages sources et les lui fournissez avec la question. Pour un traitement plus complet de la technique, le Guide d'ingénierie des prompts DAIR.ai est une excellente référence gratuite.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

RAG vs fine-tuning en un coup d'œil

Feature
RAG
Fine-tuning
Idéal pourInjecter des connaissances / des faitsChanger le comportement, le style, le format
Mettre à jour les connaissancesInstantané — éditer le magasin de donnéesNécessite un réentraînement
Citations possibles
Coût initialPlus bas (construire un pipeline)Plus élevé (exécution d'entraînement + données)
Coût par appel en tokensPlus élevé (contexte inclus à chaque appel)Plus bas (connaissances dans les poids)
Gère les données privées/changeantes

Orientations générales ; combinez les deux dans de nombreux systèmes de production. Référence technique : Guide d'ingénierie des prompts DAIR.ai (https://www.promptingguide.ai/). Vérifié en juin 2026.

Comment fonctionne RAG ?

Un pipeline RAG comporte deux phases. Premièrement, l'ingestion (effectuée au préalable) : vous divisez vos documents sources en passages plus petits (chunking), convertissez chacun en embedding — un vecteur numérique capturant son sens — et stockez ces vecteurs dans une base de données.

Deuxièmement, la récupération et la génération (au moment de la requête) : vous encodez la question de l'utilisateur, trouvez les passages sémantiquement les plus similaires via une recherche vectorielle, et insérez ces passages dans le prompt aux côtés de la question. Le modèle génère alors une réponse fondée sur le texte fourni, idéalement avec des citations renvoyant à la source.

L'idée est que le modèle répond à partir de preuves que vous avez placées dans sa fenêtre de contexte, pas à partir de ce qu'il a mémorisé lors de l'entraînement. Cela rend les réponses traçables — vous pouvez montrer de quel passage provient une affirmation — et les maintient actuelles sans réentraînement.


Quand dois-je utiliser RAG plutôt que le fine-tuning ?

Ils résolvent des problèmes différents. RAG injecte des connaissances — des faits, des documents, des politiques — dans le prompt au moment de la requête. Le fine-tuning ajuste les poids du modèle pour changer le comportement, le style ou le format. Une règle empirique utile : RAG concerne ce que le modèle devrait savoir ; le fine-tuning concerne comment le modèle devrait agir.

Optez pour RAG quand vos connaissances changent souvent, sont volumineuses ou privées, ou doivent être citées — docs produit, tickets d'assistance, contrats, un wiki interne. Vous pouvez mettre à jour la base de connaissances instantanément sans toucher au modèle. Optez pour le fine-tuning quand vous avez besoin d'un format de sortie cohérent, d'un ton ou d'un comportement de tâche étroit que le prompt seul ne peut pas fiably imposer. Les deux ne s'excluent pas mutuellement — de nombreux systèmes de production utilisent le fine-tuning pour le comportement et RAG pour les faits.

Nous comparons les compromis, les coûts et les modes d'échec en détail dans RAG vs fine-tuning : quand chacun gagne.

Utilisez RAG quand : Les connaissances changent souvent, sont volumineuses ou privées, ou doivent être citées ; vous avez besoin de réponses fondées sur des documents spécifiques ; vous voulez mettre à jour les faits sans réentraînement.
Utilisez le fine-tuning quand : Vous avez besoin d'un format cohérent, d'un ton ou d'un comportement étroit ; la tâche est stable ; le prompt seul ne peut pas fiably imposer la forme de sortie que vous exigez.


Que signifie RAG pour mes prompts ?

RAG change la structure du prompt. Votre prompt a maintenant trois parties : les instructions, le contexte récupéré et la question de l'utilisateur. Gardez-les clairement séparées avec des délimiteurs (en-têtes, balises de style XML ou backticks triples) pour que le modèle puisse distinguer ses instructions des données fournies — cela réduit également le risque d'injection à partir de documents non fiables.

Dites au modèle de répondre uniquement à partir du contexte fourni et de dire quand la réponse n'y est pas. Une instruction de secours comme « Si le contexte ne contient pas la réponse, dites que vous ne savez pas » est ce qui empêche un système fondé de silencieusement inventer des faits. Demander des citations renvoyant aux passages utilisés rend les réponses vérifiables.

Voici un squelette minimal de prompt pour réponse fondée :

``` Vous êtes un assistant d'assistance clientèle. Répondez UNIQUEMENT en utilisant le contexte ci-dessous. Si la réponse ne se trouve pas dans le contexte, dites « Je n'ai pas cette information ». Citez le numéro du passage source pour chaque affirmation. Contexte : [1] {retrieved_passage_1} [2] {retrieved_passage_2} Question : {user_question} ```


Quels sont les modes d'échec courants ?

La plupart des problèmes RAG sont des problèmes de récupération, pas des problèmes de génération. Si le bon passage n'est jamais récupéré, le modèle ne peut pas répondre correctement peu importe la qualité du prompt — la qualité de la récupération (stratégie de chunking, modèle d'embedding et nombre de passages que vous extrayez) est donc là où se concentrent la plupart des efforts d'ajustement.

Autres problèmes fréquents : des chunks trop volumineux pour être précis ou trop petits pour avoir du sens ; trop de texte récupéré encombrant la question ou enfouissant le passage pertinent dans un long contexte ; et faire confiance aveuglément au contenu récupéré, ce qui ouvre la porte à l'injection de prompt si vos sources ne sont pas fiables. Les instructions de fondation, les citations et une récupération serrée sont les défenses standard.

Frequently Asked Questions

Qu'est-ce que RAG en termes simples ?

Retrieval-Augmented Generation récupère les documents les plus pertinents pour une question et les insère dans le prompt, permettant au modèle de répondre à partir de cette preuve fournie plutôt que de sa mémoire d'entraînement. Cela réduit les hallucinations et rend les réponses traçables aux sources.

En quoi RAG est-il différent du fine-tuning ?

RAG injecte des connaissances dans le prompt au moment de la requête ; le fine-tuning change les poids du modèle pour modifier le comportement ou le style. RAG concerne ce que le modèle devrait savoir ; le fine-tuning concerne comment il devrait agir. Voir RAG vs fine-tuning : quand chacun gagne.

RAG arrête-t-il les hallucinations ?

Cela les réduit considérablement en fondant les réponses dans le texte fourni, mais cela ne les élimine pas. Vous avez toujours besoin d'instructions pour répondre uniquement à partir du contexte fourni, une solution de secours pour les réponses manquantes, et une bonne récupération pour que les bons passages soient réellement présents.

Qu'est-ce qu'un embedding dans RAG ?

Un embedding est un vecteur numérique qui représente le sens d'un morceau de texte. RAG encode à la fois vos documents et la question de l'utilisateur, puis utilise la similarité vectorielle pour trouver les passages les plus pertinents pour la question.

Pourquoi le chunking est-il important ?

Le chunking divise les documents en passages suffisamment petits pour être récupérés avec précision mais suffisamment volumineux pour avoir du sens. La taille des chunks affecte fortement la qualité de la récupération, qui est le goulot d'étranglement le plus courant dans un système RAG.

RAG peut-il être attaqué ?

Oui. Si les documents récupérés ne sont pas fiables, des instructions cachées à l'intérieur peuvent détourner le modèle — une forme d'injection de prompt, classée comme le risque principal du OWASP LLM Top 10. Séparez les instructions des données avec des délimiteurs et traitez le contenu récupéré comme non fiable.

Ai-je besoin de RAG et du fine-tuning ?

Souvent, oui. De nombreux systèmes de production utilisent le fine-tuning pour un comportement et un ton cohérents, puis utilisent RAG pour fournir les faits actuels et privés. Ils résolvent des problèmes différents et se combinent bien. Le guide DAIR.ai couvre les deux.

Construisez des prompts fondés et citables

Structurez clairement les instructions, le contexte et les questions avec nos générateurs de prompts.

Browse all prompt tools →

Bibliothèque de prompts gratuite — plus de 100 prompts prêts à copier

Une sélection de prompts chaque semaine pour ChatGPT, Claude, Midjourney et DALL·E. Sans spam. Désinscription en un clic.

Sans spam. Un e-mail par semaine. Plus de ~12 000 utilisateurs de prompts déjà inscrits.