Comment fonctionne RAG ?
Un pipeline RAG comporte deux phases. Premièrement, l'ingestion (effectuée au préalable) : vous divisez vos documents sources en passages plus petits (chunking), convertissez chacun en embedding — un vecteur numérique capturant son sens — et stockez ces vecteurs dans une base de données.
Deuxièmement, la récupération et la génération (au moment de la requête) : vous encodez la question de l'utilisateur, trouvez les passages sémantiquement les plus similaires via une recherche vectorielle, et insérez ces passages dans le prompt aux côtés de la question. Le modèle génère alors une réponse fondée sur le texte fourni, idéalement avec des citations renvoyant à la source.
L'idée est que le modèle répond à partir de preuves que vous avez placées dans sa fenêtre de contexte, pas à partir de ce qu'il a mémorisé lors de l'entraînement. Cela rend les réponses traçables — vous pouvez montrer de quel passage provient une affirmation — et les maintient actuelles sans réentraînement.