Wie funktioniert RAG?
Eine RAG-Pipeline hat zwei Phasen. Zunächst die Erfassung (vorbereitend): Sie teilen Ihre Quelldokumente in kleinere Passages (Chunking) auf, wandeln jede in ein Embedding um – einen numerischen Vektor, der ihre Bedeutung erfasst – und speichern diese Vektoren in einer Datenbank.
Zweitens der Abruf und die Generierung (zur Abfragezeit): Sie embedden die Frage des Nutzers, finden die semantisch ähnlichsten Passages durch Vektorsuche und fügen diese Passages zusammen mit der Frage in den Prompt ein. Das Modell generiert dann eine auf dem bereitgestellten Text basierende Antwort, idealerweise mit Verweisen auf die Quelle.
Der ganze Sinn besteht darin, dass das Modell auf Grundlage von Belegen antwortet, die Sie in sein Kontextfenster eingefügt haben – nicht auf Grundlage dessen, was es zufällig während des Trainings gelernt hat. Das macht Antworten nachverfolgbar – Sie können zeigen, welche Passage eine Aussage stammt – und hält sie aktuell, ohne dass Umschulung erforderlich ist.