Skip to contentNew: Does ChatGPT recommend your brand? Free 60-second AI visibility check →
Von The DDH Team · Digital Dashboard Hub

Was ist RAG (Retrieval-Augmented Generation)? (2026)

RAG verankert ein Modell zur Abfragezeit in Ihren eigenen Dokumenten – der Standard, um ein LLM Fakten beantworten zu lassen, die es nie gelernt hat.

By DDH Research Team at Digital Dashboard HubUpdated

RAG (Retrieval-Augmented Generation) ist eine Technik, die relevante Dokumente zur Abfragezeit abruft und sie in den Prompt einfügt, sodass das Modell auf Basis bereitgestellter Belege antwortet – nicht nur auf Grundlage seines Trainingswissens. Dies ist der Standard, um ein Modell in privates, aktuelles oder spezialisiertes Wissen zu verankern, das es während des Trainings nie gesehen hat – und reduziert Halluzinationen erheblich.

Anstatt zu hoffen, dass das Modell die Antwort ‚kennt', rufen Sie die richtigen Quellpassagen ab und übergeben sie zusammen mit der Frage. Für eine ausführlichere Behandlung des Verfahrens ist der DAIR.ai Prompt Engineering Guide ein hervorragendes kostenlose Referenz.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card.

RAG vs Fine-Tuning auf einen Blick

Feature
RAG
Fine-Tuning
Am besten fürWissen / Fakten injizierenVerhalten, Stil, Format ändern
Wissen aktualisierenSofort – Datenspeicher bearbeitenErfordert Umschulung
Zitate möglich
VorabkostenNiedriger (Pipeline erstellen)Höher (Trainings-Durchlauf + Daten)
Token-Kosten pro AufrufHöher (Kontext bei jedem Aufruf enthalten)Niedriger (Wissen in Gewichten)
Verarbeitet private/sich ändernde Daten

Allgemeine Anleitung; kombinieren Sie beide in vielen Produktionssystemen. Technik-Referenz: DAIR.ai Prompt Engineering Guide (https://www.promptingguide.ai/). Verifiziert Juni 2026.

Wie funktioniert RAG?

Eine RAG-Pipeline hat zwei Phasen. Zunächst die Erfassung (vorbereitend): Sie teilen Ihre Quelldokumente in kleinere Passages (Chunking) auf, wandeln jede in ein Embedding um – einen numerischen Vektor, der ihre Bedeutung erfasst – und speichern diese Vektoren in einer Datenbank.

Zweitens der Abruf und die Generierung (zur Abfragezeit): Sie embedden die Frage des Nutzers, finden die semantisch ähnlichsten Passages durch Vektorsuche und fügen diese Passages zusammen mit der Frage in den Prompt ein. Das Modell generiert dann eine auf dem bereitgestellten Text basierende Antwort, idealerweise mit Verweisen auf die Quelle.

Der ganze Sinn besteht darin, dass das Modell auf Grundlage von Belegen antwortet, die Sie in sein Kontextfenster eingefügt haben – nicht auf Grundlage dessen, was es zufällig während des Trainings gelernt hat. Das macht Antworten nachverfolgbar – Sie können zeigen, welche Passage eine Aussage stammt – und hält sie aktuell, ohne dass Umschulung erforderlich ist.


Wann sollte ich RAG statt Fine-Tuning nutzen?

Diese lösen unterschiedliche Probleme. RAG injiziert Wissen – Fakten, Dokumente, Richtlinien – zur Abfragezeit in den Prompt. Fine-Tuning passt die Gewichte des Modells an, um Verhalten, Stil oder Format zu verändern. Eine hilfreiche Faustregel: RAG ist für das, was das Modell wissen soll; Fine-Tuning ist für die Art, wie es sich verhalten soll.

Nutzen Sie RAG, wenn sich Ihr Wissen oft ändert, umfangreich oder privat ist oder zitiert werden muss – Produktdokumentation, Support-Tickets, Verträge, ein internes Wiki. Sie können die Wissensbasis sofort aktualisieren, ohne das Modell zu ändern. Nutzen Sie Fine-Tuning, wenn Sie ein konsistentes Ausgabeformat, einen einheitlichen Ton oder ein enges Aufgabenverhalten benötigen, das Prompting allein nicht zuverlässig durchsetzen kann. Die beiden schließen sich nicht gegenseitig aus – viele Produktionssysteme nutzen Fine-Tuning für Verhalten und RAG für Fakten.

Wir vergleichen die Kompromisse, Kosten und Fehlerquellen ausführlich in RAG vs Fine-Tuning: Wann jedes gewinnt.

RAG verwenden, wenn: Wissen sich oft ändert, umfangreich oder privat ist oder zitiert werden muss; Sie Antworten benötigen, die in spezifischen Dokumenten verankert sind; Sie Fakten aktualisieren wollen, ohne umzuschulen.
Fine-Tuning verwenden, wenn: Sie konsistentes Format, einheitlichen Ton oder enges Verhalten benötigen; die Aufgabe stabil ist; Prompting allein die erforderliche Ausgabeform nicht zuverlässig durchsetzen kann.


Was bedeutet RAG für meine Prompts?

RAG ändert die Prompt-Struktur. Ihr Prompt hat jetzt drei Teile: Anweisungen, der abgerufene Kontext und die Frage des Nutzers. Halten Sie sie klar getrennt durch Trennzeichen (Überschriften, XML-ähnliche Tags oder Triple-Backticks), damit das Modell seine Anweisungen von den bereitgestellten Daten unterscheiden kann – dies reduziert auch das Risiko von Injection durch nicht vertrauenswürdige Dokumente.

Teilen Sie dem Modell mit, dass es nur aus dem bereitgestellten Kontext antworten soll und zu sagen, wenn die Antwort nicht dort vorhanden ist. Eine Fallback-Anweisung wie ‚Wenn der Kontext die Antwort nicht enthält, sagen Sie, dass Sie das nicht wissen' ist das, was verhindert, dass ein verankertes System heimlich Fakten erfindet. Die Anforderung von Verweisen auf die verwendeten Passages macht Antworten überprüfbar.

Hier ist ein minimales Grundgerüst für einen verankerten Antwort-Prompt:

``` Sie sind ein Support-Assistent. Antworten Sie NUR auf Grundlage des folgenden Kontexts. Wenn die Antwort nicht im Kontext vorhanden ist, sagen Sie "Ich habe diese Information nicht". Zitieren Sie die Quell-Passagen-Nummer für jede Aussage. Kontext: [1] {retrieved_passage_1} [2] {retrieved_passage_2} Frage: {user_question} ```


Was sind häufige Fehlerquellen?

Die meisten RAG-Probleme sind Abrufprobleme, nicht Generierungsprobleme. Wenn die richtige Passage nie abgerufen wird, kann das Modell nicht korrekt antworten, egal wie gut der Prompt ist – daher liegt der Fokus der meisten Optimierungen auf der Abrufqualität (Chunking-Strategie, Embedding-Modell und wie viele Passages Sie abrufen).

Weitere häufige Probleme: Chunks, die zu groß für Präzision oder zu klein zur Bedeutungsvermittlung sind; zu viel abgerufener Text, der die Frage überflutet oder die relevante Passage in einem langen Kontext verbirgt; und blindes Vertrauen in abgerufene Inhalte, was Prompt-Injection öffnet, wenn Ihre Quellen nicht vertrauenswürdig sind. Verankerungsanweisungen, Zitate und präziser Abruf sind die Standard-Abwehrmechanismen.

Frequently Asked Questions

Was ist RAG in einfachen Worten?

Retrieval-Augmented Generation ruft die relevantesten Dokumente zu einer Frage ab und platziert sie im Prompt, sodass das Modell auf Grundlage dieser bereitgestellten Belege antwortet – nicht auf Grundlage seines Trainingswissens. Dies reduziert Halluzinationen und macht Antworten zu Quellen nachverfolgbar.

Wie unterscheidet sich RAG vom Fine-Tuning?

RAG injiziert Wissen zur Abfragezeit in den Prompt; Fine-Tuning ändert die Gewichte des Modells, um Verhalten oder Stil zu verändern. RAG ist für das, was das Modell wissen soll; Fine-Tuning ist für die Art, wie es sich verhalten soll. Siehe RAG vs Fine-Tuning: Wann jedes gewinnt.

Stoppt RAG Halluzinationen?

Es reduziert sie erheblich, indem Antworten auf bereitgestelltem Text verankert werden, eliminiert sie aber nicht völlig. Sie benötigen weiterhin Anweisungen, nur aus dem bereitgestellten Kontext zu antworten, einen Fallback für fehlende Antworten und guten Abruf, damit die richtigen Passages tatsächlich vorhanden sind.

Was ist ein Embedding in RAG?

Ein Embedding ist ein numerischer Vektor, der die Bedeutung eines Textstücks darstellt. RAG embeddet sowohl Ihre Dokumente als auch die Frage des Nutzers und nutzt dann Vektorähnlichkeit, um die zur Frage relevantesten Passages zu finden.

Warum ist Chunking wichtig?

Chunking teilt Dokumente in Passages auf, die präzise abrufbar sind, aber groß genug, um Bedeutung zu tragen. Die Chunk-Größe beeinflusst die Abrufqualität stark, die der häufigste Engpass in einem RAG-System ist.

Kann RAG angegriffen werden?

Ja. Wenn abgerufene Dokumente nicht vertrauenswürdig sind, können versteckte Anweisungen darin das Modell entführen – eine Form von Prompt-Injection, die das Top-Risiko in der OWASP LLM Top 10 ist. Trennen Sie Anweisungen von Daten durch Trennzeichen und behandeln Sie abgerufene Inhalte als nicht vertrauenswürdig.

Benötige ich sowohl RAG als auch Fine-Tuning?

Oft ja. Viele Produktionssysteme nutzen Fine-Tuning für konsistentes Verhalten und Ton und dann RAG, um aktuelle, private Fakten bereitzustellen. Sie lösen unterschiedliche Probleme und kombinieren sich gut. Der DAIR.ai Guide behandelt beide.

Erstellen Sie verankerte, zitierbare Prompts

Strukturieren Sie Anweisungen, Kontext und Fragen sauber mit unseren Prompt-Buildern.

Browse all prompt tools →

Kostenlose Prompt-Bibliothek — 100+ Copy-Paste-Prompts

Wöchentlich handverlesene Prompts für ChatGPT, Claude, Midjourney und DALL·E. Kein Spam. Jederzeit abmeldbar.

Kein Spam. Eine E-Mail pro Woche. Bereits ~12.000 Prompt-Autoren angemeldet.