Glossar · KI & LLMs

RAG (Retrieval-Augmented Generation)

Architektur, bei der ein LLM zur Antwortzeit externe Dokumente abruft und in den Prompt injiziert, statt sich nur auf sein Trainingswissen zu verlassen.

Definition

RAG kombiniert zwei Komponenten: einen Retriever, der relevante Text-Chunks aus einer Wissensbasis (meist eine Vektor-Datenbank) findet, und einen Generator (das LLM), der diese Chunks zusammen mit der Nutzerfrage als Kontext bekommt. Die Antwort wird also nicht aus dem Modellgewicht halluziniert, sondern aus konkret übergebenen Quellen synthetisiert.

Der typische Flow: Dokumente werden in Chunks geteilt, per Embedding-Modell in Vektoren übersetzt und in einer Vector-DB (Pinecone, Weaviate, pgvector) abgelegt. Bei einer Anfrage wird die Frage selbst embedded, die top-k ähnlichsten Chunks werden gezogen und als Kontext an das LLM gegeben.

Vorteil gegenüber Fine-Tuning: Wissen ist tagesaktuell, Quellen sind zitierbar, und Aktualisierungen kosten keine Trainingsruns, nur ein erneutes Indexieren der veränderten Dokumente.

So nutzen wir das bei adsbird

Wir nutzen RAG immer, wenn ein AI-Agent auf firmeninterne Helpdocs, Notion-Wikis, Slack-Threads oder Produktkataloge zugreifen soll, statt das LLM zu fine-tunen. Beispiel: Support-Agent für ein SaaS, der auf 1 200 Notion-Pages indexiert ist und Antworten mit Quellen-Link zurückgibt.

Verwandte Begriffe

Vector Database → Embedding → LLM (Large Language Model) → Fine-Tuning →

Wo wir RAG im Detail erklären

RAG für interne Firmen-Dokumente: ein Wissensbot, der wirklich antwortet → Custom AI Agent mit Claude: RAG-Setup für Mittelstand, Schritt für Schritt →

RAG (Retrieval-Augmented Generation) in deinem Projekt?

Wir bauen damit,
jeden Tag.

Wenn du RAG in einem konkreten Workflow brauchst, wir haben das wahrscheinlich schon gebaut.

Erstgespräch → Alle Begriffe

RAG (Retrieval-Augmented Generation)

Wir bauen damit,jeden Tag.

Wir bauen damit,
jeden Tag.