Glossar · KI & LLMs

RAG (Retrieval-Augmented Generation)

Architektur, bei der ein LLM zur Antwortzeit externe Dokumente abruft und in den Prompt injiziert, statt sich nur auf sein Trainingswissen zu verlassen.

Definition

RAG kombiniert zwei Komponenten: einen Retriever, der relevante Text-Chunks aus einer Wissensbasis (meist eine Vektor-Datenbank) findet, und einen Generator (das LLM), der diese Chunks zusammen mit der Nutzerfrage als Kontext bekommt. Die Antwort wird also nicht aus dem Modellgewicht halluziniert, sondern aus konkret übergebenen Quellen synthetisiert.

Der typische Flow: Dokumente werden in Chunks geteilt, per Embedding-Modell in Vektoren übersetzt und in einer Vector-DB (Pinecone, Weaviate, pgvector) abgelegt. Bei einer Anfrage wird die Frage selbst embedded, die top-k ähnlichsten Chunks werden gezogen und als Kontext an das LLM gegeben.

Vorteil gegenüber Fine-Tuning: Wissen ist tagesaktuell, Quellen sind zitierbar, und Aktualisierungen kosten keine Trainingsruns — nur ein erneutes Indexieren der veränderten Dokumente.

So nutzen wir das bei adsbird

Wir nutzen RAG immer, wenn ein AI-Agent auf firmeninterne Helpdocs, Notion-Wikis, Slack-Threads oder Produktkataloge zugreifen soll — statt das LLM zu fine-tunen. Beispiel: Support-Agent für ein SaaS, der auf 1 200 Notion-Pages indexiert ist und Antworten mit Quellen-Link zurückgibt.

RAG (Retrieval-Augmented Generation) in deinem Projekt?

Wir bauen damit,
jeden Tag.

Wenn du RAG in einem konkreten Workflow brauchst — wir haben das wahrscheinlich schon gebaut.

Erstgespräch Alle Begriffe