Glossar · KI & LLMs

Embedding

Numerischer Vektor (typischerweise 768-3 072 Dimensionen), der die semantische Bedeutung eines Textes so kodiert, dass ähnliche Inhalte ähnliche Vektoren bekommen.

Definition

Ein Embedding-Modell (OpenAI text-embedding-3-large, Cohere, BGE, Voyage) wandelt einen Text in einen hochdimensionalen Vektor um. Texte, die thematisch oder inhaltlich nah beieinander liegen, landen im Vektorraum nah beieinander, gemessen meist per Cosine Similarity.

Das ist die Grundlage für semantische Suche: Statt nach Keyword-Matches zu suchen, vergleichst du Vektoren. Eine Frage wie 'Wie storniere ich mein Abo?' findet auch den Helpdoc 'Kündigung der Mitgliedschaft', obwohl kein Wort identisch ist.

Wichtige Eigenschaften: Embeddings sind modell-spezifisch (Vektoren aus Modell A sind nicht mit B vergleichbar), sprach-abhängig (multilinguale Modelle bevorzugt für DE-Content), und nicht reversibel, du kannst aus dem Vektor den Originaltext nicht rekonstruieren.

So nutzen wir das bei adsbird

In jedem RAG-Setup, das wir bauen, ist die Wahl des Embedding-Modells eine Architekturentscheidung mit Folgekosten. Für deutsche Helpdocs nutzen wir meist text-embedding-3-large oder Voyage-3, bei Re-Embedding (Modellwechsel) müssen wir den kompletten Index neu bauen, das planen wir bewusst ein.

Verwandte Begriffe

RAG (Retrieval-Augmented Generation) → Vector Database → LLM (Large Language Model) →

Wo wir Embedding im Detail erklären

RAG für interne Firmen-Dokumente: ein Wissensbot, der wirklich antwortet → Custom AI Agent mit Claude: RAG-Setup für Mittelstand, Schritt für Schritt →

Embedding in deinem Projekt?

Wir bauen damit,
jeden Tag.

Wenn du Embedding in einem konkreten Workflow brauchst, wir haben das wahrscheinlich schon gebaut.

Erstgespräch → Alle Begriffe

Embedding

Wir bauen damit,jeden Tag.

Wir bauen damit,
jeden Tag.