Glossar · KI & LLMs
Numerischer Vektor (typischerweise 768-3 072 Dimensionen), der die semantische Bedeutung eines Textes so kodiert, dass ähnliche Inhalte ähnliche Vektoren bekommen.
Definition
Ein Embedding-Modell (OpenAI text-embedding-3-large, Cohere, BGE, Voyage) wandelt einen Text in einen hochdimensionalen Vektor um. Texte, die thematisch oder inhaltlich nah beieinander liegen, landen im Vektorraum nah beieinander — gemessen meist per Cosine Similarity.
Das ist die Grundlage für semantische Suche: Statt nach Keyword-Matches zu suchen, vergleichst du Vektoren. Eine Frage wie 'Wie storniere ich mein Abo?' findet auch den Helpdoc 'Kündigung der Mitgliedschaft', obwohl kein Wort identisch ist.
Wichtige Eigenschaften: Embeddings sind modell-spezifisch (Vektoren aus Modell A sind nicht mit B vergleichbar), sprach-abhängig (multilinguale Modelle bevorzugt für DE-Content), und nicht reversibel — du kannst aus dem Vektor den Originaltext nicht rekonstruieren.
So nutzen wir das bei adsbird
In jedem RAG-Setup, das wir bauen, ist die Wahl des Embedding-Modells eine Architekturentscheidung mit Folgekosten. Für deutsche Helpdocs nutzen wir meist text-embedding-3-large oder Voyage-3 — bei Re-Embedding (Modellwechsel) müssen wir den kompletten Index neu bauen, das planen wir bewusst ein.
Verwandte Begriffe
Embedding in deinem Projekt?
Wenn du Embedding in einem konkreten Workflow brauchst — wir haben das wahrscheinlich schon gebaut.