Glossar · KI & LLMs

Embedding

Numerischer Vektor (typischerweise 768-3 072 Dimensionen), der die semantische Bedeutung eines Textes so kodiert, dass ähnliche Inhalte ähnliche Vektoren bekommen.

Definition

Ein Embedding-Modell (OpenAI text-embedding-3-large, Cohere, BGE, Voyage) wandelt einen Text in einen hochdimensionalen Vektor um. Texte, die thematisch oder inhaltlich nah beieinander liegen, landen im Vektorraum nah beieinander — gemessen meist per Cosine Similarity.

Das ist die Grundlage für semantische Suche: Statt nach Keyword-Matches zu suchen, vergleichst du Vektoren. Eine Frage wie 'Wie storniere ich mein Abo?' findet auch den Helpdoc 'Kündigung der Mitgliedschaft', obwohl kein Wort identisch ist.

Wichtige Eigenschaften: Embeddings sind modell-spezifisch (Vektoren aus Modell A sind nicht mit B vergleichbar), sprach-abhängig (multilinguale Modelle bevorzugt für DE-Content), und nicht reversibel — du kannst aus dem Vektor den Originaltext nicht rekonstruieren.

So nutzen wir das bei adsbird

In jedem RAG-Setup, das wir bauen, ist die Wahl des Embedding-Modells eine Architekturentscheidung mit Folgekosten. Für deutsche Helpdocs nutzen wir meist text-embedding-3-large oder Voyage-3 — bei Re-Embedding (Modellwechsel) müssen wir den kompletten Index neu bauen, das planen wir bewusst ein.

Embedding in deinem Projekt?

Wir bauen damit,
jeden Tag.

Wenn du Embedding in einem konkreten Workflow brauchst — wir haben das wahrscheinlich schon gebaut.

Erstgespräch Alle Begriffe