AI & Backend

KI-gestützte Wissensdatenbank

Entwicklung einer semantischen Suchmaschine für interne Dokumentationen, die natürliche Sprache versteht und präzise Antworten anstelle von reinen Links liefert.

#Python #FastAPI #Pinecone #OpenAI API

What is semantic search?

[GENERATING ANSWER...]

Semantic search understands the user's
intent and the contextual meaning
of terms, rather than just matching keywords.

Herausforderung

Ineffiziente Suche und veraltete Informationen

Die bestehende Stichwortsuche in der Wissensdatenbank lieferte oft irrelevante Ergebnisse. Mitarbeiter verbrachten Stunden damit, die richtigen Dokumente zu finden.

Schlechte Suchergebnisse

Die Suche funktionierte nur bei exakter Übereinstimmung von Keywords und verstand den Kontext einer Frage nicht.

Hoher manueller Aufwand

Support-Mitarbeiter mussten ständig auf wiederkehrende Fragen antworten, deren Antworten in der Doku vergraben waren.

Veralteter Inhalt

Es gab keinen Prozess, um zu identifizieren, welche Dokumente veraltet waren oder fehlten.

Keine Analyse

Es war unklar, wonach Benutzer am häufigsten suchten und wo die Wissensdatenbank Lücken hatte.

Lösungsansätze

1. Semantische Suche mit Vektor-Embeddings

Wir haben alle Dokumente in kleine Abschnitte zerlegt und mithilfe der OpenAI API in Vektor-Embeddings umgewandelt. Diese Vektoren wurden in der Vektor-Datenbank Pinecone gespeichert, die eine blitzschnelle Ähnlichkeitssuche ermöglicht.

embeddings.py

# Python-Beispiel: Indexierung eines Dokuments
from openai import OpenAI
client = OpenAI()

def get_embedding(text):
    response = client.embeddings.create(
        input=text, model="text-embedding-3-small"
    )
    return response.data[0].embedding

vector = get_embedding("Dokumenten-Abschnitt...")
pinecone_index.upsert(vectors=[("doc1-chunk1", vector)])

2. API und Frontend für natürliche Sprache

Eine FastAPI-Anwendung dient als Backend. Sie nimmt eine Benutzerfrage in natürlicher Sprache entgegen, wandelt sie in ein Embedding um und führt eine Suche in Pinecone durch. Ein einfaches Frontend zeigt die relevantesten Textabschnitte direkt als Antwort an.

Data Chunking

Intelligente Aufteilung von langen Dokumenten in überlappende Abschnitte (Chunks) für präzisere Suchergebnisse.

Embedding Generation

Umwandlung von Text-Chunks in numerische Vektoren (Embeddings), die die semantische Bedeutung erfassen.

Real-time Indexing

Sofortige Indexierung von neuen oder geänderten Dokumenten, um die Wissensdatenbank stets aktuell zu halten.

REST-API Endpunkte

Bereitstellung einer einfachen API, die es anderen internen Tools ermöglicht, die semantische Suche zu nutzen.

Projektstart

Bereit für den nächsten Schritt?

Unverbindlich, strukturiert und ohne Verkaufsdruck

Bereit für den nächsten Schritt?

Beschreiben Sie kurz Ihr Vorhaben. Sie erhalten eine konkrete Ersteinschätzung zu Machbarkeit, Budget und Timeline — in der Regel innerhalb von 24h.

Projekt anfragen Projekt-Finder starten

Antwortgarantie

Ihre Daten sind sicher (DSGVO-konform). Keine Kaltakquise.