Skip to content

HyDE: Informationssuche mit hypothetischen Dokumenteneinbettungen

Im Bereich der Informationssuchsysteme und Retrieval-Augmented Generation (RAG)-Systeme ist HyDE, oder Hypothetical Document Embeddings, ein echter Durchbruch. Durch die Erstellung detaillierter, hypothetischer Dokumente basierend auf Benutzeranfragen verbessert HyDE den Prozess der Informationssuche und ist besonders nützlich für Aufgaben wie Websuchen, Fragenbeantwortung und Faktenüberprüfung. Dieser Blog untersucht, was HyDE ist, warum Sie es in Betracht ziehen sollten, seine Komponenten und Implementierung, seine Integration mit Frameworks wie LlamaIndex und LangChain und ob es besser ist, HyDE unabhängig zu implementieren oder vorhandene APIs zu nutzen.

Was ist Informationssuche?

Informationssuche (Information Retrieval - IR) beinhaltet das Finden und Extrahieren relevanter Informationen aus großen Datenmengen, um die Anfrage eines Benutzers zu erfüllen. Stellen Sie sich das wie einen digitalen Bibliothekar vor, der genau weiß, wo er das richtige Buch oder den richtigen Abschnitt in einer riesigen Bibliothek findet. In der digitalen Welt durchsuchen IR-Systeme riesige Mengen an Text (wie Webseiten, Dokumente oder Datenbanken), um die relevantesten Informationen zu finden. Die Techniken reichen von einfachem Schlüsselwortabgleich bis hin zu ausgeklügelten Algorithmen, die die Semantik von Anfragen und Dokumenten verstehen. In traditionellen Umgebungen indexieren IR-Systeme wie Suchmaschinen große Datenmengen und verwenden verschiedene Ranking-Algorithmen, um den Benutzern die relevantesten Ergebnisse zu präsentieren. Im Kontext von RAG-Systemen spielt IR jedoch eine doppelte Rolle: Es ruft nicht nur relevante Informationen ab, sondern ergänzt auch die Generierung neuer Inhalte.

Wir unterstützen Sie gerne bei Ihren AI Projekten

Transformieren Sie Ihr Unternehmen mit fortschrittlichen KI-Lösungen, die auf Ihre Bedürfnisse zugeschnitten sind. Treten Sie mit unseren Experten in Kontakt, um Ihre KI-Reise noch heute zu beginnen.

Kontakt aufnehmen

Was versteht man unter Retrieval-Augmented Generation (RAG) im Kontext der Informationssuche?

Retrieval-Augmented Generation, oder RAG, ist ein fortschrittliches System, das die besten Teile der IR mit den Fähigkeiten zur Generierung neuer Texte kombiniert. Stellen Sie sich das wie eine aufgeladene Version der IR vor. Anstatt nur vorhandene Informationen zu finden, kann RAG auch neue, informative Inhalte basierend auf den abgerufenen Daten erstellen. Es verbessert die Qualität und Relevanz der Ausgaben großer Sprachmodelle (LLM), indem es ihnen eine benutzerdefinierte Wissensbasis zur Verfügung stellt. RAG-Systeme kombinieren retrieval-basierte Methoden und generative Modelle für verschiedene Anwendungen wie Chatbots, virtuelle Assistenten und automatisierte Inhaltserstellungstools.

Was ist HyDE (Hypothetical Document Embeddings)?

HyDE, eingeführt in einem Papier von Gao et al., ist ein neuartiger Ansatz zur dichten Suche, bei dem Dokumente anhand semantischer Einbettungsähnlichkeiten abgerufen werden. Bei der Suche nach Informationen in einer Wissensdatenbank verlassen sich Retrieval-Algorithmen typischerweise auf Beispiele dafür, wie gute Übereinstimmungen aussehen (Relevanzetiketten). In Zero-Shot-Retrieval-Szenarien sind jedoch keine solchen Beispiele verfügbar. HyDE löst dieses Problem, indem es zwei Hauptwerkzeuge verwendet: ein „Sprachmodell“ und einen „kontrastiven Encoder“. Wenn Sie eine Frage stellen, verwendet HyDE ein Sprachmodell (wie InstructGPT), um ein hypothetisches Dokument zu erstellen, das für die Frage relevant ist. Dieses Dokument wird dann vom kontrastiven Encoder (wie Contriever) verarbeitet, der es in einen Einbettungsvektor umwandelt, der die Kernbedeutung des Dokuments erfasst. Dieser Vektor wird verwendet, um eine Sammlung echter Dokumente zu durchsuchen und diejenigen zu finden, die dem hypothetischen Dokument ähneln. Trotz fehlender Beispiele kann HyDE sehr gut abschneiden und findet oft genaue Übereinstimmungen für eine Vielzahl von Fragen und Sprachen. Es wird für verschiedene Aufgaben wie Websuchen, Fragenbeantwortung und Faktenüberprüfung in mehreren Sprachen verwendet.

Wir setzen Ihre KI-Ideen um

Stärken Sie Ihr Unternehmen mit maßgeschneiderter KI-Technologie. Unsere Experten sind bereit, Ihre Ideen in umsetzbare Lösungen zu verwandeln.

Kontakt aufnehmen

Warum sollten Sie HyDE verwenden?

When searching using your own words (the query), the IR system looks for documents that match those exact words or similar words, sometimes missing the broader context. HyDE helps by first generating a hypothetical document based on your query, capturing the main ideas and context better than the query alone. The IR system then searches for real documents with similar "fingerprints," improving the chances of finding the best matches.

For instance, if you ask, "What are the long-term effects of climate change on polar bear populations?" a direct search might find documents containing the exact words "long-term effects," "climate change," "polar bear," and "populations," but miss the overall context. HyDE, however, would generate a detailed hypothetical document, such as "The long-term effects of climate change on polar bears include habitat loss due to melting ice, reduced access to prey, and increased stress levels. These factors can lead to declining populations over time." This approach captures the broader context of your query, finds documents based on ideas rather than just words, filters out irrelevant details due to vector embedding, and works well for complex or nuanced queries.

From a technical perspective, HyDE excels in scenarios where no relevance labels are available, making it useful for new or evolving domains with insufficient labeled data. Its adaptability across tasks is another strength, performing robustly in various applications such as web search, question answering, and fact verification. Despite being an unsupervised method, HyDE's performance is comparable to fine-tuned models, avoiding the need for training new models from scratch. This efficiency translates to faster deployment and lower operational costs.

Entfesseln Sie KI-Innovation für Ihr Unternehmen

Lassen Sie sich von unseren KI-Spezialisten dabei helfen, intelligente Lösungen zu entwickeln, die Ihr Unternehmen voranbringen. Kontaktieren Sie uns, um Ihre Vision in die Realität umzusetzen.

Kontakt aufnehmen

HyDE-Implementierung

HyDE kombiniert zwei Hauptkomponenten: ein generatives, anweisungsfolgendes Sprachmodell und einen kontrastiven Encoder. Bei einer Anfrage generiert das Sprachmodell ein hypothetisches Dokument, das die Essenz der Anfrage erfasst. Der kontrastive Encoder wandelt dieses Dokument dann in einen Einbettungsvektor um, der verwendet werden kann, um das Korpus nach ähnlichen echten Dokumenten basierend auf Vektorähnlichkeit zu durchsuchen.

HyDE mit LlamaIndex

LlamaIndex ist ein leistungsstarkes Werkzeug zum Indizieren und Abrufen von Dokumenten. Durch die Integration von HyDE mit LlamaIndex können Sie dessen Indizierungsfähigkeiten nutzen, um große Dokumentensammlungen effizient zu verwalten und zu durchsuchen. Diese Integration kombiniert die Erstellung hypothetischer Dokumente und fortschrittliche Indizierung und bietet eine robuste Lösung für die Informationssuche.

Um HyDE mit LlamaIndex zu nutzen, folgen Sie diesen Schritten:

  1. Dokumentenerstellung: Verwenden Sie HyDE, um hypothetische Dokumente aus Anfragen zu erstellen. Dies beinhaltet die Erstellung relevanter, möglicherweise fiktiver Dokumente, die die Essenz der Anfrage erfassen und die Genauigkeit und Relevanz der Suchergebnisse verbessern.
  2. Indizierung: Verwenden Sie LlamaIndex, um diese hypothetischen Dokumente zusammen mit echten Dokumenten zu indizieren. Dieser Schritt stellt sicher, dass beide Dokumenttypen effizient organisiert und leicht abrufbar sind.
  3. Suche und Abruf: Führen Sie Suchen mit den effizienten Retrieval-Algorithmen von LlamaIndex durch, die durch die verbesserten Dokumentenrelevanzeinbettungen von HyDE ergänzt werden. Diese Kombination verbessert die Genauigkeit und Relevanz der Suchergebnisse.

Hier ist ein Code-Snippet, das zeigt, wie man eine hypothetische Dokumenteneinbettung mit LlamaIndex erstellt:

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.core.indices.query.query_transform import HyDEQueryTransform
from llama_index.core.query_engine import TransformQueryEngine

# Loading the documents
documents = SimpleDirectoryReader("load_some_data_here").load_data()

# Creating a vector store index with the loaded documents
index = VectorStoreIndex.from_documents(documents)

# Setting up the index as the query engine
query_engine = index.as_query_engine()

query_str = "Can you provide me with the history of the world cup?"

# Creating a HyDE query engine from the initial query engine
hyde = HyDEQueryTransform(include_original=True)
hyde_query_engine = TransformQueryEngine(query_engine, hyde)

# Creating HyDE and retrieving from the vector store
response = hyde_query_engine.query(query_str)

print(response)


Die generierte Antwort, die für die semantische Ähnlichkeitssuche verwendet wird:

"The FIFA World Cup is an international association football competition among the senior men's national teams of the members of the Fédération Internationale de Football Association (FIFA), the sport's global governing body. The tournament has been held every four years since the inaugural tournament in 1930, with the exception of 1942 and 1946 due to the Second World War. The first World Cup was held in Uruguay in 1930, and Uruguay became the first nation to win the World Cup. The competition starts with the qualification phase, which takes place over the preceding three years to determine which teams qualify for the tournament phase. In the tournament phase, 32 teams compete for the title at venues within the host nation(s) over the course of about a month. The host nation(s) automatically qualify for the group stage of the tournament. The competition is scheduled to expand to 48 teams, starting with the 2026 tournament. As of the 2022 FIFA World Cup, 22 final tournaments have been held since the event's inception in 1930, and a total of 80 national teams have competed. The trophy has been won by eight national teams. Brazil, with five wins, are the only team to have played in every tournament. The other World Cup winners are Germany and Italy, with four titles each; Argentina, with three titles; France and inaugural winner Uruguay, each with two titles; and England and Spain, with one title each."

 

LlamaIndex vereinfacht den gesamten Prozess, von der Einrichtung des Vektorspeichers bis zur Erstellung von HyDE, Einbettung und Abruf, und macht es zu einem wertvollen Werkzeug für effiziente und effektive Dokumentenindizierungs- und Suchfähigkeiten. Weitere Details und Demos finden Sie in der LlamaIndex-Dokumentation und den Beispielen.

HyDE mit LangChain

LangChain ist ein Framework, das die Bereitstellung großer Sprachmodelle vereinfacht. Die Integration von HyDE mit LangChain ermöglicht eine nahtlose Bereitstellung und Verwaltung der für HyDE erforderlichen Modelle und macht den Prozess einfach und effizient.

Um HyDE mit LangChain zu integrieren, folgen Sie diesen Schritten:

  1. Modellbereitstellung: Stellen Sie die für HyDE erforderlichen Sprach- und Einbettungsmodelle mit der Infrastruktur von LangChain bereit. Dies beinhaltet die Einrichtung der notwendigen Modelle zur Erstellung hypothetischer Dokumente und deren Einbettungen.
  2. Anfragenbearbeitung: Implementieren Sie eine Pipeline in LangChain zur Bearbeitung von Anfragen. Dies umfasst die Erstellung hypothetischer Dokumente basierend auf Anfragen, die Erstellung von Einbettungen für diese Dokumente und den Abruf relevanter Informationen.
  3. Optimierung und Skalierung: Nutzen Sie die Funktionen von LangChain zur Optimierung und Skalierung des Retrieval-Prozesses, um eine robuste Leistung auch bei hoher Belastung sicherzustellen.

Hier ist ein Code-Snippet zur Implementierung von HyDE in LangChain:

from langchain.chains import HypotheticalDocumentEmbedder, LLMChain
from langchain.prompts import PromptTemplate
from langchain_openai import OpenAI, OpenAIEmbeddings

# Initialize language model and embedding model
base_embeddings = OpenAIEmbeddings()
llm = OpenAI()

# Initialize the hypothetical document embedder class
# "web_search" parameter sets the prompt template to be used for generation
embeddings = HypotheticalDocumentEmbedder.from_llm(llm, base_embeddings, "web_search")

# Create HyDE
result = embeddings.embed_query("Can you provide me with the history of the world cup?")


Der Code gibt eine Liste zurück, die Einbettungen der generierten hypothetischen Antwort enthält, die für die semantische Ähnlichkeitssuche verwendet wird. Die Antwort kann angezeigt werden, indem die Funktion embeddings.invoke("Can you provide me with the history of the world cup?") aufgerufen wird. Dies gibt die generierte Antwort aus:

"The FIFA World Cup, often referred to as the 'World Cup', is an international association football tournament contested by the men's national teams of the members of the Fédération Internationale de Football Association (FIFA), the sport's global governing body. The championship has been awarded every four years since the inaugural tournament in 1930, with the exception of 1942 and 1946 when it was not held due to World War II. The tournament consists of two stages: the qualification phase, which takes place over the preceding three years, and the final phase, which is held during a period of about one month. The World Cup has become one of the most widely viewed and followed sporting events in the world, with an estimated 715.1 million people watching the 2018 edition. The tournament has a rich and fascinating history, with its origins dating back to the 1920s when FIFA President Jules Rimet proposed the idea of a global football tournament. The first World Cup was held in Uruguay in 1930, with only 13 teams participating. Since then, the tournament has grown in both size and popularity, with 32 teams currently competing in the final phase. Over the years, the World Cup has witnessed iconic moments and unforgettable matches."

 

LangChain vereinfacht die Integration von HyDE, von der Modellbereitstellung über die Anfragenbearbeitung bis hin zur Optimierung, und macht es zu einem unverzichtbaren Werkzeug für die effiziente Bereitstellung und Verwaltung großer Sprachmodelle.

Ist es besser, HyDE für Ihren eigenen Anwendungsfall zu implementieren oder die API von Frameworks zu nutzen?

Die Entscheidung, ob HyDE unabhängig implementiert oder eine vorhandene API von Frameworks wie LlamaIndex oder LangChain verwendet werden soll, hängt von verschiedenen Faktoren ab:

  • Kontrolle und Anpassung: Die unabhängige Implementierung von HyDE bietet volle Kontrolle und umfangreiche Anpassungsmöglichkeiten, um spezifische Bedürfnisse zu erfüllen. Dies ist ideal für einzigartige Anforderungen oder eine tiefe Integration in bestehende Systeme.
  • Entwicklungszeit und Komplexität: Die Nutzung von APIs aus Frameworks bietet eine einsatzbereite Lösung, die die Entwicklungszeit und Komplexität reduziert. Frameworks übernehmen einen Großteil der Arbeit, was den Einstieg und die Wartung des Systems erleichtert.
  • Wartung und Skalierbarkeit: Die unabhängige Implementierung erfordert laufende Wartungs- und Skalierungsbemühungen. Frameworks übernehmen typischerweise die Skalierbarkeit und Wartung, bieten eingebaute Optimierungen und Unterstützung und entlasten so Ressourcen für andere Aspekte Ihres Projekts.
  • Technische Expertise und Ressourcen: Die unabhängige Implementierung erfordert erhebliche technische Expertise und Ressourcen. Die Nutzung von Framework-APIs senkt die Einstiegshürde und macht fortschrittliche Retrieval-Fähigkeiten für Teams mit begrenzten Ressourcen oder Expertise zugänglich.

Frameworks wie LangChain und LlamaIndex verwenden große Sprachmodelle zur Erstellung hypothetischer Dokumente und nutzen vordefinierte Eingabeaufforderungen, die möglicherweise nicht immer anpassbar sind. Dies kann unpraktisch sein, wenn die generierten Dokumente nicht ideal für Ihren Anwendungsfall sind. Die Erstellung benutzerdefinierter Eingabeaufforderungen klärt spezifische Aufgabenstellungen für das Sprachmodell und verbessert die Qualität der generierten Antworten.

Lassen Sie uns Ihre KI-Vision zum Leben erwecken

Unsere KI-Experten erwecken Ihre Ideen zum Leben. Wir bieten maßgeschneiderte KI-Lösungen, die perfekt auf Ihr Unternehmen abgestimmt sind.

Kontakt aufnehmen
 
Cagdas Davulcu-1

Schlussgedanken

HyDE stellt einen bedeutenden Fortschritt im Bereich der Zero-Shot-Dense-Retrieval dar und bietet eine flexible und effiziente Lösung zum Abrufen relevanter Dokumente, ohne umfangreiche gekennzeichnete Datensätze zu benötigen. Durch die Kombination eines generativen Sprachmodells und eines kontrastiven Encoders passt sich HyDE an verschiedene Aufgaben an und ist wertvoll für Forscher, Entwickler und Unternehmen gleichermaßen.

Die Integration von HyDE mit Frameworks wie LlamaIndex und LangChain kann seine Fähigkeiten weiter verbessern und effiziente Lösungen für Indizierung, Abruf und Bereitstellung bieten. Ob HyDE unabhängig implementiert oder vorhandene APIs genutzt werden sollten, hängt von Ihren spezifischen Bedürfnissen, den verfügbaren Ressourcen und dem gewünschten Maß an Kontrolle und Anpassung ab. Für die Entwicklung von RAG-Anwendungen bleibt HyDE eine leistungsstarke Methode, die den Anforderungen der modernen Informationssuche gerecht wird.