Digitale Bibliotheken - Forschung und Entwicklung

Konzeption, Implementierung und Evaluation eines intuitiv bedienbaren Rechercheassistenten für die Literaturrecherche, basierend auf einer neuartigen Fuzzy-Suchmethodik

Antragsteller und Projektpartner Universitätsbibliothek Bielefeld
gemeinsam mit:
Universität Bielefeld / Lehrstuhl für Technische Informatik
Projektbezeichnung Konzeption, Implementierung und Evaluation eines intuitiv bedienbaren Rechercheassistenten für die Literaturrecherche, basierend auf einer neuartigen Fuzzy-Suchmethodik
Förderinstitution Deutsche Forschungsgemeinschaft
Förderprogramm Bibliotheksförderprogramm "Modernisierung und Rationalisierung in wissenschaftlichen Bibliotheken" Merkblatt (Vordruck 1.50)
Laufzeit 1999 - 2001
Kurzcharakterisierung, ggf. Bezug zu Vorgängerprojekten Die Rechercheinfrastruktur der wissenschaftlichen Bibliotheken ist gegenwärtig einer Reihe von Veränderungen unterworfen. Zum einen wird in immer stärkerem Maße Netzwerktechnologie eingesetzt, etwa um Datenbanken in Kooperation mit anderen zu betreiben, oder um externe Kataloge anzubieten, z.B. von wissenschaftlichen Verlagen. Es steigt aber nicht nur die Zahl der eingesetzten Datenbankquellen, sondern auch deren typisches Datenvolumen. Werden etwa Nachweise oder Volltexte von Einzelartikeln in wissenschaftlichen Zeitschriften integriert, so kann die Datenbankgröße leicht in den Bereich von einigen Millionen Dateneinträgen steigen. Zum Dritten sind die heutigen Retrievalsysteme der Bibliothe-ken typischerweise mit WWW-Schnittstellen versehen worden, so daß sie nun potentiell weltweiten Zugriff eröffnen. Diese Entwicklungen bedingen neue Anforderungen an Retrievalsysteme:

die sehr großen Datenbanken, die gegenwärtig durch Nachweise auf einzelne Zeitschriftenartikel erweitert werden und in der nahen Zukunft auch wissenschaftlich relevante Teile des WWW (World-Wide Web) umfassen werden, haben zu einem Anstieg in der Größe der Trefferlisten von Suchanfragen geführt, und einem entsprechenden Verlust an Klarheit und Nützlichkeit der Retrievalergebnisse.

die steigende Zahl verfügbarer Retrievalsysteme bedeutet nicht nur eine zunehmende Masse recherchierbarer Information; es ist auch der damit einhergehende Zuwachs an Verschiedenheit oder Heterogenität der Datenbankquellen, die zu neuen Problemen führt. Um die von den Quellen angebotene Information in vollem Umfang zu nutzen, müßte ein Benutzer derzeit noch eine Vielzahl individueller Retrievalsysteme recherchieren, die sich in Benutzerschnittstelle, Anfragesyntax, verfügbaren Indexierungsfeldern und Ergebnisdarstellung unterscheiden können.

der WWW-Zugang über `passive' HTML-Formulare hat einen Verlust an Interaktivität bewirkt. Besser wäre, die Interaktion des Benutzer mit dem Retrievalsystem genauso effizient und kooperativ zu realisieren, wie diese es von modernen Office-Programmen auf ihrem PC gewohnt sind.

INTEGRATIONSARCHITEKTUR. Der Rechercheassistent wird den Zugang zu einem komplexen System mehrerer, möglicherweise sehr heterogener Informationsquellen in einer solchen Weise vermitteln, daß die Illusion einer lokalen Datenbank mit reichem Informationsangebot entsteht. Bei üblichen Meta-Suchmaschinen, welche die Benutzeranfrage als ganzes in entsprechende Anfragen an die zugrundeliegenden Quellen transformieren, kann nur die Schnittmenge der Funktionalität genutzt werden, die von allen betrachteten Systemen unterstützt wird. Um dies zu vermeiden, zerlegt der Rechercheassistent die Benutzeranfragen in elementare Teilanfragen (üblicherweise nach einem einzelnen Suchbegriff). Es ist dann die nachfolgende Aggregation der Ergebnisse dieser Teilanfragen, durch welche die Retrievalqualität des Gesamtsystems verbessert wird. Die Dekompositionsstrategie erlaubt es dem Rechercheassistenten insbesondere, mächtige Fuzzy-Suchoptionen zu unterstützen -- obwohl die zugrundeliegenden Datenquellen auf traditioneller boolescher Indexierung und booleschen Anfragen basieren. Das tatsächliche Ausmaß, in dem die Recherchequalität durch diese Strategie verbessert werden kann, hängt entscheidend von den gewählten Aggregationsmethoden ab: diese müssen ausdrucksstark sein, aber gleichzeitig leicht verständlich, um ihr Potential unter Realanforderungen zu entfalten.

FUZZY-METHODEN FÜR DIE GEWICHTETE AGGRE-GATION. Das boolesche Retrievalmodell, welches zweiwertige Dokumentbewertungen unter den Konnektiven UND, ODER und NICHT kombiniert, ist immer noch vorherrschend in bibliographischen Retrievalsystemen. Der Rechercheassistent erstrebt eine Ver-besserung gegenüber diesem Modell (und alternativen Ansätzen), indem ein reiches Repertoire von Aggregationsoperatoren bereitgestellt wird, auch ``weichere'' bzw. mehr ``holistische'' Kriterien ausdrücken können. Um die Benutzer nicht durch die Fülle von Ausdrucksmöglichkeiten zu überfordern, müssen die neuen Suchoperatoren immer noch leicht zu verstehen und anzuwenden sein. Der Rechercheassistent wird diese Anforderung dadurch erfüllen, daß ausschließlich natürlichsprachliche Aggregationsoperatoren modelliert werden, die dann für Recherchezwecke in derselben Weise wie in der Alltagssprache angewendet werden können. Eine geeignete Klasse von Operatoren bilden die approximativen quantifizierenden Ausdrücke (Fuzzy-Quantoren) wie z.B. FAST ALLE, VIELE, EIN PAAR. Diese sind zweidimensionale Aggregationsoperatoren und daher besonders nützlich für die gewichtete Aggregationsprobleme. Beispielsweise entspricht das Suchkriterium

``Fast alle benutzerrelevanten Suchbegriffe sind dokumentrelevant''

der Auswertung von FAST ALLE(W,R), wobei FAST ALLE ein Fuzzy-Quantor ist, W eine Fuzzy-Menge, welche die Suchbegriff-Benutzer-Relevanz ausdrückt, und R eine Fuzzy-Menge, welche die graduelle Relevanz eines Suchbegriffs in Bezug auf das zu bewertende Dokument beschreibt. Die bestehenden Ansätze zur Fuzzy-Quantifikation können in bestimmten Fällen kontraintuitive Ergebnisse produzieren. Der Rechercheassistent wird daher einen neuen Ansatz zur Fuzzy-Quantifikation nutzen (DFS-Theorie), welcher sich auf ein axiomatisches Modell stützt und daher unplausible Ergebnisse wie diejenigen der bestehenden Ansätze von vorneherein ausschließen kann.

SKALIERBARE MEHRSCHICHTEN-ARCHITEKTUR. Alle Schnittstellen des Rechercheassistenten werden auf Grundlage des CORBA-Standards (Common Object Request Broker Archi-tecture) spezifiziert und implementiert. Dadurch kann das System in verteilter Komponententechnologie aufgebaut werden, d.h. weitgehend unabhängig von (vernetztem) Rechnerstandort, Programmiersprachen und Plattformen. Aus technischer Sicht erlaubt die Verwendung von CORBA eine nahtlose Integration neuer Datenquellen (durch neue Wrapper) sowie neuer Typen von Clients (z.B. Mehrwertdienste) und garantiert dadurch die gewünschte Offenheit und Erweiterbarkeit des Systems. Insbesondere aber wird die Verwendung von CORBA die Konstruktion einer skalierbaren Mehrschichtenarchitektur gestatten und die Integration von Lastverteilungsmechanismen. Der Rechercheassistent soll gegliedert werden in ein `Thin User Frontend', das die graphische Benutzeroberfläche umsetzt, den `Fuzzy Query Interpreter', der die rechnerisch aufwendige Ergebnisaggregation durchführt, die `Wrapper', welche Suchanfragen in Anfragen an die Datenbankquellen übersetzen, und zuletzt die eigentlichen Datenbankserver, die Dokumentnachweise und ggf. Volltexte verwalten. Der Einsatz einer getrennten Komponente für die Anfragezerlegung und Fuzzy-Aggregation entlastet sowohl die Clients (Benutzerseite) als auch die Datenbankserver. Beliebig viele Instanzen des Fuzzy Query Interpreters können auf beliebig vielen Host-Rechnern betrieben werden, um die Anforderungen an die Antwortzeit auch unter Multi-User-Bedingungen zu erfüllen.

EVALUATION. Bei Entwurf und Implementierung der Rechercheassistenten wird das Augenmerk darauf liegen, typische Schwachstellen von Fuzzy-Retrievalsystemen zu vermeiden und alle erreichten Verbesserungen zu evaluieren. Im Hinblick auf Skalierbarkeit werden diejenigen Techniken des Fuzzy-Retrievals ausgeschlossen, die rechnerisch zu aufwendig wären (beispielsweise linguistische Terme); zudem wird das System eine Mehrschichtenarchitektur haben, die eine Lastverteilung ermöglicht. Die Skalierbarkeit des Rechercheassistenten soll anhand eines Datensatzes mit mehr als 20 Millionen Dokumentnachweisen evaluiert werden. Die Benutzerfreundlichkeit des Systems wird gesichert durch die ausdruckstarken, aber leicht verständlichen Fuzzy-Suchoperatoren, welche die Ausdrucksmöglichkeiten der Alltagssprache nachbilden. Im Unterschied zu `passiven' HTML-Suchformularen wird die Benutzung von Java-Technologie den Entwurf einer graphischen Benutzeroberfläche unter Ergonomiekriterien gestatten, beispielsweise durch aktive Benutzerunterstützung im Anfrageprozeß. Die Bedienbarkeit des Systems wird durch Benutzer-Interviews evaluiert. Der Rechercheassistent ist als Gesamtsystem ausgelegt, das mehrere Datenbanken umfaßt, zusätzlich aber auch weitere Dienste einbetten kann, z.B. den elektronischen Dokumentbestell- und -lieferdienst JASON. Offenheit und Interoperabilität werden durch die Nutzung neuster Schnittstellentehnologie erreicht; sie werden evaluiert durch die beispielhafte Integration heterogener Datenbanken. Beim Entwurf des Rechercheassistenten wird besondere Aufmerksamkeit der Bereitstellung einer mathematisch fundierten Retrievalmethodik gewidmet, um Schwierigkeiten mit gewichtetem Retrieval von vorneherein auszuschließen. Diese formale Analyse wird ergänzt durch einen statistischen Vergleich zu anderen Ansätzen für das gewichtete Retrieval, der auf standardisierten Testdaten basieren wird.
Ansprechpartner Dr. Karl Wilhelm Neubauer
Universitätsbibliothek
Universitätsstraße 25
33615 Bielefeld
URL - -

Stand: Oktober 1999

Antragsteller und Projektpartner	Universitätsbibliothek Bielefeld gemeinsam mit: Universität Bielefeld / Lehrstuhl für Technische Informatik
Projektbezeichnung	Konzeption, Implementierung und Evaluation eines intuitiv bedienbaren Rechercheassistenten für die Literaturrecherche, basierend auf einer neuartigen Fuzzy-Suchmethodik
Förderinstitution	Deutsche Forschungsgemeinschaft
Förderprogramm	Bibliotheksförderprogramm "Modernisierung und Rationalisierung in wissenschaftlichen Bibliotheken" Merkblatt (Vordruck 1.50)
Laufzeit	1999 - 2001
Kurzcharakterisierung, ggf. Bezug zu Vorgängerprojekten	Die Rechercheinfrastruktur der wissenschaftlichen Bibliotheken ist gegenwärtig einer Reihe von Veränderungen unterworfen. Zum einen wird in immer stärkerem Maße Netzwerktechnologie eingesetzt, etwa um Datenbanken in Kooperation mit anderen zu betreiben, oder um externe Kataloge anzubieten, z.B. von wissenschaftlichen Verlagen. Es steigt aber nicht nur die Zahl der eingesetzten Datenbankquellen, sondern auch deren typisches Datenvolumen. Werden etwa Nachweise oder Volltexte von Einzelartikeln in wissenschaftlichen Zeitschriften integriert, so kann die Datenbankgröße leicht in den Bereich von einigen Millionen Dateneinträgen steigen. Zum Dritten sind die heutigen Retrievalsysteme der Bibliothe-ken typischerweise mit WWW-Schnittstellen versehen worden, so daß sie nun potentiell weltweiten Zugriff eröffnen. Diese Entwicklungen bedingen neue Anforderungen an Retrievalsysteme: die sehr großen Datenbanken, die gegenwärtig durch Nachweise auf einzelne Zeitschriftenartikel erweitert werden und in der nahen Zukunft auch wissenschaftlich relevante Teile des WWW (World-Wide Web) umfassen werden, haben zu einem Anstieg in der Größe der Trefferlisten von Suchanfragen geführt, und einem entsprechenden Verlust an Klarheit und Nützlichkeit der Retrievalergebnisse. die steigende Zahl verfügbarer Retrievalsysteme bedeutet nicht nur eine zunehmende Masse recherchierbarer Information; es ist auch der damit einhergehende Zuwachs an Verschiedenheit oder Heterogenität der Datenbankquellen, die zu neuen Problemen führt. Um die von den Quellen angebotene Information in vollem Umfang zu nutzen, müßte ein Benutzer derzeit noch eine Vielzahl individueller Retrievalsysteme recherchieren, die sich in Benutzerschnittstelle, Anfragesyntax, verfügbaren Indexierungsfeldern und Ergebnisdarstellung unterscheiden können. der WWW-Zugang über `passive' HTML-Formulare hat einen Verlust an Interaktivität bewirkt. Besser wäre, die Interaktion des Benutzer mit dem Retrievalsystem genauso effizient und kooperativ zu realisieren, wie diese es von modernen Office-Programmen auf ihrem PC gewohnt sind. INTEGRATIONSARCHITEKTUR. Der Rechercheassistent wird den Zugang zu einem komplexen System mehrerer, möglicherweise sehr heterogener Informationsquellen in einer solchen Weise vermitteln, daß die Illusion einer lokalen Datenbank mit reichem Informationsangebot entsteht. Bei üblichen Meta-Suchmaschinen, welche die Benutzeranfrage als ganzes in entsprechende Anfragen an die zugrundeliegenden Quellen transformieren, kann nur die Schnittmenge der Funktionalität genutzt werden, die von allen betrachteten Systemen unterstützt wird. Um dies zu vermeiden, zerlegt der Rechercheassistent die Benutzeranfragen in elementare Teilanfragen (üblicherweise nach einem einzelnen Suchbegriff). Es ist dann die nachfolgende Aggregation der Ergebnisse dieser Teilanfragen, durch welche die Retrievalqualität des Gesamtsystems verbessert wird. Die Dekompositionsstrategie erlaubt es dem Rechercheassistenten insbesondere, mächtige Fuzzy-Suchoptionen zu unterstützen -- obwohl die zugrundeliegenden Datenquellen auf traditioneller boolescher Indexierung und booleschen Anfragen basieren. Das tatsächliche Ausmaß, in dem die Recherchequalität durch diese Strategie verbessert werden kann, hängt entscheidend von den gewählten Aggregationsmethoden ab: diese müssen ausdrucksstark sein, aber gleichzeitig leicht verständlich, um ihr Potential unter Realanforderungen zu entfalten. FUZZY-METHODEN FÜR DIE GEWICHTETE AGGRE-GATION. Das boolesche Retrievalmodell, welches zweiwertige Dokumentbewertungen unter den Konnektiven UND, ODER und NICHT kombiniert, ist immer noch vorherrschend in bibliographischen Retrievalsystemen. Der Rechercheassistent erstrebt eine Ver-besserung gegenüber diesem Modell (und alternativen Ansätzen), indem ein reiches Repertoire von Aggregationsoperatoren bereitgestellt wird, auch ``weichere'' bzw. mehr ``holistische'' Kriterien ausdrücken können. Um die Benutzer nicht durch die Fülle von Ausdrucksmöglichkeiten zu überfordern, müssen die neuen Suchoperatoren immer noch leicht zu verstehen und anzuwenden sein. Der Rechercheassistent wird diese Anforderung dadurch erfüllen, daß ausschließlich natürlichsprachliche Aggregationsoperatoren modelliert werden, die dann für Recherchezwecke in derselben Weise wie in der Alltagssprache angewendet werden können. Eine geeignete Klasse von Operatoren bilden die approximativen quantifizierenden Ausdrücke (Fuzzy-Quantoren) wie z.B. FAST ALLE, VIELE, EIN PAAR. Diese sind zweidimensionale Aggregationsoperatoren und daher besonders nützlich für die gewichtete Aggregationsprobleme. Beispielsweise entspricht das Suchkriterium ``Fast alle benutzerrelevanten Suchbegriffe sind dokumentrelevant'' der Auswertung von FAST ALLE(W,R), wobei FAST ALLE ein Fuzzy-Quantor ist, W eine Fuzzy-Menge, welche die Suchbegriff-Benutzer-Relevanz ausdrückt, und R eine Fuzzy-Menge, welche die graduelle Relevanz eines Suchbegriffs in Bezug auf das zu bewertende Dokument beschreibt. Die bestehenden Ansätze zur Fuzzy-Quantifikation können in bestimmten Fällen kontraintuitive Ergebnisse produzieren. Der Rechercheassistent wird daher einen neuen Ansatz zur Fuzzy-Quantifikation nutzen (DFS-Theorie), welcher sich auf ein axiomatisches Modell stützt und daher unplausible Ergebnisse wie diejenigen der bestehenden Ansätze von vorneherein ausschließen kann. SKALIERBARE MEHRSCHICHTEN-ARCHITEKTUR. Alle Schnittstellen des Rechercheassistenten werden auf Grundlage des CORBA-Standards (Common Object Request Broker Archi-tecture) spezifiziert und implementiert. Dadurch kann das System in verteilter Komponententechnologie aufgebaut werden, d.h. weitgehend unabhängig von (vernetztem) Rechnerstandort, Programmiersprachen und Plattformen. Aus technischer Sicht erlaubt die Verwendung von CORBA eine nahtlose Integration neuer Datenquellen (durch neue Wrapper) sowie neuer Typen von Clients (z.B. Mehrwertdienste) und garantiert dadurch die gewünschte Offenheit und Erweiterbarkeit des Systems. Insbesondere aber wird die Verwendung von CORBA die Konstruktion einer skalierbaren Mehrschichtenarchitektur gestatten und die Integration von Lastverteilungsmechanismen. Der Rechercheassistent soll gegliedert werden in ein `Thin User Frontend', das die graphische Benutzeroberfläche umsetzt, den `Fuzzy Query Interpreter', der die rechnerisch aufwendige Ergebnisaggregation durchführt, die `Wrapper', welche Suchanfragen in Anfragen an die Datenbankquellen übersetzen, und zuletzt die eigentlichen Datenbankserver, die Dokumentnachweise und ggf. Volltexte verwalten. Der Einsatz einer getrennten Komponente für die Anfragezerlegung und Fuzzy-Aggregation entlastet sowohl die Clients (Benutzerseite) als auch die Datenbankserver. Beliebig viele Instanzen des Fuzzy Query Interpreters können auf beliebig vielen Host-Rechnern betrieben werden, um die Anforderungen an die Antwortzeit auch unter Multi-User-Bedingungen zu erfüllen. EVALUATION. Bei Entwurf und Implementierung der Rechercheassistenten wird das Augenmerk darauf liegen, typische Schwachstellen von Fuzzy-Retrievalsystemen zu vermeiden und alle erreichten Verbesserungen zu evaluieren. Im Hinblick auf Skalierbarkeit werden diejenigen Techniken des Fuzzy-Retrievals ausgeschlossen, die rechnerisch zu aufwendig wären (beispielsweise linguistische Terme); zudem wird das System eine Mehrschichtenarchitektur haben, die eine Lastverteilung ermöglicht. Die Skalierbarkeit des Rechercheassistenten soll anhand eines Datensatzes mit mehr als 20 Millionen Dokumentnachweisen evaluiert werden. Die Benutzerfreundlichkeit des Systems wird gesichert durch die ausdruckstarken, aber leicht verständlichen Fuzzy-Suchoperatoren, welche die Ausdrucksmöglichkeiten der Alltagssprache nachbilden. Im Unterschied zu `passiven' HTML-Suchformularen wird die Benutzung von Java-Technologie den Entwurf einer graphischen Benutzeroberfläche unter Ergonomiekriterien gestatten, beispielsweise durch aktive Benutzerunterstützung im Anfrageprozeß. Die Bedienbarkeit des Systems wird durch Benutzer-Interviews evaluiert. Der Rechercheassistent ist als Gesamtsystem ausgelegt, das mehrere Datenbanken umfaßt, zusätzlich aber auch weitere Dienste einbetten kann, z.B. den elektronischen Dokumentbestell- und -lieferdienst JASON. Offenheit und Interoperabilität werden durch die Nutzung neuster Schnittstellentehnologie erreicht; sie werden evaluiert durch die beispielhafte Integration heterogener Datenbanken. Beim Entwurf des Rechercheassistenten wird besondere Aufmerksamkeit der Bereitstellung einer mathematisch fundierten Retrievalmethodik gewidmet, um Schwierigkeiten mit gewichtetem Retrieval von vorneherein auszuschließen. Diese formale Analyse wird ergänzt durch einen statistischen Vergleich zu anderen Ansätzen für das gewichtete Retrieval, der auf standardisierten Testdaten basieren wird.
Ansprechpartner	Dr. Karl Wilhelm Neubauer Universitätsbibliothek Universitätsstraße 25 33615 Bielefeld
URL	- -