Bibliotheksdienst Heft 7, 98

BIBLIOTHEKSDIENST Heft 7, 98

Literaturrecherche mit OSIRIS

Ein Test der OSIRIS-Retrievalkomponente

Marc Ronthaler1), Hartmut Zillmann2)

Seit Mitte 1996 fördert die Deutsche Forschungsgemeinschaft (DFG) mit dem Projekt OSIRIS 3) an der Universitätsbibliothek Osnabrück die Entwicklung eines 'intelligenten Hyperbase Front End Systems für OPAC-Datenbanken' mit Hilfe multilingualer natürlichsprachlicher Retrievaltechniken. OSIRIS ist seit Herbst 1997 im öffentlichen Einsatz 4), seit April 1998 kann mit der Version 2.0 in erweiterter Funktionalität recherchiert werden - unsere Erfahrungen sind hinsichtlich Systemstabilität und Benutzerakzeptanz sehr erfreulich. Seit Beginn des öffentlichen Betriebes wird das OSIRIS-System von Angehörigen des Fachbereiches Psychologie 5) der Universität Osnabrück nach software-ergonomischen Gesichtspunkten, u. a. hinsichtlich ISO 9241/10 evaluiert.

Als erstes Fazit nach sechs Monaten öffentlichen Einsatzes liegt nun das Ergebnis eines Retrievaltests vor. Anhand von Beispielen aus einer Düsseldorfer Benutzerstudie (Lepsky96) sowie den OSIRIS-Log-Dateien vergleichen wir die Retrievalergebnisse des (klassisch indexierten) Osnabrücker OPACs mit denen aus OSIRIS. Der Darstellung dieses Tests voraus geht eine Erläuterung der besonderen Anforderungen, die der Einsatzbereich "Universitätsbibliothek" an ein System wie OSIRIS stellt.

In den meisten wissenschaftlichen Bibliotheken hat inzwischen der OPAC den klassischen Zettelkatalog als Recherchemöglichkeit für den Benutzer abgelöst. In der Universitätsbibliothek Osnabrück, mit ca. 1 Million Büchern eine mittelgroße Bibliothek, ist der OPAC seit 1993 in Betrieb. Seit 1996 wird der Zettelkatalog nicht mehr aktualisiert und der OPAC ist damit die einzige Möglichkeit, aktuelle Daten zu recherchieren. Technisch realisiert wird die Recherche bislang über eine Telnet-Verbindung mit VT100-Oberfläche. Das System ermöglicht dem Benutzer die Suche nach folgenden Aspekten: Titelstichwörter/Schlagwörter, Personennamen, Körperschaften, Kongreßtitel, Serientitel, Systematik, Nummern (ISBN etc.) und Signaturen. Benutzer des OPAC werden meist durch die wenig ergonomische VT100-Oberfläche abgeschreckt 6). Deshalb gibt es überall Ansätze, eine graphische Oberfläche für den OPAC (WWW) zu schaffen. Die eigentliche Schwäche des OPAC als Rechercheinstrument für den Endbenutzer wird dadurch aber nicht behoben. Der OPAC ist - weil er auch internen bibliothekarischen Belangen genügen muß - durch den weitverbreiteten Kompromiß zwischen Benutzeranforderung und bibliothekarischer Indexierung geprägt. Bibliotheksbenutzer verstehen die Bedeutung der meisten Suchmöglichkeiten nicht und verwenden deshalb beinahe ausschließlich die Optionen Titelstichwörter und Personennamen (vgl. Dreis94 und Schulz94). Dadurch aber wird der Umgang mit dem System für die Benutzer frustrierend, weil die Ergebnisse solcher Suchanfragen oft unbrauchbar sind, gekennzeichnet durch übergroße Treffermengen, leere Treffermengen und sehr kleine Treffermengen.

Übergroße Treffermengen sind meist das Ergebnis einer Stichwortsuche, wenn Suchbegriffe wie Deutschland (an einem deutschen Katalog), Geschichte, Chemie oder Algebra verwendet werden. Treffermengen zu diesen Begriffen sind entweder nicht handhabbar groß oder werden erst gar nicht angezeigt.

Leere Treffermengen sind ebenfalls sehr häufig, und zwar aus zwei Gründen: zum einen, weil die Stichwort/Schlagwortsuche im OPAC lediglich aus reinem 'pattern matching' besteht. Nur wer mit dem verwendeten Suchterminus die Titelformulierung des Autors oder Schlagwörter trifft, hat Erfolg - allerdings nicht flächendeckend, denn jeder Autor formuliert anders und die bibliothekarischen Regeln für die Ansetzung von Schlagwörtern decken sich oft nicht mit den Benutzererwartungen 7). Neben diesen, auf den Autor zurückgehenden Begriffen, sowie den Schlagwörtern, befindet sich kaum sprachliches Material in einem OPAC: "Sie [die Benutzer] erzielen 0 Treffer bei jeder zweiten bis dritten Recherche. Dies ist keineswegs erstaunlich, da Datensätze in OPACs inhaltlich äußerst dürftig deskribiert sind; es ist schon ein glücklicher Zufall, wenn ein Suchterminus mit einem Indexierungsterminus übereinstimmt." (Schulz94, S. 299)

Zum anderen führt die mangelnde Robustheit und Flexibilität der OPAC-Systeme gegenüber den Benutzereingaben dazu, daß fehlerhafte Suchstrings (Tippfehler, orthographische Fehler etc.) in vielen Fällen eine Suche scheitern lassen. Schulz (Schulz94) geht davon aus, daß jede zehnte Suchanfrage allein aufgrund von nicht erkannten (!) Eingabefehlern zu einer Null-Treffer-Situation führt.

Kleine Treffermengen sind, auch wenn es auf den ersten Blick paradox wirkt, am Gefährlichsten. Sucht man im OPAC der UB Osnabrück z. B. nach Literatur zum Thema genetische Manipulation, so ist man zunächst gezwungen, in der Booleschen Logik der Anfragesprache einen Ausdruck wie: genetische AND manipulation zu konstruieren. Da es sich um 'pattern matching' handelt, werden alle flektionsbedingten Variationen wie genetischer oder genetischen nicht gefunden. Das Ergebnis einer solchen Anfrage ist dann ein einziges(!) Buch. Benutzer, die dem System vertrauen (und warum sollten sie das nicht tun?), verzweifeln bei diesem Ergebnis an der Beschaffungspolitik der Bibliothek. Benutzer, die (zu recht) an der Zuverlässigkeit des Systems zweifeln, beginnen nun, Ausweichstrategien zu entwickeln, um die Bücher zu finden, die der OPAC ihnen vorenthält. Jedoch werden sie mit dieser Methode wohl nie in eine Lage kommen, in der sie sicher sein können, bis auf wenige Ausnahmen alle für ihre Suchanfrage relevanten Werke der Bibliothek gefunden zu haben. Eine wie eben dargestellte Stichwortsuche könnte nur dann mehr Erfolg haben, wenn Benutzer geschickt trunkieren (maskieren) würden (genetisch? AND manipulation?), um beliebige Wortendungen zu treffen. Damit aber kann in der Praxis nicht gerechnet werden, denn Endbenutzer haben "erhebliche Schwierigkeiten mit der Verwendung von Maskierungsmöglichkeiten" (Schulz94, S. 300) und würden sie daher meiden. Schulz schreibt weiter: "Der Zweck von Trunkierungsmöglichkeiten wird offensichtlich nicht verstanden, die Funktion folglich nicht genutzt." (Ebd.) Andererseits muß betont werden, daß Trunkierung nur ein Behelfsmittel sein kann, das systembedingt oft zu völlig inakzeptablen Ergebnissen führt. Die gezeigte simple Endtrunkierung trifft bereits sehr viel mehr Wortmaterial als erwünscht, bspw. aber nicht das Adjektiv manipulatorisch. Auch sind rechte Teile in Komposita (Genmanipulation) ebensowenig mittels Trunkierung zu finden wie unregelmäßige Pluralformen (Haus, Häuser). Und schließlich sind Synonyme und Ambiguität nicht behandelbar: Geige trifft nicht Violine, aber Gruppe? trifft Gruppentheorie wie Gruppentherapie. Probleme dieser Art sind natürlich durch Oberflächengestaltung (WWW-Interface) nicht zu beheben.

OSIRIS trägt mit zwei Aspekten zur Verbesserung der oben skizzierten Lage bei: mit einer robusten, natürlichsprachlichen Benutzerschnittstelle zur Datenbank und mit einer intelligenten, automatischen Aufbereitung des verfügbaren Datenbestandes in einer Wissensbasis.

Die in OSIRIS eingesetzte Benutzerschnittstelle hat die Aufgabe, natürlichsprachliche Anfragen des Benutzers syntaktisch und semantisch so zu analysieren, daß mit dem Ergebnis der Analyse eine Suche auf der Datenbank erfolgreich durchgeführt werden kann. Phrasen müssen erkannt und die sie konstituierenden Teile semantisch zueinander in Relation gesetzt werden. Komposita müssen in ihre Bestandteile zerlegt, flektierte Formen müssen normalisiert und Plural auf Singular zurückgeführt werden. Weiterhin müssen, als Vorbereitung einer eventuell mehrstufigen Datenbankanfrage, Synonyme, Hypo- und Hyperonyme sowie eventuell einfache Kategorieninformationen bereitgestellt werden. Daneben muß sich die Benutzerschnittstelle den genannten Anforderungen eines Alltagseinsatzes in der wissenschaftlichen Bibliothek stellen. Das verlangt einerseits eine gewisse Robustheit und Fehlertoleranz, bedeutet andererseits aber auch einen genau definierten Aufgabenbereich.

Um gegenüber fehlerhaftem Input zu bestehen, muß OSIRIS in der Lage sein, die häufigsten und einfachsten Eingabefehler zu erkennen, selbsttätig zu beheben und den Benutzer hierüber in Kenntnis zu setzen. Fehler dieser Art, die über flexible Lexikonzugriffe abgefangen werden können, sind einfache Buchstabendreher, Verdoppelung einzelner Buchstaben sowie Fehlschreibungen durch Benutzung von auf der Tastatur benachbarten Tasten. Insbesondere gewinnt OSIRIS hier eine generelle Toleranz gegenüber beliebigen Reformen der Rechtschreibung. Ohne Änderung der Titeldaten ist OSIRIS in der Lage, beispielsweise Schifffahrt (mit drei f, geplante neue Rechtschreibung) auf Schiffahrt (bislang mit zwei f) abzubilden.

Im Bereich der notorisch schwierigen Schreibung von Namen setzt OSIRIS auf phonetische Algorithmen. Ganz im Gegensatz zu klassischen OPAC-Systemen ist es in OSIRIS möglich, eine Autorin zu finden, deren Name sich Isabella Schneider-Eberz schreibt, obwohl man nach Isabelle Ebers sucht. Darüber hinaus empfinden Benutzer es als wohltuend, nicht mehr nach Schneider-Eberz, Isabella suchen zu müssen (wie es OPAC-Systeme vorschreiben), sondern auch die natürliche Namensschreibung Isabella Schneider-Eberz verwenden zu können.

Der zu verarbeitende Sprachumfang orientiert sich an den Aufgaben: OSIRIS ist kein allgemeines Bibliotheksauskunftssystem. Deshalb werden die an OSIRIS gerichteten Anfragen stets Anfragen nach bestimmten Büchern oder nach Büchern zu einem Thema sein. OSIRIS kann daher eine eingeschränkte Syntax in der Anfrage voraussetzen: realisiert wird dies durch Vorgabe eines Satzes wie z. B. Ich suche Literatur zum Thema ..., den der Benutzer im Fall der thematischen Literatursuche zu vervollständigen hat. Ohne die Suchmöglichkeiten einzuschränken, wird dennoch die Eingabe einer Nominalphrase motiviert. Lexikalisch führt eine Spezialisierung auf den Einsatzbereich in der Bibliothek leider nicht zu einer Reduktion, im Gegenteil: trotz gewisser Bestandsschwerpunkte in der Bibliothek, muß OSIRIS prinzipiell mit dem gesamten aktuellen wissenschaftlichen Vokabular vertraut sein. Die Schwierigkeiten an dieser Stelle liegen dabei nicht nur in der bloßen Menge des Vokabulars, sondern auch in der zu gewährleistenden Aktualität. Manuell zu pflegende Wörterbücher halten wir hier für unrealistisch und setzen deshalb auf regelbasierte Ansätze, inkrementelle und automatische Lexikonerweiterung sowie in vielen Bereichen auf Heuristiken. So sind wir in der Lage, auch mit sehr großen Lexika noch effizient zu arbeiten. Eine einfache, regelbasierte Morphologie sowie eine heuristisch gesteuerte Kompositazerlegung erlauben es, die natürlichsprachlichen Eingaben, z. B. zur thematischen Suche, in für den Benutzer nicht spürbaren Antwortzeiten zu bearbeiten.

Unter den computerlinguistischen Komponenten in OSIRIS sind der Parser und das Lexikon von besonderer Bedeutung. Mit ihrer Hilfe wird aus dem natürlichsprachlichen Input unter Berücksichtigung einer semantischen Analyse eine geeignete Anfrage an die Wissensbasis formuliert. Ziel dieser Anfrage ist die gewichtete Abbildung auf den OSIRIS-Index. Die beiden folgenden Absätze skizzieren Details, die für das Verständnis des Retrievaltests unerheblich sind, aber für den Spezialisten interessant sein können.

Der Parser ist eine Reimplementation des GEPARD-Parsers,8) der auch auf leistungsschwächeren Maschinen trotz Verwendung umfangreicher Lexika und Grammatiken eine hohe Performanz erzielt. Dazu wird eine deklarativ formulierte, in ihrer formalen Mächtigkeit eingeschränkte Grammatik durch einen mehrstufigen parametrisierbaren Compiler in ein C-Programm übersetzt. Das Ergebnis dieses Prozesses ist ein sehr effizienter, für die jeweils gegebene Eingabegrammatik optimierter Chartparser, der auf dem Earley-Algorithmus mit Vorwärtsverkettung beruht. Darüber hinaus kann der GEPARD-Parser durch ein finite-state-basiertes stochastisches Modell für Linksableitungen bewertet werden. Bei der Reimplementierung des Parsers 9) wurde besonderer Wert auf eine Verbesserung der Möglichkeiten des robusten Parsings gelegt. Als Formalismus wird eine kontextfreie Grammatik mit Merkmalsannotationen verwendet. Ein einfaches semantisches Modell sieht die Zuordnung unterschiedlicher Operationen für Präpositionalphrasen vor. Je nachdem, ob sie mit einem zeitlichen oder räumlichen Aspekt annotiert sind oder nicht, treffen verschiedene Regeln zu, d. h. sie "restringieren" das vom Nomen vertretene zentrale Konzept in Raum oder Zeit oder "modifizieren" es. Die geeignete Annotierung von Lexikoneinträgen in Abstimmung mit optimalen Suchstrategien in der Wissensbasis ist daher ein zentraler Gegenstand im Projekt.

OSIRIS benötigt große Lexika mit mehr als 300.000 (Stammformen-)Einträgen in einer vollständig ausgebauten Version. Um diesen Anforderungen zu genügen, werden in OSIRIS die Lemmata als Suchschlüssel in einem Buchstabenbaum kodiert und die Inhalte der Einträge separat in einer Datenbank gespeichert. Eingebettet in den Zugriff sind morphologische Operationen für Endungsanalyse, Kompositazerlegung und solche, die der Korrektur von Fehlern sowie der Berücksichtigung unterschiedlicher Rechtschreibvarianten dienen. Endungen und ggf. erforderliche Umlautungen sind Bestandteil der lexikalischen Information im Eintrag. Input für die Suche im Lexikon ist eine Vollform ohne beugungsbedingte Umlautungen, das Ergebnis ist die Zerlegung in Endung und Lemma. Die Konstruktion von Lexikoneinträgen ist automatisiert. Darüberhinaus verfolgt OSIRIS die Strategie, den Wortschatz des Lexikons gegenüber den Indizes der Wissensbasis aus Fremdquellen zu erweitern. Die morphologischen Informationen erzeugt eine zugekaufte Software 10).

Die computerlinguistischen Komponenten in OSIRIS sind auf ihr Einsatzgebiet in der Bibliothek hin optimiert. Parser und Lexikon verwenden einfache und effiziente Techniken, die zusammen mit dem Expertenwissen in der Wissensbasis die Transparenz bibliographischer Recherchen für den Benutzer und die Qualität der Suchergebnisse verbessern.

Um die Effizienz des OSIRIS-Systems abschätzen zu können, haben wir im folgenden einige Beispiele zusammengestellt, mit deren Hilfe die Retrieval-Ergebnisse unter Osiris mit denen des OPAC der UB Osnabrück verglichen werden können. Wir haben darauf verzichtet, den Rechercheballast in den OPAC-Abfragen zu zählen und als nicht relevant abzuziehen. Lediglich bei offenkundigen, vorhersehbaren Ballastphänomenen (Beispiel: Java) haben wir dies gekennzeichnet (±). Dem Test liegt der gesamte maschinenlesbar katalogisierte Bestand der Universitätsbibliothek Osnabrück zugrunde (600.000 Titeldatensätze) - Das Zeichen (*) in den folgenden Tabellen bringt zum Ausdruck, daß bei der OPAC-Recherche auch Komposita bzw. die Zerlegung von Komposita bzw. trunkierte Eingaben, ggf. auch naheliegende Synonyme abgeprüft worden sind ('semantisches Umfeld'). - Für die Abfrage des OSIRIS-Systems wurden ausschließlich die unten aufgeführten Phrasen - so, wie sie eben sind - benutzt, ohne Trunkierung etc.

Im Durchschnitt hat die OSIRIS-Retrievalkomponente im Vergleich zum OPAC der Universitätsbibliothek Osnabrück einen um den Faktor 11 größeren Recall. Wie das jeweilige Trefferbild im OSIRIS-System zeigt, sind die Suchergebnisse außerdem von hoher Präzision.

Die Ergebnispräsentation der OSIRIS-Wissensbasis führt i.a. zunächst auf Fachgebiete bzw. Teile von Fachgebieten, repräsentiert durch die in der Universitätsbibliothek Osnabrück verwendete Systematik (GHBS). Die Eingabe 'Sport im Alter' hat bspw. als Ergebnis: Treffer im Teilgebiet 'Allgemeine Trainingslehre, Seniorensport' der Sportwissenschaft. Der Benutzer des Systems wird per Mausklick zu den Dokumenten (Büchern) in der Klasse 'Seniorensport' geführt. Er kann sich aber auch für das Browsing (per Mausklick) in den der Klasse 'Seniorensport' übergeordneten Klassen entscheiden.- Die Trefferzahlen des OSIRIS-Systems geben die Anzahl der jeweils relevanten Dokumente in den getroffenen Klassen wieder.

Zwei Beispiele aus der Autorensuche im OSIRIS-System sollen die Wirkungsweise der in OSIRIS implementierten phonetischen Komponenten deutlich machen, die - richtig angewendet - auch für uns überraschend präzise sind. Wenn Sie die Beispiele reproduzieren wollen: Die Eingaben im OSIRIS-System können (müssen aber nicht) in 'natural order' erfolgen, im OPAC müssen Namen invertiert werden.

Das Ergebnis des Retrievaltests zeigt die folgende Tabelle.

Literaturverzeichnis

G.Dreis: Benutzerverhalten an einem Online-Publikumskatalog für wissenschaftliche Bibliotheken: Ergebnisse und Erfahrungen aus dem OPAC-Projekt der Universitätsbibliothek Düsseldorf. No.57, Zeitschrift für Bibliothekswesen und Bibliographie. Klostermann, 1994.

K.Lepsky, J.Siepmann und A.Zimmermann: Automatische Indexierung für Online-Kataloge: Ergebnisse eines Retrievaltests. Zeitschrift für Bibliothekswesen und Bibliographie, 43(1), 1996.

I.Recker, M.Ronthaler und H.Zillmann: OSIRIS (Osnabrück Intelligent Research Information System) - ein Hyperbase Front End System für OPACs. Bibliotheksdienst, 30(5):833--848, 1996.

U.Schulz: Was wir über OPAC-Nutzer wissen: Fehlertolerante Suchprozesse in OPACs. ABI-Technik, 14(4):299-310, 1994.

1) Marc.Ronthaler@CL-KI.uni-osnabrueck.de

2) Hartmut.Zillmann@ub.uni-osnabrueck.de

3) Osnabrück Intelligent Research Information System

4) http://www.ub.uni-osnabrueck.de - zur Zeit ist der Zugriff beschränkt auf die IP-Domain uni-osnabrueck.de. Für Interessierte von außerhalb gibt es einen Zugang, den die Autoren auf Email-Anfrage gerne öffnen.

5) Unter der Leitung von Dr. Kai-Christoph Hamborg.

6) Diese Aussage gilt für alle uns bekannten OPAC-Systeme mit VT100-Oberfläche.

7) Wissenschaftler aus den Bereichen der hochgradig internationalisierten Wissenschaften suchen fast ausschließlich mit englischsprachigen Suchtermini! Deutsche Schlagwörter (z.B. 'Schleifenraum' [Singular] statt 'Loop spaces' [Plural!]) sind kaum noch geläufig.

8) Entwickelt von Dr. Hagen Langer, Universität Osnabrück

9) Reimplementiert durch Wilfried Teiken, Universität Osnabrück

10) "GERTWOL" (deutsch) und "ENGTWOL" (englisch) der Firma Lingsoft Inc., Helsinki, Finnland.

11) Die Ergebnisse beziehen sich auf den Stand des OPACs und der Osiris-Datenbank am 14.4.1998. Updates der Datenbanken können die Ergebnisse mittlerweile leicht verändert haben.

12) Das Zeichen (*) bringt zum Ausdruck, daß bei der OPAC-Recherche auch Komposita bzw. die Zerlegung von Komposita bzw. trunkierte Eingaben, ggf. auch naheliegende Synonyme abgeprüft worden sind ('semantisches Umfeld'). - Für die Abfrage des OSIRIS-Systems wurde ausschließlich die aufgeführte Phrase benutzt!

13) Das System stellt ein Set dieser Größenordnung nicht zusammen.

14) Hier ist im OSIRIS-System ein Browsing in den der 'Chemie' untergeordneten Klassen möglich, bspw. mit der Auswahl 'Naturstoffchemie'.

15) Die Ergebnisse sind wegen der Mehrdeutigkeit des Suchbegriffs hochgradig diffus.

16) Hier ist im OSIRIS-System ein Browsing möglich.

Stand: 01.07.1998