Winfried Gödert, Martina Liebig
Vorbemerkungen
Am Fachbereich Bibliotheks- und Informationswesen der Fachhochschule Köln wurde in der Zeit von November 1995 bis August 1996 ein Retrievaltest zur Bewertung der im DFG-Projekt MILOS II zur maschinellen Indexierung im Bibliotheksbereich erstellten Daten durchgeführt1). Von der Universitäts- und Landesbibliothek Düsseldorf wurden die dafür notwendigen Daten bereitgestellt. Die Ergebnisse des Tests liegen nunmehr vor und sollen hiermit in einer ersten Zusammenfassung der interessierten Öffentlichkeit vorgestellt werden2).
Datengrundlage
Grundlage für den Test war eine Datenbank mit knapp 190.000 Buchtiteln der Erscheinungsjahre 1990-1995 aus dem Datenpool Der Deutschen Bibliothek. Die Titel verteilten sich auf alle Sachgruppen der Deutschen Nationalbibliographie mit Ausnahme der Belletristik, der Kinder- und Jugendliteratur sowie Kalender, etc. Die Titel wurden im Rahmen des DFG-Projektes MILOS II einer maschinellen Indexierung unterzogen. Der Ablauf der Indexierung in diesem Projekt sowie der Leistungsumfang der eingesetzten Software sind an anderer Stelle ausreichend beschrieben worden3), so daß hier einige Stichwörter genügen sollen, um anzudeuten, welche Maßnahmen zur Wortformenreduzierung und zur Erzeugung der Indexierungsdaten Bestandteil des Verfahrens waren:
Die erzeugten Daten wurden für die Durchführung differenzierter Suchen in einer Online-Umgebung als Allegro-Datenbank aufbereitet. ALLEGRO wurde gewählt, weil zum einen mit dieser Software die Anbindung der Indexierungsdaten an die vorhandenen Titeldaten am einfachsten zu bewerkstelligen war, und sich zum anderen die Register für die Suche individuell generieren ließen.
Ziele und Vorgehensweise des Retrievaltests
Ein Retrievaltest bewertet die Qualität von Indexierungsergebnissen in Recherchesituationen. Aufgabe eines Retrievaltests ist es somit, ausgehend von (möglichst der Realität entnommenen) Suchfragen Bewertungen über die erzielten Suchergebnisse hinsichtlich ihres Umfanges (Größe der Treffermenge) und ihrer inhaltlichen Präzision (Anteil der auf die Frage inhaltlich passenden Titel) vorzunehmen. Mit einem Retrievaltest soll nicht im Einzelfall geprüft werden, ob die Qualität eines zugeteilten Indexates - unabhängig davon, ob intellektuell oder maschinell zugeteilt - einer nachträglichen intellektuellen Überprüfung standhält.
Insofern hatte dieser Retrievaltest nicht die Aufgabenstellung, einen Vergleich zwischen RSWK-Daten und den maschinell erzeugten Indexierungsdaten herzustellen. Ein solcher Vergleich wäre schon deswegen unsinnig, weil die RSWK-Daten ja neben den Titel-Stichwörtern Ausgangsmaterial für die maschinelle Indexierung waren. Primärziel war vielmehr die Untersuchung der Frage, ob und inwieweit maschinelle Indexierung einen Beitrag zur Verbesserung eines sachlichen Retrievalvorganges leisten kann, insbesondere dann, wenn für das Verfahren der maschinellen Indexierung Daten intellektueller Indexierung ausgenutzt werden können. Im vorliegenden Fall gehörten hierzu sowohl Daten, die den Dokumenten zugeteilt wurden (RSWK-Ketten) als auch Daten, die in der Struktur eines normierten Vokabulars (SWD) enthalten sind. Letztere Daten wurden für diesen Zweck in eines der Wörterbücher eingearbeitet, die von der Indexierungssoftware benutzt werden.
Bei der Planung eines Retrievaltests ist zugrundezulegen, welchen Umfang die Datenbank besitzt, welche Indexierungsverfahren zur Erzeugung der Daten eingesetzt wurden, welche Retrievalumgebung zur Verfügung steht und welches Relevanzkriterium gewählt wird. Ferner ist eine Liste der zu verwendenden Suchfragen zusammenzustellen. Schließlich ist zu prüfen, ob die Möglichkeit besteht, die auf eine Frage insgesamt vorhandenen relevanten Dokumente zu ermitteln, und wie groß der Aufwand zur Ermittlung ist.
Der Umfang der Datenbank war bei diesem Retrievaltest mit ca. 190.000 Titeln weitaus größer als sonst in der Literatur berichtet. Für den Test wurde eine Liste von 100 Suchfragen zugrundegelegt. Es handelt sich dabei um die 50 Fragen, die bereits im Retrievaltest zum MILOS II-Projekt verwendet worden waren sowie um 50 weitere4). Sie sind entsprechend den in der Literatur berichteten Benutzergewohnheiten zur Formulierung von Suchfragen zusammengestellt worden und lassen sich in folgende Gruppierung bringen:
Alle Fragen wurden in der Datenbank mit Hilfe folgender fünf Register bearbeitet.
Ergebnisse des Retrievaltests
Die im Retrievaltest erzielten Resultate sollen nachfolgend zusammenfassend dargestellt werden. Als wichtigstes Ergebnis kann angesehen werden, daß die dem MILOS II-Projekt zugrunde liegende Methode der maschinellen Indexierung ein wichtiger Beitrag zur Lösung eines der wichtigsten Probleme des Information Retrieval - die Vermeidung bzw. weitgehende Reduktion von Null-Treffermengen - sein kann.
Im Mittel aller 100 Suchanfragen lieferten die Daten der maschinellen Indexierung gegenüber den Titel-Stichwortdaten eine um rund dreifach höhere Zahl relevanter Treffer; die verstichworteten RSWK-Ketten lieferten im gleichen Vergleich eine um rund zweifach höhere Zahl relevanter Treffer6). Dabei kann über das Mittel der 100 Fragen nicht gesagt werden, daß sich der Zugewinn an relevanten Treffern bei den Daten der maschinellen Indexierung in einer übermäßig durch Ballast angereicherten Treffermenge verbirgt. Die entsprechenden Zahlen für die Präzision lauten: Titel-Stichwortdaten: 0,82; Daten der maschinellen Indexierung: 0,75; verstichwortete RSWK-Ketten: 0,95 7). Für die qualitative Bewertung ist es sehr interessant, daß die Suche mit Titel-Stichwortdaten in 15 Fällen, die Suche mit verstichworteten RSWK-Ketten in 30 Fällen, die Suche nach Daten der maschinellen Indexierung jedoch nur in 3 Fällen Null-Treffermengen ergab8).
Eine entsprechende Einbeziehung der Suche nach vollständigen RSWK-Ketten war aus verschiedenen Gründen nicht durchführbar, obwohl in der Datenbank ein derartiges Register aufgebaut worden war. Zum einen hätte für einen Vergleich mit den anderen Treffermengen eine Retrievalumgebung vorhanden sein müssen, in der sowohl der RSWK-gerechte Zugriff auf die Ketten als auch der Zugriff auf die semantische Strukturierung der SWD-Einträge für Retrievalzwecke möglich gewesen wäre. Eine solche Retrievalumgebung ist derzeit auf PC-Basis nicht vorhanden. Zum anderen ist es für die Simulation von Online-Suchen nicht angebracht, vor Beginn einer Recherche nach RSWK-Daten erst alle Relationierungen von Hand aus der SWD heraussuchen zu müssen.
Die Gründe für die weitgehende Vermeidung von Null-Treffermengen können darin gesehen werden, daß im MILOS II-Projekt neben den ohnehin für die Indexierung eingesetzten Wörterbüchern ein normiertes und semantisch strukturiertes Vokabular (hier die SWD) verwendet wurde. Hierdurch gelingt es, die Treffermenge nicht allein auf der Basis eines einfachen Matching Suchwort - Indexierungswort zu bilden, sondern sowohl synonyme Wortformen als auch das semantische Umfeld einer Suchanfrage mit einzubeziehen, d.h. es gelingt sowohl für Unter- / Oberbegriffsbeziehungen als auch für äquivalente Zusammenhänge. Dieses im Vergleich zum einfachen Wort-Matching in bibliographischen Datenbanken qualitativ verbesserte Suchverhalten wurde im Test durch zahlreiche Beispiele deutlich9). Es darf vermutet werden, daß eine verbesserte und vollständige semantische Struktur der SWD weitere Verbesserungen zur Generierung des Indexierungsvokabulars und damit der Abfragequalität ergeben würde.
Wünschenswert wäre der Einsatz von semantischen Disambiguierungsinstrumenten, da eine rein wortbezogene maschinelle Indexierung semantische Ambiguitäten nicht automatisch erkennen und bereinigen kann. Solch eine Form maschineller Indexierung trägt somit zwangsläufig potentiell zur Erhöhung von Ballastraten bei. Dies wurde durch den Retrievaltest durchaus bestätigt. Eingesetzt werden könnten beispielsweise Systematik-Angaben, die über die verwendeten Relationen-Wörterbücher erkannt werden. Zusätzlich können statistische Verfahren verwendet werden. Nicht abschließend geklärt werden konnte die Frage, inwieweit und in welchem Ausmaß sich diese Phänomene negativ auf die Bewertung von Treffermengen auswirken.
Zusammenfassend ergibt sich, daß die Güte einer maschinellen Indexierung grundsätzlich abhängig ist von:
a) den Eigenschaften der eingesetzten Indexierungssoftware zur
Folgende Schlußfolgerungen lassen sich aus dem Retrievaltest ziehen. Maschinelle Indexierung kann eine wesentliche Ergänzung für die Erschließung bibliographischer Daten und den Aufbau sachlicher Abfragekomponenten bedeuten. Neben den schon dargelegten Faktoren sprechen hierfür folgende Punkte:
Insofern kann nur empfohlen werden, die im MILOS II-Projekt entwickelte Methode zur maschinellen Indexierung für bibliographische Daten auf andere - teilweise oder gar nicht inhaltlich erschlossene - Datenbestände anzuwenden.
1) Dieser Retrievaltest wurde als Forschungsprojekt von der Fachhochschule Köln finanziert. Für die Dauer des Projektes konnte eine Mitarbeiterin (M. Liebig) eingestellt werden, die mit dem Projektleiter den Test vorbereitete und unter Mitwirkung studentischer Hilfskräfte den Test durchführte und auswertete.
2) Die ausführliche Dokumentation des Tests und seiner Ergebnisse erfolgt in einer separaten Veröffentlichung, die 1997 in der Schriftenreihe der Universitäts- und Landesbibliothek Düsseldorf erscheinen wird. Diese Veröffentlichung wird neben einer allgemeinen Darstellung zur Planung und Durchführung von Retrievaltests alle Daten sowie eine Reihe von Suchbeispielen enthalten, die die konkrete Vorgehensweise deutlich machen sollen. In diesem ausführlichen Bericht werden auch alle Literaturhinweise enthalten sein, die hier aus Platzgründen unterdrückt wurden.
3) Vgl. z.B.: Lepsky, K.: Maschinelles Indexieren zur Verbesserung der sachlichen Suche im OPAC: DFG-Projekt an der Universitäts- und Landesbibliothek Düsseldorf. In: BIBLIOTHEKSDIENST. 28(1994) H.8, S.1234-1242.
Lepsky, K.: RSWK - und was noch?: Stellungnahme zum Bericht 'Sacherschließung in Online-Katalogen' der Expertengruppe Online-Kataloge.In: BIBLIOTHEKSDIENST. 29 (1995) H.3, S.500-519.
Lepsky, K., J. Siepmann u. A. Zimmermann: Automatische Indexierung für Online-Kataloge: Ergebnisse eines Retrievaltests. In: Zeitschrift für Bibliothekswesen und Bibliographie. 43(1996) H.1, S.47-56.
Lepsky, K.: Automatische Indexierung und bibliothekarische Inhaltserschließung: Ergebnisse des DFG-Projekts MILOS I. In: Zukunft der Sacherschließung im OPAC: Vorträge des 2. Düsseldorfer OPAC-Kolloquiums am 21. Juni 1995. Hrsg.: E. Niggemann u. K. Lepsky. Düsseldorf: Universitäts- und Landesbibliothek 1996. S. 13-36. (Schriften der Universitäts- und Landesbibliothek Düsseldorf; Bd.25)
MILOS: Automatische Indexierung für Bibliotheken: Handbuch. Hrsg.: Softex GmbH Saarbrücken u. Universitäts- und Landesbibliothek Düsseldorf. Stand: Juni 1996. Düsseldorf: Universitäts- und Landesbibliothek. 1996. 94 Bl.
4) Die vollständige Liste der Fragen wird im ausführlichen Bericht enthalten sein.
5) Details des Vorgehens finden sich - wie für alle anderen Fragestellungen auch - im ausführlichen Bericht.
6) Die Angabe solcher Zahlen ist problematisch, da die statistische Mittelung keinen Rückschluß auf den einzelnen Fall zuläßt; die Streuung der auf die einzelnen Suchfragen bezogenen Treffermengen war teilweise beträchtlich. Details können dem ausführlichen Abschlußbericht entnommen werden.
7) Die Angabe dieser Zahlen für Präzision erfolgt wie üblich durch einen Quotienten, der das Verhältnis zwischen gefundenen relevanten Treffern und gefundenen Treffern angibt und somit immer zwischen 0 und 1 liegt. Die Relevanz 1 ist dabei der Idealfall; je dichter der Wert bei 1 liegt, desto geringer ist der Anteil nicht relevanter Dokumente.
8) In lediglich einem einzigen Fall lieferte dabei die Indexierung eine Treffermenge ohne relevanten Treffer. Dieser Fall betraf eine Suchfrage, die bewußt die Grenzen der Leistungsfähigkeit der Indexierung testen sollte; der Fall wird im ausführlichen Bericht genauer diskutiert.
9) Dieses Phänomen ist selbstverständlich nicht neu oder unbekannt. In vielen bibliographischen Datenbanken wird es durch den Einsatz eines Thesaurus in einem Abfrage Front end erzielt. Als neu kann jedoch betrachtet werden, daß es hier gleichsam als Nebenprodukt einer maschinellen Indexierung erzielt wird.