Publikationen Hierarchiestufe höher Vorherige Seite Nächste Seite

BIBLIOTHEKSDIENST Heft 1, 97

Maschinelle Indexierung auf dem Prüfstand

Ergebnisse eines Retrievaltests zum MILOS II Projekt

Winfried Gödert, Martina Liebig

Vorbemerkungen

Am Fachbereich Bibliotheks- und Informationswesen der Fachhochschule Köln wurde in der Zeit von November 1995 bis August 1996 ein Retrievaltest zur Bewertung der im DFG-Projekt MILOS II zur maschinellen Indexierung im Bibliotheksbereich erstellten Daten durchgeführt1). Von der Universitäts- und Landesbibliothek Düsseldorf wurden die dafür notwendigen Daten bereitgestellt. Die Ergebnisse des Tests liegen nunmehr vor und sollen hiermit in einer ersten Zusammenfassung der interessierten Öffentlichkeit vorgestellt werden2).

Datengrundlage

Grundlage für den Test war eine Datenbank mit knapp 190.000 Buchtiteln der Erscheinungsjahre 1990-1995 aus dem Datenpool Der Deutschen Bibliothek. Die Titel verteilten sich auf alle Sachgruppen der Deutschen Nationalbibliographie mit Ausnahme der Belletristik, der Kinder- und Jugendliteratur sowie Kalender, etc. Die Titel wurden im Rahmen des DFG-Projektes MILOS II einer maschinellen Indexierung unterzogen. Der Ablauf der Indexierung in diesem Projekt sowie der Leistungsumfang der eingesetzten Software sind an anderer Stelle ausreichend beschrieben worden3), so daß hier einige Stichwörter genügen sollen, um anzudeuten, welche Maßnahmen zur Wortformenreduzierung und zur Erzeugung der Indexierungsdaten Bestandteil des Verfahrens waren:

Die in der Indexierungs-Software ebenfalls enthaltene Möglichkeit zur Erkennung von Mehrwortgruppen war im Rahmen des MILOS II-Projektes nicht zugeschaltet worden.

Die erzeugten Daten wurden für die Durchführung differenzierter Suchen in einer Online-Umgebung als Allegro-Datenbank aufbereitet. ALLEGRO wurde gewählt, weil zum einen mit dieser Software die Anbindung der Indexierungsdaten an die vorhandenen Titeldaten am einfachsten zu bewerkstelligen war, und sich zum anderen die Register für die Suche individuell generieren ließen.

Ziele und Vorgehensweise des Retrievaltests

Ein Retrievaltest bewertet die Qualität von Indexierungsergebnissen in Recherchesituationen. Aufgabe eines Retrievaltests ist es somit, ausgehend von (möglichst der Realität entnommenen) Suchfragen Bewertungen über die erzielten Suchergebnisse hinsichtlich ihres Umfanges (Größe der Treffermenge) und ihrer inhaltlichen Präzision (Anteil der auf die Frage inhaltlich passenden Titel) vorzunehmen. Mit einem Retrievaltest soll nicht im Einzelfall geprüft werden, ob die Qualität eines zugeteilten Indexates - unabhängig davon, ob intellektuell oder maschinell zugeteilt - einer nachträglichen intellektuellen Überprüfung standhält.

Insofern hatte dieser Retrievaltest nicht die Aufgabenstellung, einen Vergleich zwischen RSWK-Daten und den maschinell erzeugten Indexierungsdaten herzustellen. Ein solcher Vergleich wäre schon deswegen unsinnig, weil die RSWK-Daten ja neben den Titel-Stichwörtern Ausgangsmaterial für die maschinelle Indexierung waren. Primärziel war vielmehr die Untersuchung der Frage, ob und inwieweit maschinelle Indexierung einen Beitrag zur Verbesserung eines sachlichen Retrievalvorganges leisten kann, insbesondere dann, wenn für das Verfahren der maschinellen Indexierung Daten intellektueller Indexierung ausgenutzt werden können. Im vorliegenden Fall gehörten hierzu sowohl Daten, die den Dokumenten zugeteilt wurden (RSWK-Ketten) als auch Daten, die in der Struktur eines normierten Vokabulars (SWD) enthalten sind. Letztere Daten wurden für diesen Zweck in eines der Wörterbücher eingearbeitet, die von der Indexierungssoftware benutzt werden.

Bei der Planung eines Retrievaltests ist zugrundezulegen, welchen Umfang die Datenbank besitzt, welche Indexierungsverfahren zur Erzeugung der Daten eingesetzt wurden, welche Retrievalumgebung zur Verfügung steht und welches Relevanzkriterium gewählt wird. Ferner ist eine Liste der zu verwendenden Suchfragen zusammenzustellen. Schließlich ist zu prüfen, ob die Möglichkeit besteht, die auf eine Frage insgesamt vorhandenen relevanten Dokumente zu ermitteln, und wie groß der Aufwand zur Ermittlung ist.

Der Umfang der Datenbank war bei diesem Retrievaltest mit ca. 190.000 Titeln weitaus größer als sonst in der Literatur berichtet. Für den Test wurde eine Liste von 100 Suchfragen zugrundegelegt. Es handelt sich dabei um die 50 Fragen, die bereits im Retrievaltest zum MILOS II-Projekt verwendet worden waren sowie um 50 weitere4). Sie sind entsprechend den in der Literatur berichteten Benutzergewohnheiten zur Formulierung von Suchfragen zusammengestellt worden und lassen sich in folgende Gruppierung bringen:

  1. Fragen nach einfachen Sachverhalten mit einem Suchbegriff (einschließlich Komposita)
  2. Fragen nach Sachverhalten mit 2 Suchbegriffen
  3. Fragen, in denen Beziehungen zwischen mehreren Begriffen vorhanden sind
  4. Fragen, die Adjektiv-Substantiv-Verbindungen für einen festen Begriff enthalten
  5. Fragen, die Eigennamen mit einer Mehrwort-Verbindung oder Zählung enthalten
Die in Benutzeruntersuchungen statistisch beobachteten Häufigkeiten dieser Fragentypen wurden bei der Zusammenstellung der 100 Fragen ebenfalls berücksichtigt. Inhaltlich mußten solche Fragen ausgewählt werden, die den im Alltag an bibliothekarische OPACs gestellten Fragen entsprechen. Da bislang kein allgemeinverbindlicher Kanon derartiger Fragen vorliegt, ist eine solche Zusammenstellung immer subjektiv und kann nicht von vornherein als repräsentativ betrachtet werden. Einige wenige Fragen wurden konstruiert und exemplarisch berücksichtigt, um die vermuteten Leistungsgrenzen des eingesetzten Verfahrens zur maschinellen Indexierung zu verifizieren oder zu falsifizieren.

Alle Fragen wurden in der Datenbank mit Hilfe folgender fünf Register bearbeitet.

Für jede Suchfrage wurden die Treffermengen und die Zahl der relevanten Treffer ermittelt. Hierbei mußten methodisch verschiedene Fragen beantwortet werden:
  1. Die Durchführung von Suchen ist abhängig von der zur Verfügung stehenden Retrievalumgebung. Spezifisch für ALLEGRO ist das Suchen über (meist wortinvertierte) Register, d.h. bei einer Suche ist einerseits das alphabetische Umfeld des Suchbegriffs sichtbar, andererseits sind z. B. Adjektiv-Substantiv-Verbindungen teilweise nur durch kombinierende Verknüpfung der Wörter suchbar. Es mußte also die Suchworteingabe bzw. die Eingabe einer komplexen Mehrwortfrage seitens eines fiktiven Benutzers mit den Gegebenheiten alphabetisch geordneter Listen in Übereinstimmung gebracht werden. Die Alternative einer Eingabe über Suchmasken, ohne gleichzeitig das Register aufgeblättert zu bekommen - wie dies beispielsweise in vielen WWW-OPACs der Fall ist - stand nicht zur Verfügung. So waren verschiedene Abwägungen im Hinblick darauf zu treffen, daß bei Eingabe einer Frage in eine Suchmaske nicht die gleiche Transparenz des Vokabulars (z.B. Singular-Pluralformen oder Flektionsendungen) gegeben ist wie in einer alphabetisch geordneten Liste. Soweit wie möglich und sinnvoll wurden die Suchfragen in verschiedene Eingabevarianten transformiert, um die Treffermengen zu bilden5).

  2. Es mußte ein Relevanzkriterium für die Bestimmung der auf eine Suchfrage bezogenen Menge aller relevanten Treffer festgelegt werden. In Abwägung aller in der Literatur enthaltenen Varianten solcher Relevanzkriterien wurde folgende Festlegung benutzt: Jeder Titel, der nach Ansicht aller Daten der bibliographischen Beschreibung einschließlich der zugeteilten Schlagwörter nicht als von vornherein irrelevant erschien, bei dem also ein Interesse vermutet werden konnte, sich das Originaldokument genauer anzusehen, wird als relevant gewertet.

  3. Klassische Retrievaltests berechnen für die Bewertung der erzielten Treffermengen die Größen Recall und Präzision jeweils auf der Basis der gefundenen relevanten bzw. nicht relevanten Dokumente sowie der nicht gefundenen relevanten Dokumente. Zur Berechnung des Recall ist es erforderlich zu wissen, welche relevanten Dokumente in einer Datenbank für eine spezielle Frage insgesamt enthalten sind. Bei dem Umfang der hier vorhandenen Datenbank war es von vornherein ausgeschlossen, alle enthaltenen Dokumente zu kennen. Insofern war es auch nicht möglich, für alle Suchfragen alle in der Datenbank vorhandenen relevanten Dokumente zu bestimmen. Es wurde darauf verzichtet, durch Einsatz aller zur Verfügung stehenden Retrieval-Hilfsmittel eine Annäherung an diese Dokumentmenge zu finden, da nicht sichergestellt werden konnte, daß dies gleichmäßig für alle 100 Fragen möglich sein würde. Die Angabe einer rechnerischen Größe Recall war damit nicht möglich. Die vorgenommene quantitative Analyse beschränkt sich dementsprechend auf die Angabe der Werte der gefundenen Titel, die in Beziehung gesetzt werden zu den gefundenen relevanten Titeln.
Zur Begründung dieser Festsetzungen sei zusammenfassend noch einmal erwähnt, daß für Retrievaltests im bibliothekarischen Bereich der hier zugrundegelegte Dokumentenbestand außergewöhnlich groß war. Jeder Retrievaltest muß die bereits genannten Parameter Indexierungsverfahren, Retrievalumgebung, Relevanzkriterium, Liste der verwendeten Suchfragen, Möglichkeiten und Aufwand zur Ermittlung insgesamt relevanter Dokumente aufeinander abstimmen. Im vorliegenden Fall galt die Priorität der Bearbeitung einer möglichst großen Anzahl von Suchfragen und nicht dem Versuch einer Bestimmung aller relevanten Dokumente für die 100 Suchfragen.

Ergebnisse des Retrievaltests

Die im Retrievaltest erzielten Resultate sollen nachfolgend zusammenfassend dargestellt werden. Als wichtigstes Ergebnis kann angesehen werden, daß die dem MILOS II-Projekt zugrunde liegende Methode der maschinellen Indexierung ein wichtiger Beitrag zur Lösung eines der wichtigsten Probleme des Information Retrieval - die Vermeidung bzw. weitgehende Reduktion von Null-Treffermengen - sein kann.

Im Mittel aller 100 Suchanfragen lieferten die Daten der maschinellen Indexierung gegenüber den Titel-Stichwortdaten eine um rund dreifach höhere Zahl relevanter Treffer; die verstichworteten RSWK-Ketten lieferten im gleichen Vergleich eine um rund zweifach höhere Zahl relevanter Treffer6). Dabei kann über das Mittel der 100 Fragen nicht gesagt werden, daß sich der Zugewinn an relevanten Treffern bei den Daten der maschinellen Indexierung in einer übermäßig durch Ballast angereicherten Treffermenge verbirgt. Die entsprechenden Zahlen für die Präzision lauten: Titel-Stichwortdaten: 0,82; Daten der maschinellen Indexierung: 0,75; verstichwortete RSWK-Ketten: 0,95 7). Für die qualitative Bewertung ist es sehr interessant, daß die Suche mit Titel-Stichwortdaten in 15 Fällen, die Suche mit verstichworteten RSWK-Ketten in 30 Fällen, die Suche nach Daten der maschinellen Indexierung jedoch nur in 3 Fällen Null-Treffermengen ergab8).

Eine entsprechende Einbeziehung der Suche nach vollständigen RSWK-Ketten war aus verschiedenen Gründen nicht durchführbar, obwohl in der Datenbank ein derartiges Register aufgebaut worden war. Zum einen hätte für einen Vergleich mit den anderen Treffermengen eine Retrievalumgebung vorhanden sein müssen, in der sowohl der RSWK-gerechte Zugriff auf die Ketten als auch der Zugriff auf die semantische Strukturierung der SWD-Einträge für Retrievalzwecke möglich gewesen wäre. Eine solche Retrievalumgebung ist derzeit auf PC-Basis nicht vorhanden. Zum anderen ist es für die Simulation von Online-Suchen nicht angebracht, vor Beginn einer Recherche nach RSWK-Daten erst alle Relationierungen von Hand aus der SWD heraussuchen zu müssen.

Die Gründe für die weitgehende Vermeidung von Null-Treffermengen können darin gesehen werden, daß im MILOS II-Projekt neben den ohnehin für die Indexierung eingesetzten Wörterbüchern ein normiertes und semantisch strukturiertes Vokabular (hier die SWD) verwendet wurde. Hierdurch gelingt es, die Treffermenge nicht allein auf der Basis eines einfachen Matching Suchwort - Indexierungswort zu bilden, sondern sowohl synonyme Wortformen als auch das semantische Umfeld einer Suchanfrage mit einzubeziehen, d.h. es gelingt sowohl für Unter- / Oberbegriffsbeziehungen als auch für äquivalente Zusammenhänge. Dieses im Vergleich zum einfachen Wort-Matching in bibliographischen Datenbanken qualitativ verbesserte Suchverhalten wurde im Test durch zahlreiche Beispiele deutlich9). Es darf vermutet werden, daß eine verbesserte und vollständige semantische Struktur der SWD weitere Verbesserungen zur Generierung des Indexierungsvokabulars und damit der Abfragequalität ergeben würde.

Wünschenswert wäre der Einsatz von semantischen Disambiguierungsinstrumenten, da eine rein wortbezogene maschinelle Indexierung semantische Ambiguitäten nicht automatisch erkennen und bereinigen kann. Solch eine Form maschineller Indexierung trägt somit zwangsläufig potentiell zur Erhöhung von Ballastraten bei. Dies wurde durch den Retrievaltest durchaus bestätigt. Eingesetzt werden könnten beispielsweise Systematik-Angaben, die über die verwendeten Relationen-Wörterbücher erkannt werden. Zusätzlich können statistische Verfahren verwendet werden. Nicht abschließend geklärt werden konnte die Frage, inwieweit und in welchem Ausmaß sich diese Phänomene negativ auf die Bewertung von Treffermengen auswirken.

Zusammenfassend ergibt sich, daß die Güte einer maschinellen Indexierung grundsätzlich abhängig ist von:

a) den Eigenschaften der eingesetzten Indexierungssoftware zur

b) der Qualität der verwendeten Ausgangsdaten Schlußfolgerungen

Folgende Schlußfolgerungen lassen sich aus dem Retrievaltest ziehen. Maschinelle Indexierung kann eine wesentliche Ergänzung für die Erschließung bibliographischer Daten und den Aufbau sachlicher Abfragekomponenten bedeuten. Neben den schon dargelegten Faktoren sprechen hierfür folgende Punkte:

Verfahren der maschinellen Indexierung können nicht alle Probleme lösen, die aus den einschlägigen Benutzerstudien als Unzulänglichkeiten des sachlichen Retrievals berichtet werden. Sie können jedoch einen wichtigen Beitrag zur Verbesserung der Datenbasis schaffen. Begleitet werden müssen solche Aktivitäten notwendigerweise durch Verbesserungen der Retrievalumgebungen, z.B. durch: Hinsichtlich des eingesetzten Verfahrens sind verschiedene Probleme deutlich geworden, deren Lösung zu einer weiteren Verbesserung der Ergebnisse führen sollte:
  1. Sowohl die Titelformulierungen als auch das Vokabular der SWD enthalten Mehrwortverbindungen. Durch das Abschalten der Erkennung von Mehrwortverbindungen im Rahmen der maschinellen Indexierung konnten diese Mehrwortverbindungen bei der Indexierung nicht erkannt und entsprechend verarbeitet werden. Besonders die Relation zwischen einem Schlagwort der SWD zu einem anderen Schlagwort mit einem Homonymenzusatz führten dabei zu unbefriedigenden Ergebnissen, da beide Bestandteile des homonymen Schlagwortes relationiert und bei der Treffermengenbildung berücksichtigt wurden. Es darf vermutet werden, daß ein erneuter Indexierungslauf mit zugeschalteter Mehrworterkennung eine qualitative Verbesserung der Ergebnisse mit sich bringen würde.

  2. Die Spracherkennung der Titel als Vorbereitung zur Indexierung weist noch Schwächen auf, wodurch einige Titel nicht indexiert wurden. Es ist eine Verbesserung des Spracherkennungsalgorithmus anzustreben.

  3. Abkürzungen im Zusatz zum Hauptsachtitel bereiten Probleme (z.B. georg. von georgisch). Hierbei wird in allen Datensätzen, in denen der Vorname Georg enthalten ist, auf "Georgien" relationiert).

  4. Es gibt Probleme mit Sachtiteln, die aufgrund ihrer Sprach- und Wortwahl für eine maschinelle Indexierung nicht geeignet sind. Selbst der hier durchgeführte Retrievaltest mit knapp 190.000 Dokumenten erlaubt aber noch nicht die Ableitung präziser Folgerungen.

  5. Die zweiseitige Berücksichtigung der Synonym-Relation der SWD, d.h. die Indexierung auch mit Nicht-Ansetzungsformen für den Benutzerzugriff, führte zu unverhältnismäßig vielen 'falschen' Indexierungsergebnissen. Diese Problemstellung ist besser durch eine Aufgabenverteilung dokumentspezifisches Indexierungsvokabular auf der einen Seite und benutzerbezogenes Suchvokabular auf der anderen Seite zu lösen.
Maschinelle Indexierung kann nicht alle Eigenschaften aufweisen, die einer differenzierten Inhaltsanalyse und nachfolgenden intellektuellen Indexierung eigen sind und bedarf sicher noch der Verbesserung. Betrachtet man allein die Retrievalsituation, so kann festgehalten werden: Eine die intellektuelle Indexierung unterstützende maschinelle Indexierung muß so lange für das Retrieval einer reinen intellektuellen Indexierung als überlegen betrachtet werden, wie nicht Retrievalsysteme angeboten werden, die aufbauend auf der intellektuellen Indexierung gleich gute Retrievaleigenschaften besitzen. Bekanntermaßen kranken die heute verbreiteten Retrievalumgebungen sowohl häufig daran, daß die Zerschlagung von RSWK-Schlagwörtern Mehrdeutigkeiten im Suchvokabular erzeugt (man vergleiche beispielsweise die im Test ermittelte Präzision von 0,95 für die verstichworteten RSWK-Ketten) als auch daran, daß die semantische Struktur des normierten Vokabulars nicht für Suchabläufe genutzt werden kann (dies erklärt die vergleichsweise niedrige Zahl der relevanten Treffer bei Suchen mit verstichworteten RSWK-Ketten). Welcher der beiden Ansätze zum Aufbau befriedigender Retrievalsysteme den höheren Ressourceneinsatz erfordert, muß durch andere Untersuchungen geklärt werden.

Insofern kann nur empfohlen werden, die im MILOS II-Projekt entwickelte Methode zur maschinellen Indexierung für bibliographische Daten auf andere - teilweise oder gar nicht inhaltlich erschlossene - Datenbestände anzuwenden.

1) Dieser Retrievaltest wurde als Forschungsprojekt von der Fachhochschule Köln finanziert. Für die Dauer des Projektes konnte eine Mitarbeiterin (M. Liebig) eingestellt werden, die mit dem Projektleiter den Test vorbereitete und unter Mitwirkung studentischer Hilfskräfte den Test durchführte und auswertete.

2) Die ausführliche Dokumentation des Tests und seiner Ergebnisse erfolgt in einer separaten Veröffentlichung, die 1997 in der Schriftenreihe der Universitäts- und Landesbibliothek Düsseldorf erscheinen wird. Diese Veröffentlichung wird neben einer allgemeinen Darstellung zur Planung und Durchführung von Retrievaltests alle Daten sowie eine Reihe von Suchbeispielen enthalten, die die konkrete Vorgehensweise deutlich machen sollen. In diesem ausführlichen Bericht werden auch alle Literaturhinweise enthalten sein, die hier aus Platzgründen unterdrückt wurden.

3) Vgl. z.B.: Lepsky, K.: Maschinelles Indexieren zur Verbesserung der sachlichen Suche im OPAC: DFG-Projekt an der Universitäts- und Landesbibliothek Düsseldorf. In: BIBLIOTHEKSDIENST. 28(1994) H.8, S.1234-1242.
Lepsky, K.: RSWK - und was noch?: Stellungnahme zum Bericht 'Sacherschließung in Online-Katalogen' der Expertengruppe Online-Kataloge.In: BIBLIOTHEKSDIENST. 29 (1995) H.3, S.500-519.
Lepsky, K., J. Siepmann u. A. Zimmermann: Automatische Indexierung für Online-Kataloge: Ergebnisse eines Retrievaltests. In: Zeitschrift für Bibliothekswesen und Bibliographie. 43(1996) H.1, S.47-56.
Lepsky, K.: Automatische Indexierung und bibliothekarische Inhaltserschließung: Ergebnisse des DFG-Projekts MILOS I. In: Zukunft der Sacherschließung im OPAC: Vorträge des 2. Düsseldorfer OPAC-Kolloquiums am 21. Juni 1995. Hrsg.: E. Niggemann u. K. Lepsky. Düsseldorf: Universitäts- und Landesbibliothek 1996. S. 13-36. (Schriften der Universitäts- und Landesbibliothek Düsseldorf; Bd.25)
MILOS: Automatische Indexierung für Bibliotheken: Handbuch. Hrsg.: Softex GmbH Saarbrücken u. Universitäts- und Landesbibliothek Düsseldorf. Stand: Juni 1996. Düsseldorf: Universitäts- und Landesbibliothek. 1996. 94 Bl.

4) Die vollständige Liste der Fragen wird im ausführlichen Bericht enthalten sein.

5) Details des Vorgehens finden sich - wie für alle anderen Fragestellungen auch - im ausführlichen Bericht.

6) Die Angabe solcher Zahlen ist problematisch, da die statistische Mittelung keinen Rückschluß auf den einzelnen Fall zuläßt; die Streuung der auf die einzelnen Suchfragen bezogenen Treffermengen war teilweise beträchtlich. Details können dem ausführlichen Abschlußbericht entnommen werden.

7) Die Angabe dieser Zahlen für Präzision erfolgt wie üblich durch einen Quotienten, der das Verhältnis zwischen gefundenen relevanten Treffern und gefundenen Treffern angibt und somit immer zwischen 0 und 1 liegt. Die Relevanz 1 ist dabei der Idealfall; je dichter der Wert bei 1 liegt, desto geringer ist der Anteil nicht relevanter Dokumente.

8) In lediglich einem einzigen Fall lieferte dabei die Indexierung eine Treffermenge ohne relevanten Treffer. Dieser Fall betraf eine Suchfrage, die bewußt die Grenzen der Leistungsfähigkeit der Indexierung testen sollte; der Fall wird im ausführlichen Bericht genauer diskutiert.

9) Dieses Phänomen ist selbstverständlich nicht neu oder unbekannt. In vielen bibliographischen Datenbanken wird es durch den Einsatz eines Thesaurus in einem Abfrage Front end erzielt. Als neu kann jedoch betrachtet werden, daß es hier gleichsam als Nebenprodukt einer maschinellen Indexierung erzielt wird.


Seitenanfang