Publikationen Hierarchiestufe höher Vorherige Seite Nächste Seite

Bibliotheksdienst Heft 5, 1996

OSIRIS

Osnabrück Intelligent Research Information System - ein Hyperbase Front End System für OPACs

Ingrid Recker, Marc Ronthaler, Hartmut Zillmann

1. Problemstellung und Zielsetzung

Die Bucherwerbungen der Universitätsbibliothek Osnabrück der letzten 15 Jahre sind seit Anfang 1993 in einem Online-Katalog im PICA-Lokalsystem LBS3 (ca. 700.000 Datensätze) nachgewiesen, der über eine VT100-Schnittstelle mittlerweile im Internet 'weltweit' recherchiert werden kann. Der Katalog ist - weil er auch den internen bibliothekarischen Belangen genügen muß - an seiner Oberfläche durch den weit verbreiteten Kompromiß zwischen Endbenutzeranforderungen und bibliothekarischer Indexierung geprägt.

Als besondere Schwierigkeit kommt hinzu, daß der vorhandene Datenbestand nicht durchgängig verbal erschlossen ist. Die Sachrecherche des Endbenutzers erfolgt deshalb fast ausschließlich über die 'Quick-and-Dirty-Methode' der Stichwortrecherche; die für den Datenbestand vorhandene durchgängige klassifikatorische Erschließung nach der GHB-Systematik (GHBS) wird praktisch nicht benutzt, weil die Erschließungsmerkmale (Notationen) zur Zeit nur über eine gedruckte Ausgabe der Systematik ermittelt werden können.

Und selbst in Hinsicht der einfachen Titelsuche (Besitzt die Bibliothek ein bestimmtes Werk?) ist zu erkennen, daß ein großer Prozentsatz der Endbenutzer am vorhandenen Interface beispielsweise. eine Autor-Stichwort-Verknüpfung nicht kompetent ausführen kann. Vorhandene weiterführende Rechercheinstrumente wie ADI-Einschränkungen mit Erscheinungsjahren oder Materialarten (Zeitschrift) werden nicht einmal registriert (ADI=Additional Discriminating Information).

Für einen kleinen Prozentsatz qualifizierter Endbenutzer durchaus wichtige Indizes werden demgegenüber im Interesse eines für den Durchschnittsbenutzer überschaubaren Interface gar nicht erst angelegt oder versteckt (bspw. mögliche, aber nicht flächendeckend realisierbare Sucheinstiege nach LCC- oder DDC-Notationen oder LC-Subject-Headings oder RSWK-Schlagwörtern).

Auch die künftigen Möglichkeiten der sachlichen Erschließung in einem großen Bibliotheksverbund (unter Einsatz der Schlagwortnormdatei SWD) lassen in diesem Zusammenhang keine 'Rückwärtsperspektive' im Sinne einer irgendwann zu erwartenden rückwärtigen Erschließung des vorhandenen Bestandes erkennen. Hier sind nur langfristig (in 10 Jahren?) durch erhebliche erschließungstechnische Investitionen Retrievalverbesserungen zu erwarten, die keine Lösung für den 'Altbestand' der Bibliothek (Erwerbungen bis 1996) erkennen lassen.

Das Osiris-Projekt hat deshalb als Zielsetzung, auf der Basis des vorhandenen Daten- und Informationsbestandes in Form eines Intelligenten User-Interface deutliche qualitative Verbesserungen im Hinblick auf Formal- und Sachrecherchen des Endbenutzers zu erbringen.

Darüber hinaus will das Osiris-Projekt dem OPAC der Bibliothek Internationalität durch eine englischsprachige Oberfläche geben, die die Sachrecherche mit englischsprachigen Suchbegriffen umfaßt.

Gleichsam als Nebenprodukt der Arbeiten entsteht eine Fachreferentenoberfläche, die für die Fachreferatsarbeit effektive Möglichkeiten im Rahmen eines Computer Aided Indexing (CAI) erbringen kann.

2. Strategien für den Endbenutzerzugang zum OPAC

Das Osiris-Projekt sieht einen dreifach gestuften Endbenutzerzugang zur OPAC-Datenbank vor:

Diese Einteilung weist verschiedene Vorzüge auf. Sie vermeidet Verquickungen von Formal- und Sachrecherchen und kann deshalb die für den jeweils gewünschten Bereich optimalen Instrumente zur Verfügung stellen. Darüber hinaus eröffnet diese Einteilung die Möglichkeit, einen wirklichen Expertenmodus für die OPAC-Recherche einzurichten, der auch z. T. nur für den Spezialisten sinnvolle Retrievalmöglichkeiten (LCC, DCC, LC-Subject-Headings etc.) bietet.

Beispiel 2:

2.1 Die Formalrecherche

Die für die Formalrecherche zur Verfügung gestellten Instrumente sollen einen großen Prozentsatz der gängigen Benutzerfragen im Bereich der Titelsuche (known item search) abdecken und in selbsterklärender Form abhandeln.

In diesem Zusammenhang unterscheidet Osiris zwischen:

2.1.1 Die Autor/Titel-Suche

Die hier angebotene Variante der Autor/Titel-Suche erledigt die erforderliche Und-Verknüpfung für den Endbenutzer automatisch und bietet ebenso die Suchmöglichkeit nach allen Werken eines Autors. Dank einer automatischen Endmaskierung der Suchbegriffe genügt es, nur den Nachnamen einer Person einzugeben. Die Titelstichwörter dürfen von der im Titel vorliegenden Form (Singular/Plural, Kasus u. a.) abweichen (Morphologiekomponente, s. u.)

2.1.2 Die Körperschaft/Titel-Suche

Wie bei der Autor/Titel-Suche wird die erforderliche Und-Verknüpfung für den Endbenutzer automatisch erledigt. Ebenso ist die Suchmöglichkeit nach allen Werken einer Körperschaft gegeben.

2.1.3 Die Suche nach Kongreßpublikationen

Die Suchmaske für Kongreßpublikationen wird einem sehr großen Teil der Endbenutzer erstmals klar machen, daß Suchoptionen nach der Kongreßzählung, dem Kongreßort und dem Kongreßdatum bestehen. Die in der Bibliothek (und im Verbund) praktizierte Erschließungstiefe für Kongreßpublikationen ist den Endbenutzern weitgehend unbekannt.

2.1.4 Die Suche nach Zeitschriften

Die Suchmaske für Zeitschriften nutzt implizit eine (dem Benutzer heute kaum zugängliche) ADI-Einschränkung auf die Materialart 'Zeitschrift' und ist so bestens geeignet, überschaubare Treffermengen zu erzielen, auch wenn - wie bei Zeitschriften oft erforderlich - 'Allerweltswörter' wie 'functional' oder 'analysis' für die Suche verwendet werden.

2.2 Die Sachrecherche (Natural-Language-Schnittstelle)

Die Osiris-Konzeption sieht an der Eingabeschnittstelle zur Sachrecherche natürlich-sprachlichen Input vor. Da die Suche mit Titelstichwörtern und Autorennamen explizit im Bereich Formalrecherche stattfindet, können die Benutzereingaben zur Sachrecherche nicht als implizit logisch verknüpft betrachtet werden, sondern sind auf der Grundlage einer Grammatik der natürlichen Sprache syntaktisch und semantisch zu interpretieren.

Grundsätzlich wird Osiris so angelegt sein, daß hier nicht komplette Sätze behandelt werden müssen. Die Eingabe des Benutzers wird die Vervollständigung eines auf der Eingabemaske vorgegebenen Satzes (Ich suche Literatur zum Thema ...) sein. Es ist also erforderlich, die vom Benutzer vorgenommene Ergänzung dieses auf der Maske vorgegebenen Satzes zu parsen und inhaltlich auf die Terminologie der Klassifikation und weiterer begrifflicher Anreicherungen (s. u.) abzubilden.

Insbesondere wird also kein kompletter und allumfassender Parser benötigt, sondern ein kleiner, auf Teilsätze ausgelegter, robuster und effizienter Parser, der die wesentlichen Fälle verarbeiten kann, gerne auch mal einzelne Fälle in Form von Präzisierungsfragen zurückweisen darf.

2.2.1 Strukturierung der Eingabeschnittstelle

Grundsätzlich sind folgende sachliche Grobstrukturen an der Eingabeschnittstelle zu erwarten: Sachaspekt (z. B. Atomrecht), geographischer Aspekt (z. B. Polen, Hildesheim, Arizona, spanisch), Zeitaspekt (z. B. Antike, 30jähriger Krieg), allgemeiner Zeitaspekt (d.i. das Wort "Geschichte"), Sprachaspekt (z. B. italienisch, spanisch), Formaspekt (z. B. Einführung, Handbuch, Lehrbuch), Personenaspekt (z. B. Kant, Hegel, Sartre) und Aspekt Einzelwerk einer Person (z. B. Kants Kritik der reinen Vernunft).

Ein grundsätzliches 'Verstehen' der bei der Eingabe entstehenden Teilsätze ist erforderlich, um mit diesem Verständnis der Eingabe Suchstrategien auf dem Osiris-Vokabular entwickeln zu können. Das Osiris-Projekt sieht hier vor, die Aspekte Zeit, Form, Person und Einzelwerk einer Person durch die Gestaltung der Eingabemasken isoliert abzufragen.

Besonders zu analysieren sind an der Eingabeschnittstelle also noch der Sachaspekt, geographische Aspekt, allgemeine Zeitaspekt (Geschichte) und Sprachaspekt. Die Analyse der Zusammenhänge basiert auf der Erkennung des Wortes 'Geschichte' und auf der tabellengesteuerten Isolierung des geographischen Aspektes, bzw. anderer Aspekte, die in Schlüsselungen der Systematik abgebildet werden.

Dazu wird eine Schlüsseltabelle mit folgendem Inhalt verwendet: Land, Länderadjektiv, Erdteil und entsprechendes Adjektiv, Region, z. T. Städtenamen (bspw. Städte in Niedersachsen) sowie sonstige Begriffe der GHB-Systematik, die für Schlüsselungen verwendet werden. Die Suchstrategie wird nach der Abbildung der 'erkannten' verschlüsselten Aspekte auf die Schlüssel (bspw. Länderschlüssel) der GHB-Systematik in ihren verschiedenen Bereichen formuliert.

Auf diese Weise gelingt es, Suchanfragen folgender Art zu 'verstehen':

Die Unterscheidung von Sprach- und Länderadjektiven erfolgt im Zusammenhang des mitgegebenen Sachaspektes und seinem Trefferbereich in der Systematik. Bei nicht eindeutigem Trefferzusammenhang ('Morphologie' trifft in der Sprachwissenschaft und der Geologie u. a.) erfolgt eine Rückfrage. Die aus der Suchanfrage isolierten Sachaspekte werden in unterschiedlichen Strategien (nach den verschiedenen Bereichen der GHBS, z. B. Naturwissenschaften, Geschichte, Literaturwissenschaft ...) auf dem Osiris-Vokabular (s. u.) prozessiert.

Generell wird nach der Suche im Osiris-Vokabular eine mehr oder weniger komplexe OPAC-Abfrage formuliert (z. T. mit Spracheinschränkungen, Einschränkungen nach Erscheinungsjahren, z. T. mit Angaben, die sich auf die Cutterung in Signaturen beziehen, bspw. bei Biographien u. a.), in deren Kern jeweils die Abfrage nach den vom System ermittelten Notationen und Schlüsselungen der GHBS steht.

Beim Endbenutzer entsteht dabei keinerlei Berührung mit 'kryptischen' Notationen oder Cutterungen etc.; der Zugang zum Titelmaterial ist ausschließlich verbal. Die zur OPAC-Abfrage erforderlichen Strategien werden vollständig über Tabellen gesteuert.

3. Osiris-Basisvokabular

Das Osiris-Basisvokabular soll in den wesentlichen Teilen aus der OPAC-Datenbank selbst gewonnen werden. Aber auch aus den Klassenbezeichnungen der Systematik sollen Suchbegriffe abgeleitet werden.

3.1 Struktur der OPAC-Datenbank

Seit 1983 werden in der Formalkatalogisierung der Bibliothek maschinenlesbare Katalogisierungsfremdleistungen genutzt. Zuerst die Daten der Deutschen Bibliothek, ab 1986 auch Daten der Library of Congress und der British Library. Die Daten der Deutschen Bibliothek enthielten von Anfang an Schlagwortansetzungen, seit 1986 auch Schlagwörter nach RSWK; die Daten der Library of Congress und der British Library enthalten als Sacherschließungsmerkmale LCC- und DDC-Notationen sowie LC-Subject-Headings und BL-Subject-Headings.

Natürlich sind die genannten Sacherschließungsmerkmale nicht flächendeckend in den Daten der Bibliothek vorhanden, sondern sind eher 'zufällig' da oder nicht da, in Abhängigkeit davon, ob zum Zeitpunkt der Formalkatalogisierung eines Titels Fremddaten der genannten Provenienz vorlagen oder nicht. Sacherschließungsinformationen dieser Art werden dennoch bei einem großen Teil der Titel vorhanden sein.

3.2 Systematik

Zunächst sollen im Osiris-Projekt aus den Klassenbezeichnungen der GHB-Systematik Suchbegriffe abgeleitet werden, die in ihrer Ansetzung RSWK-konform gehalten werden sollen.

Beispiel:

Suchbegriffe: Ausländisches Strafrecht ; Ausländisches Strafprozeßrecht ; Internationales Strafrecht ; Internationales Strafprozeßrecht

Die Systematik soll darüber hinaus ins Englische übersetzt werden. Die aus den englischsprachigen Klassenbezeichnungen abgeleiteten Suchbegriffe sollen strukturell der Ansetzungspraxis der LC-Subject-Headings konform sein.

3.3 RSWK-Schlagwörter

Die Gewinnung von RSWK-Schlagwörtern als Registerbegriffe kann aus dem im OPAC vorliegenden Titelmaterial weitgehend automatisch erfolgen. Die entsprechenden Informationen werden aus dem Titelmaterial extrahiert und in Form einer Tabelle abgelegt:

Der Zähler gibt darüber Auskunft, wie oft die Kombination 'bestimmte Notation/bestimmtes Schlagwort' bei Titeln angetroffen wurde, und kann in den Osiris-Suchstrategien als 'Signifikanzbarometer' verwendet werden.

3.4 LC-Subject-Headings, BL-Subject-Headings

Ebenso werden aus den Titeldaten der Bibliothek LC-Subject-Headings und BL-Subject-Headings extrahiert und mit einem Zähler als Registerbegiffe zur GHB-Systematik abgelegt.

3.5 BK, DDC und LCC

Im selben Arbeitsgang werden aus den Daten - sofern vorhanden - auch BK-Notationen4

Nach der Auswahl wird, wie oben beschrieben, eine (verdeckte, mehr oder weniger komplexe) OPAC-Abfrage mit den Notationen der getroffenen Klassen (ggf. auch einschränkenden Kriterien, Sprache, Erscheinungsjahr etc.) formuliert.

Über Hyperlinks ist es auch möglich, sich ganze Fächer aus der Systematik bzw. die übergeordneten Klassen eines Fachgebietes anzeigen zu lassen und auf diese Weise ein Browsing in der Systematik vorzunehmen.

4.7 Englischsprachige OPAC-Oberfläche (einschl. Sachrecherche)

Für die angestrebte englischsprachige Oberfläche werden englischsprachige Masken und die englische Übersetzung der Systematik verwendet. Die Suche erfolgt analog zu 4.6 auf der Basis des Wortindex (englisch), bestehend aus dem Vokabular, das aus den LC-Subject-Headings bzw. BL-Subject-Headings gewonnen wurde.

5. Die 'Intelligenz' von Osiris

Besonders kritisch bei Endbenutzerrecherchen im OPAC sind 'Null-Treffer-Situationen', die sehr häufig allein auf Grund technischer Probleme bei der Formulierung einer Suchanfrage entstehen, oder Trefferzahlen über das Maß des Überschaubaren hinaus (mehr als 300 Titel?), oder gar Trefferzahlen, die vom System nicht mehr in Sets zusammengestellt werden (>1.000, >1.500 ...)

Die mögliche Trefferzahl im Osiris-Vokabular dürfte wohl nicht höher als maximal 50 sein, so daß ein Trefferübermaß nicht vorkommen kann, auch nicht bei phonetischer Suche (s. u.). (Maximalzahlen bei fächerübergreifenden Themen wie 'Umweltschutz' etc.). Aber auch bei Null-Treffer-Situationen sind noch geeignete Strategien denkbar.

5.1 'Selbstlernende' Sachrecherche

Zur Vermeidung von Null-Treffer-Situationen sieht das Osiris-Projekt ein Browsing-Angebot in den Klassenbezeichnungen der Systematik vor. Trifft also ein Suchbegriff nicht im Osiris-Vokabular, besteht für den Endbenutzer die Möglichkeit, die für ihn relevante Klasse der Systematik selbst auszuwählen.

Nach dem 'Grad der Zufriedenheit' des Benutzers bei der dann folgenden OPAC-Recherche soll Osiris 'vorsichtige' Lernfunktionen bezogen auf das vom Benutzer verwendete Vokabular entwickeln, d. h. den vom Benutzer eingegebenen Suchbegriff (mit geringer Signifikanz und besonderer Kennzeichnung) in den Wortindex aufnehmen (selbstlernende Sachrecherche).

5.2 'Sound-Hits' (phonetische tSuche)

Frustrierende Null-Treffer-Situationen entstehen auch leicht bei Unklarheit über die Schreibweise eines Suchbegriffes ('Grafik, Graphik' etc.) oder bei leichten Schreibfehlern ('Toplogie' statt 'Topologie'). In dieser Hinsicht soll Osiris eine angemessene Robustheit gegenüber Schreibfehlern entwickeln.

Osiris bietet in diesen Fällen 'Sound-Hits' zur besseren Orientierung und ggf. zur Korrektur der Eingabe. - Im Test befindet sich eine Komponente, die die englische Phonetik entsprechend abbildet. Die Komponente ist unempfindlich gegenüber fehlerhaften Schreibweisen wie bspw: Teater, Glahs, Spiehlteorie, Oprator, Grupenteorie, Zalenteorie, Toplogy, ...

5.3 Die semantische Komponente

Die semantische Komponente von Osiris soll zunächst Suchstrategien auf dem Osiris-Vokabular eröffnen, die sich aus der Vervollständigung eines vorgegebenen Satzes an der Eingabeschnittstelle durch den Benutzer ergeben können.

5.3.1 Die Eingabeschnittstelle

Auf Grund der Konzeption des Osiris-Systems ist an der Eingabeschnittstelle zur Sachrecherche natürlichsprachlicher Input zu erwarten. Da die Suche mit Titelstichwörtern und Autorennamen explizit im Bereich Formalrecherche stattfindet, können die Benutzereingaben zur Sachrecherche nicht als implizit logisch verknüpft betrachtet werden, sondern sind auf der Grundlage einer Grammatik der natürlichen Sprache syntaktisch und semantisch zu interpretieren.

Angesichts der spezifischen Aufgabe der Sachrecherche-Schnittstelle ist die Möglichkeit einer völlig unbeschränkten Texteingabe durch den Benutzer unangemessen. Berücksichtigt man darüber hinaus den enormen Aufwand, der für die Behandlung wirklich beliebigen natürlichsprachlichen Inputs zu betreiben wäre, ist die völlig unbeschränkte Texteingabe durch den Benutzer im Osiris-System nicht wünschenswert.

Die Eingabe zur Sachrecherche im Osiris-Systems wird deshalb die Vervollständigung eines auf der Eingabemaske vorgegebenen Satzes sein. Ohne daß der Benutzer gezwungen wird, sich an eine bestimmte Form der Eingabe zu gewöhnen, wird er dennoch unbewußt zur Formulierung seiner Eingabe mit Hilfe ganz bestimmter syntaktischer Strukturen geleitet. Der Satz "Ich suche Literatur zum Thema ..." ist korrekt nur durch eine Nominalphrase zu ergänzen ("China"), die eventuell eine komplexe interne Struktur haben kann ("China zur Zeit der Kulturrevolution", "Abfallwirtschaft mit dem neuen ...", "Genschers Außenpolitik", "Pädagogik in Frankreich", "Deutsche Flugzeuge nach 1950" etc.). Komplexität und Ambiguität der Eingabe werden so auf eine dem Benutzer natürlich erscheinende Art und Weise reduziert.

5.3.2 Die Analysekomponente

Auf der Basis der Halbsatzergänzung genügt zur Analyse der Benutzereingabe also ein relativ kleiner, auf bestimmte syntaktische Phänomene optimierter Parser, der eine effiziente Eingabeverarbeitung erwarten läßt.

Ein wichtiger Punkt bei der Analyse der Benutzereingaben ist die ausreichende Robustheit des Parsers gegenüber fehlerhaften Eingaben. Rechtschreibfehler sollten möglichst nicht zu einer Ablehnung der Eingabe führen, sondern eine "konstruktive" Rückfrage (phonetische Suche, s. o.) an den Benutzer auslösen. "Konstruktiv" soll in diesem Zusammenhang heißen, daß der Benutzer nicht nur auf einen eventuell vorliegenden Rechtschreibfehler in seiner Eingabe hingewiesen, sondern daß ihm, wenn möglich, eine korrigierte Version seiner Eingabe zur Bestätigung vorgelegt wird. Syntaktisch fehlerhafte Eingaben müssen möglichst auf die erwartete syntaktische Struktur (also die korrekte Halbsatzergänzung) der Eingabe zurückgeführt werden.

Über die bereits genannten Eigenschaften hinaus muß die Komponente zur Analyse der Benutzereingabe also robust sein, wobei sie die wesentlichen Fälle verarbeiten können muß, einzelne Fälle zurückweisen darf, aber das, was bearbeitet wird, korrekt bearbeiten muß.

Ein derartiger Parser wird aus einer deklarativ programmierten Grammatik bestehen, in der die Regeln des modellierten Sprachausschnitts enthalten sind und um den herum sich weitere, die Arbeit des Parsers unterstützende Module gruppieren.

Eine solche Komponente stellt z. B. die Behandlung fehlerhafter Eingaben sicher. Schreibfehler können auf Grund phonetischer Ähnlichkeit in vielen Fällen erkannt werden, typische Fehler wie Verdrehen zweier Buchstaben sind in eingeschränktem Maße ebenfalls behandelbar. Für diese Korrekturen, die natürlich nie ohne Wissen des Benutzers durchgeführt werden dürfen, gibt es bereits verschiedene Ansätze unterschiedlicher Natur. Neben klassischen Heuristiken wäre hier auch der Einsatz eines neuronalen Netzes überlegenswert. Vorarbeiten zu diesem Themenkomplex wurden am Institut für Semantische Informationsverarbeitung (ISIV) bereits in anderen Projekten5 durchgeführt.

Eine weitere Komponente stellt das Lexikon dar. Um komplexe Nominalphrasen, bestehend aus Eigennamen, Einschränkungen und Ergänzungen, verarbeiten zu können, müssen grammatische Informationen zu einzelnen Wörtern der Eingabe verfügbar sein. Solche Informationen sind im Lexikon abgelegt, das Angaben über z. B. Wortart, Numerus und Genus enthält. Im Lexikon befindet sich auch eine rudimentäre Semantik der Funktions"wörter" wie in und zur Zeit von etc., die eine Einschränkung oder Modifikation ausdrücken.

Um den Codierungsaufwand für ein solches Lexikon zu minimieren, sollte auf bereits existierende Lexika zurückgegriffen werden, wobei im Einzelfall deren Eignung für die im Osiris-System anfallenden Eingaben und gegebenenfalls deren einfache Erweiterbarkeit geprüft werden muß. Ein großer Teil des Lexikons wird aus dem Osiris-Vokabular bestehen.

Erfahrungen im Erstellen von Lexika existieren am ISIV aus dem Osnabrücker Lexikonteilprojekt des LILOG-Projektes6, zum Thema Wiederverwertbarkeit von Lexika läuft am ISIV derzeit ein DFG-Projekt7.

Weiterhin notwendig ist eine Morphologiekomponente. Es ist wünschenswert, Eingaben des Benutzers wie Datenbankinformation und Datenbankinformationen oder auch Datenbank und Datenbanken nicht als voneinander unabhängig (d. h. insbesondere mit einem eigenen Lexikoneintrag) zu betrachten. Um die einzelnen morphologisch markierten Formen eines Wortes zueinander in Beziehung zu setzen, ist regelbasiertes Wissen über z. B. Verbflektion notwendig. Mit Hilfe einer Morphologiekomponente könnten auch Eingaben wie Marktwirtschaft und China und chinesische Marktwirtschaft zueinander in Bezug gesetzt werden.

Morphologiekomponenten werden in verschiedenen Ausführungen angeboten; ihre konkrete Eignung für eine Integration in das Osiris-System ist im Einzelfall zu prüfen.

Neben der Morphologiekomponente wird eine Komponente zur Behandlung von Komposita benötigt. Eingaben wie Pädagogikstudium können angesichts der im Deutschen ungeheuer produktiven Kompositabildung nicht konsequent als eigenständige Lexikoneinträge behandelt werden, sondern sollten zurückgeführt werden auf Studium der Pädagogik oder Studieren von Pädagogik.

Einschlägige Erfahrung mit Kompositaanalyse besteht am ISIV aus dem LILOG-Projekt; erste Ergebnisse sind in den Prototypen LEU/28 eingegangen.

Dieses Ensemble von Komponenten dient also der Analyse der natürlichsprachlichen Benutzereingaben. Ziel dieser Analyse ist es, den vom Benutzer formulierten Themenkomplex für die Literatursuche zu bestimmen. Dazu wird versucht, das Thema des Benutzers auf das Osiris-Vokabular abzubilden. An diesem Punkt wird die Relevanz eines guten Parsers noch einmal deutlich: Würden Benutzereingaben generell nur als Stichwortreihung verstanden, würde also die syntaktische Struktur der natürlichsprachlichen Eingabe ignoriert, dann könnte die vom Benutzer mit Ausdrücken wie zur Zeit der Stauffer, unter Friedrich dem Großen, im Nordosten Frankreichs, mit den Mitteln der Spektralanalyse, für das Lehramt usw. explizit gemachte Modifikation eines Ausdrucks nicht als solche erkannt werden, sondern müßte als eigenständiges Stichwort bei der Suche im Osiris-Vokabular behandelt werden.

5.4 Tabellengesteuerte Behandlung von Schlüsselaspekten

Die Schlüsseltabellen von Osiris sollen im wesentlichen dafür sorgen, Schlüsselaspekte aus der Benutzereingabe zu isolieren (beispielsweise Länder, Städte, Erdteile und sonstige Aspekte, die in der Systematik durch Schlüssel dargestellt werden). Darüber hinaus wird in der Schlüsseltabelle festgehalten, wie in den einzelnen Bereichen der Systematik der allgemeine historische Aspekt dargestellt ist (durch eine bestimmte Systemstelle oder durch Epochenschlüssel etc.).

Durch die Angaben in dieser Tabelle gelingt es, z. B. die Frage nach 'Geschichte der Gruppentheorie' (Fachgebiet Mathematik) richtig mit der (einzigen) 'historischen' Systemstelle in der Mathematik zu beantworten (Geschichte der Mathematik).

5.5 Bewertung der Suchergebnisse 'statistischer OPAC')

Bei der Bewertung der Suchergebnisse erübrigt sich eine Erläuterung im Hinblick auf die formale Titelsuche. In Hinsicht der sachlichen Suche sind einige statistische Überlegungen besonders interessant.

Beispiel: Geschichte Hildesheims

Die GHB-Systematik weist keine Klasse 'Geschichte Hildesheims' aus. RSWK-Schlagwörter wie 'Hildesheim / Geschichte' sind mehr oder weniger zufällig da oder nicht da (s. o.)

Liegt allerdings ein Treffer im Osiris-Vokabular mit der Suchanfrage 'Hildesheim' (im Bereich 'Geschichte Niedersachsens' der Systematik) vor, ist sicher, daß der OPAC Titel zu diesem Thema enthält, denn alle 'Wörter' des Osiris-Vokabulars wurden aus vorhandenen Titeln und dort verwendeten Schlagwörtern und GHBS-Notationen abgeleitet.

5.5.1 Das 'ideale' Suchergebnis

Das 'ideale' Suchergebnis läßt sich vielleicht wie folgt beschreiben:

Das ideale Suchergebnis läßt sich also weder mit der Suche über das RSWK-Schlagwort, noch über die Suche mit GHBS-Notationen allein erreichen (jedenfalls nicht mit einer 'naiven' Benutzeranfrage).

5.5.2 'Statistischer' OPAC

In diesem Zusammenhang können die Signifikanzzähler in den Osiris-Tabellen eine statistisch begründete Strategie eröffnen. Aus der Größe des Signifikanzzählers für das RSWK-Schlagwort läßt sich hochrechnen, wieviele Titel des OPAC (in der Klasse 'Geschichte Niedersachsens') wahrscheinlich relevant sind, ein gewisser Prozentsatz für die einschlägigen Monographien zur Geschichte Niedersachsens mit eingerechnet. Sollte die Hochrechnung zu entsprechender Relevanz führen, erscheint es richtig, die Titel der Klasse 'Geschichte Niedersachsens' zu präsentieren. Fällt die Hochrechnung schlechter aus, kann über ein verdecktes Suchkommando (Notation and (Stichwort=Hildesheim? or Schlagwort=Hildesheim)) die kleine Teilmenge derjenigen Titel präsentiert werden, die ihre Relevanz durch ein vorhandenes RSWK-Schlagwort bzw. ein Stichwort und die relevante Notation ausweisen.

5.6 Computer-Aided-Indexing: CAI Unterstützung im Fachreferat)

Gleichsam als Nebenprodukt kann zur Unterstützung im Fachreferat die Osiris-Komponente Computer Aided Indexing (CAI) angeboten werden. Der Titel des inhaltlich zu erschließenden Buches wird im OPAC lokalisiert und hinsichtlich der ggf. bereits vorhandenen Sacherschließungsmerkmale (RSWK, BK, LCC, DDC, LCSH, BLSH) - nach Präferenzen des Fachreferenten - auf dem Osiris-Vokabular bzw. auf den Osiris-Konkordanztabellen automatisch prozessiert. - Hier ist sogar daran zu denken, unter Einsatz der semantischen Komponenten (Analyse von Nominalphrasen), zumindest in gewissen Fachgebieten (z. B. Naturwissenschaften) eine Analyse der Titelstichwörter auf dem Osiris-Vokabular vorzunehmen, sollte der Titel noch keine 'fremde' Sacherschließung aufweisen.

Als Ergebnis können dem Fachreferenten Vorschläge für Notationen nach der GHBS geboten werden, die aus bereits vorhandenen Einträgen in der Konkordanztabelle bzw. aus dem Wortindex (deutsch oder englisch) abgeleitet sind. Die Ergebnisse können mit absteigender Signifikanz (s. o.) präsentiert werden.

Das Osiris-System wird in der Lage sein, vom Fachreferenten hier neu hergestellte Zusammenhänge (beispielsweise zwischen GHBS-Notation und beim Titel vorhandenen LCC-Notationen) zu 'lernen' und dauerhaft zu speichern. Daneben werden natürlich die beim Titel ggf. vorhandenen RSWK-Schlagwörter, LC-Subject-Headings und BL-Subject-Headings in der entsprechenden Relation im selben Vorgang gespeichert bzw. die entsprechenden Signifikanzzähler erhöht, die das Osiris-Register bereichern.

6. Technische Oberfläche (WEB-OPAC)

Die technische Realisierung soll als 'Hyperbase Front End' komplett WWW-konform sein. Die in diesem Zusammenhang auch für den OPAC der Bibliothek erforderliche WWW-Oberfläche ist bei PICA bereits entwickelt worden. Benötigt wird hardwareseitig ein UNIX-basierter WWW-Server. Das Osiris-Vokabular wird auf dem Rechner in einem Standard-Datenbanksystem (ORACLE, SYBASE, ...) verwaltet. Der Endbenutzerzugang ist mit WWW-Clients wie Mosaic oder Netsape möglich.

7. Osiris als Hyperbase Front End für OPACs

Die für Osiris vorgesehenen Datenstrukturen können prinzipiell mit jeder Systematik arbeiten und sind insofern für jede Bibliothek bzw. für jeden OPAC geeignet, der im Hinblick auf die sachliche Erschließung oder insgesamt hinsichtlich seiner Benutzeroberfläche ähnliche Probleme aufweist wie der Osnabrücker OPAC. Die 'Intelligenz' von Osiris wird ebenfalls in Tabellen abgebildet, vorwiegend in der Schlüsseltabelle, die nach den Gegebenheiten der jeweiligen Systematik für einen speziellen OPAC mit Informationen beschickt werden muß.

Die Formulierung von Suchanfragen aus den Osiris-Abfragen kann tabellengesteuert für jede OPAC-Kommandosprache eingerichtet werden, sofern der zugrunde liegende OPAC überhaupt über ein WEB-Interface abfragbar ist.

Prinzipiell kann Osiris also als Hyperbase Front End für jeden OPAC eingesetzt werden.


Seitenanfang