Publikationen Hierarchiestufe höher Vorherige Seite Nächste Seite

BIBLIOTHEKSDIENST Heft 3, 97

Metadaten

Beziehungen zwischen Dublin Core Set, Warwick Framework und Datenformaten


Volker Henze, Michael Schefczik

Gäbe es im bibliothekarischen Bereich so etwas wie eine Entsprechung zur Wahl des Wortes des abgelaufenen Jahres 1996, so wäre der Begriff Metadaten mit Sicherheit einer der Favoriten auf den Titel. Zur gleichen Zeit ist jedoch in weiten Kreisen des Bibliothekswesens immer noch eine gewisse Unsicherheit darüber zu verzeichnen, was denn unter dem Begriff Metadaten eigentlich zu verstehen ist und wozu sie nützlich sind. Zu diesem Informationsdefizit trägt zu einem gewissen Grad sicherlich auch der Umstand bei, daß im Internet zwar eine Reihe wichtiger Dokumente zum Thema Metadaten verfügbar und über den Metadaten-Server der SUB Göttingen (http://www2.sub.uni-goettingen.de) auch leicht zugänglich sind. Fast ausnahmslos handelt es sich dabei bislang jedoch um englische Texte, denen hier daher eine deutsche Darstellung zur Seite gestellt werden soll.

Was sind Metadaten?

Grundsätzlich besagt der Begriff Metadaten erst einmal nur ganz generell, daß es sich um Daten über Daten handelt. Metadaten enthalten Angaben über Form und Inhalt von Dokumenten oder Objekten. Im großen und ganzen sind Metadaten also gleichbedeutend mit einer bibliographischen Beschreibung. Sie finden nicht allein im Bibliotheksbereich Anwendung, sondern z. B. auch in Archiven, Museen oder den Dokumentverwaltungssystemen anderer öffentlicher Einrichtungen und privater Firmen.

Metadaten können Teil des Dokuments oder Objekts sein, auf das sie sich beziehen, oder aber auch getrennt davon vorliegen. Vertrautestes Beispiel aus dem bibliothekarischen Bereich sind die traditionellen Katalogaufnahmen gedruckter Publikationen, sei es nun in Form eines CIP-Eindrucks im Dokument selbst oder eines Datensatzes in der Katalogdatenbank eines Bibliothekssystems.

Metadaten werden generell gebildet, um die Verwaltung von Dokumenten oder Objekten sicherzustellen und den Zugriff auf sie zu ermöglichen. Mehr noch als für herkömmliche Dokumente gilt das für elektronische bzw. digitale Dokumente und Objekte, die in den unterschiedlichsten, z. T. nicht miteinander kompatiblen Formen und Formaten vorliegen können: z. B. als Textdateien, Bilddateien, Sounddateien, Videodateien. Doch schon für text-basierte Dokumente im klassischen Sinn erweist sich angesichts des explosionsartigen Anwachsens der Datenmengen eine bloße Freitext-Suche als zunehmend untauglich.

Als Folge dieser Ausgangsbedingungen existiert gegenwärtig eine Vielzahl von Metadatenformaten bzw. von Konzeptionen darüber, wie Metainformationen anzugeben und abzubilden sind, z. B.:

Wenn in der derzeitigen Diskussion von Metadaten die Rede ist, sind in erster Linie diejenigen Angaben und Informationen gemeint, die zusammen mit bzw. als Teil von digitalen Dokumenten und Publikationen im Fernzugriff übertragen werden, um den Zugriff auf diese ganz unterschiedlich strukturierten Objekte zu vereinheitlichen und damit zu verbessern. In diesem Zusammenhang wird dann an erster Stelle mit Vorliebe das in der obigen Liste mit aufgeführte "Dublin Core Set" genannt.

Das Dublin Core Set

Das Dublin Core Set entstand als Ergebnis eines von OCLC im März 1995 in Dublin, Ohio veranstalteten Metadaten-Workshops. Die Absicht war dabei, Kernelemente für die Beschreibung von dokumentartigen Objekten im Fernzugriff festzulegen, um auf diese Weise ihre Identifizierung in einer Netzumgebung (Internet) und den Zugriff darauf zu erleichtern.

Streng genommen, ist das Dublin Core Set für sich gar kein Metadatenformat, sondern eine Zusammenstellung von ursprünglich 13 Elementen, die als Grundlage für die praktische Anwendung von Metadaten dienen sollten, z. B. Author, Title, Subject: Abgesehen davon, daß alle diese Elemente grundsätzlich als optional und wiederholbar definiert sind, sagt das Dublin Core Set weder etwas darüber aus, in welcher Struktur die Elemente anzugeben sind, noch ob bzw. in welcher Form diese in dem betreffenden Dokument (z. B. in einem SGML-Dokument) verankert werden sollen. Es ist durchaus auch möglich und zulässig, die Elemente des Dublin Core Sets in eigenen Datensätzen getrennt vom digitalen Dokument abzubilden.

Das Ziel bestand in der Festlegung eines kleinen, weltweit verständlichen Sets von Metadaten-Elementen, die es Autoren und Informationsanbietern erlauben würden, ihre Werke zu beschreiben und damit die Interoperabilität zwischen unterschiedlich arbeitenden Suchmaschinen zu erleichtern.

Seit Dezember 1996 liegt nun die um zwei auf insgesamt 15 Elemente erweiterte Referenzversion des Dublin Core Sets vor, für die davon ausgegangen wird, daß sich Anzahl und Bezeichnung der darin festgelegten Elemente nicht mehr substantiell verändern werden.

Von vornherein sollten die im Dublin Core Set festgelegten Elemente auf die Beschreibung dokumentartiger Objekte beschränkt bleiben, sog. DLO's (document-like-objects). Das Dublin Core Set erhebt dabei nicht den Anspruch, andere bekannte Formate und Beschreibungssprachen ersetzen zu wollen, sondern es soll gleichsam als eine gemeinsame Brücke zwischen existierenden komplexeren Beschreibungsmodellen fungieren. In diesem Zusammenhang ist zu berücksichtigen, daß die zahlenmäßige und inhaltliche Beschränkung auf die 15 Elemente des Dublin Core Sets deshalb ausreicht, weil das sie beschreibende elektronische Dokument immer ja auch selbst als Informationsquelle herangezogen werden kann.

Die Elemente des Dublin Core Sets und MAB2

Um das Verständnis zu erleichtern, werden in der nachfolgenden Liste die einzelnen Elemente des Dublin Core Sets nicht nur in ihrer englischen Originalbezeichnung, sondern auch mit ihren deutschsprachigen Entsprechungen aufgeführt.

Es wurde bereits darauf hingewiesen, daß das Dublin Core Set bewußt ohne direkten Bezug auf irgendeine Übertragungssyntax festgelegt wurde, weil ausdrücklich ein Mapping der Dublin Core-Elemente auf jede beliebige existierende Syntax möglich sein sollte. Die Library of Congress hat bereits ein entsprechendes Mapping der Dublin Core-Elemente auf das USMARC-Format veröffentlicht:
gopher://marvel.loc.gov:70/00/.listarch/usmarc/dp86.doc

An dieser Stelle soll daher zusätzlich eine entsprechende Abbildung der Dublin Core-Elemente auf die Felder des MAB2-Formats vorgelegt werden:

1.Title
MAB2-TITEL:

3--
310
331
335
Sachtitel
Segment Sachtitel
Hauptsachtitel in Ansetzungsform
Hauptsachtitel in Vorlage- oder Mischform
Zusätze zum Hauptsachtitel
2.Author or Creator
MAB2-TITEL:

1--
Verfasser, Urheber, Produzent
Segment Personennamen
3.
Subject and Keywords
MAB2-TITEL:

710
720
9--
Schlag- oder Stichwort, Schlagwortkette
Schlagwörter und Schlagwortketten
Stichwörter
Segment RSWK-Schlagwortketten
4.Description
MAB2-TITEL:

517
Inhaltliche Beschreibung (Abstracts)
Angaben zum Inhalt
5.Publisher
MAB2-TITEL:

412
417
Verleger, Drucker
Name des 1. Verlegers, Druckers usw.
Name des 2. Verlegers, Druckers usw.
6.Other Contributors
MAB2-TITEL:

1--
Sonstige beteiligte Personen
Segment Personennamen
7.Date
MAB2-TITEL:

425
Datum
Erscheinungsjahr(e)
8.Resource Type
MAB2-TITEL:

050
Objekt- / Dokumenttyp
Datenträger
9.Format
MAB2-TITEL:

651
653
Format
Fußnote zur Computerdatei
Physische Beschreibung der Computerdatei auf Datenträger
10.Identifier
MAB2-TITEL:

001
540
542
580
655u
Identifizierungskennzeichen
Identifikationsnummer des Datensatzes
Internationale Standardbuchnummer (ISBN)
Internationale Standardnummer für fortlaufende Sammelwerke (ISSN)
Sonstige Standardnummern
Elektronische Adresse und Zugriffsadresse für Elektronische Publikationen im Fernzugriff / Uniform Resource Locator (URL)
11.Source
MAB2-TITEL:

525
Datenquelle
Herkunftsangaben
12.Language
MAB2-TITEL:

037
038
516
Sprache
Sprachencode
Code für Herkunftssprache / Sprache des Originals
Angaben über Schrift, Sprache und Vollständigkeit der Vorlage
13.Relation
MAB2-TITEL:

530
Beziehung zu anderen Dokumenten / Objekten
Titel von Bezugswerken
14.Coverage
MAB2-TITEL:

039
407
523
Räumliche oder zeitliche Maßangaben
Zeitcode
Kartographische Materialien: Mathematische Angaben
Angaben über Erscheinungsweise und Erscheinungsdauer
15.Rights
MAB2-TITEL:

537
Copyright-Angaben, Benutzungsbedingungen
Redaktionelle Bemerkungen

Die Liste der Elemente des Dublin Core Sets läßt deutlich erkennen, daß diese tatsächlich vor allem dazu geeignet sind, "dokumentartige Objekte" zu beschreiben, und zwar in inhaltlicher und formaler Hinsicht, also begrenzt auf Daten, die aus dem Dokument selbst abzuleiten sind. Ausnahmen davon sind die Elemente für die Abbildung von Schlag- und Stichwörtern, der Datenquelle sowie von Copyright- und Benutzungsbedingungen, wobei für letztere erst in der im Dezember 1996 veröffentlichten "Referenzversion" ein entsprechendes Element vorgesehen wurde. Gleichzeitig fehlen jedoch z. B. Elemente für die Beschreibung von Systemvoraussetzungen, Zugriffsarten, Benutzerauthentifizierungs- und Abrechnungsmodalitäten ebenso wie für die Beschreibung von "nicht-dokumentartigen Objekten" wie z. B. Online-Diensten.

Gleichgültig wie umfassend angelegt bzw. wie komplex strukturiert auch immer ein Metadatenformat angelegt sein mag, grundsätzlich wird keines jemals alle Anforderungen abdecken können, die sich von unterschiedlichen Anwendungsbereichen herleiten können. Ganz besonders muß diese Feststellung für das Dublin Core Set gelten, das ja bewußt einfach definiert worden ist. Obwohl diese Konzeption auf eine breite Zustimmung gestoßen war, wurde doch schon bald nach der Formulierung des Dublin Core Sets die Frage aufgeworfen, wie - darauf aufbauend - das Anwendungsspektrum erweitert werden könnte. Die Antwort darauf wurde auf dem zweiten Metadaten-Workshop formuliert, der im April 1996 in Warwick, England stattfand.

Das Warwick Framework

Der auf dem zweiten Metadaten-Workshop erarbeitete Vorschlag des nach dem Veranstaltungsort benannten Warwick Frameworks stellt selbst kein weiteres Metadatenformat dar, sondern es handelt sich um ein theoretisches Modell, das eine Container-Architektur beschreibt, die in der Lage ist, verschiedene "Pakete" unterschiedlicher Arten von Metadaten logisch in sich zu vereinen. Diese können weit über die im Dublin Core Set festgelegten Elemente hinausgehen, ohne daß dieses selbst verändert oder erweitert werden müßte. Pakete in einem solchen logischen Metadaten-Container könnten z. B. folgende Informationen enthalten:

Ebensowenig wie diese Auswahl bereits eine definitive Festlegung möglicher Metadatenpakete darstellt, müssen umgekehrt auch nicht alle genannten Pakete für die Beschreibung eines Dokuments / Objekts vorhanden sein. Allerdings wurden die Datenelemente des Dublin Core Sets als minimale Ebene der Beschreibung festgelegt. Jedes dieser Pakete muß für sich allein identifizierbar, codierbar und adressierbar sein. Für den externen Anwender muß der Zugriff auf eine Liste der vorhandenen Metadatenpakete und Metadatentypen möglich sein. Die zusätzliche Übertragung von Metadatenpaketen, die nur für interne Zwecke bestimmt sind, ist dabei ausdrücklich zugelassen. Der gesamte Vorschlag des Warwick Frameworks bezieht sich ausschließlich auf die allgemeine Architektur von Metadatenträgern; die Festlegung und Entwicklung der Syntax jedes einzelnen Metadatenpakets liegen in der Verantwortung der Anwender.

Das Modell des Warwick Frameworks vereinigt große Flexibilität in der Darstellung und Übertragung auch komplexer Metadatenschemata mit den einfachen, vom Autor oder Produzenten selbst zu erstellenden Beschreibungselementen des Dublin Core Sets, das seinerseits wiederum Kompatibilität mit nahezu jedem anderen existierenden Metadatenformat gewährleistet. Diese Konzeption erlaubt die Anwendung und Übertragung von einfach strukturierten Metadaten bis hin zu sehr speziellen und differenzierten Schemata.

Wie zuletzt der an der Staats- und Universitätsbibliothek Göttingen im Dezember 1996 veranstaltete Metadaten-Workshop gezeigt hat, ist heute eine auf die Zukunft gerichtete bibliothekarische Fachdiskussion nicht mehr denkbar, wenn sie nicht auch die Metadatenproblematik mit einschließt: Die Kenntnis von Metadatenkonzeptionen und ihrer Funktion werden daher eine unabdingbare Voraussetzung für Planung, Aufbau und Betreuung digitaler Bibliotheken bilden.


Seitenanfang