Volker Henze, Michael Schefczik
Gäbe es im bibliothekarischen Bereich so etwas wie eine Entsprechung zur Wahl des Wortes des abgelaufenen Jahres 1996, so wäre der Begriff Metadaten mit Sicherheit einer der Favoriten auf den Titel. Zur gleichen Zeit ist jedoch in weiten Kreisen des Bibliothekswesens immer noch eine gewisse Unsicherheit darüber zu verzeichnen, was denn unter dem Begriff Metadaten eigentlich zu verstehen ist und wozu sie nützlich sind. Zu diesem Informationsdefizit trägt zu einem gewissen Grad sicherlich auch der Umstand bei, daß im Internet zwar eine Reihe wichtiger Dokumente zum Thema Metadaten verfügbar und über den Metadaten-Server der SUB Göttingen (http://www2.sub.uni-goettingen.de) auch leicht zugänglich sind. Fast ausnahmslos handelt es sich dabei bislang jedoch um englische Texte, denen hier daher eine deutsche Darstellung zur Seite gestellt werden soll.
Was sind Metadaten?
Grundsätzlich besagt der Begriff Metadaten erst einmal nur ganz generell, daß es sich um Daten über Daten handelt. Metadaten enthalten Angaben über Form und Inhalt von Dokumenten oder Objekten. Im großen und ganzen sind Metadaten also gleichbedeutend mit einer bibliographischen Beschreibung. Sie finden nicht allein im Bibliotheksbereich Anwendung, sondern z. B. auch in Archiven, Museen oder den Dokumentverwaltungssystemen anderer öffentlicher Einrichtungen und privater Firmen.
Metadaten können Teil des Dokuments oder Objekts sein, auf das sie sich beziehen, oder aber auch getrennt davon vorliegen. Vertrautestes Beispiel aus dem bibliothekarischen Bereich sind die traditionellen Katalogaufnahmen gedruckter Publikationen, sei es nun in Form eines CIP-Eindrucks im Dokument selbst oder eines Datensatzes in der Katalogdatenbank eines Bibliothekssystems.
Metadaten werden generell gebildet, um die Verwaltung von Dokumenten oder Objekten sicherzustellen und den Zugriff auf sie zu ermöglichen. Mehr noch als für herkömmliche Dokumente gilt das für elektronische bzw. digitale Dokumente und Objekte, die in den unterschiedlichsten, z. T. nicht miteinander kompatiblen Formen und Formaten vorliegen können: z. B. als Textdateien, Bilddateien, Sounddateien, Videodateien. Doch schon für text-basierte Dokumente im klassischen Sinn erweist sich angesichts des explosionsartigen Anwachsens der Datenmengen eine bloße Freitext-Suche als zunehmend untauglich.
Als Folge dieser Ausgangsbedingungen existiert gegenwärtig eine Vielzahl von Metadatenformaten bzw. von Konzeptionen darüber, wie Metainformationen anzugeben und abzubilden sind, z. B.:
Das Dublin Core Set
Das Dublin Core Set entstand als Ergebnis eines von OCLC im März 1995 in Dublin, Ohio veranstalteten Metadaten-Workshops. Die Absicht war dabei, Kernelemente für die Beschreibung von dokumentartigen Objekten im Fernzugriff festzulegen, um auf diese Weise ihre Identifizierung in einer Netzumgebung (Internet) und den Zugriff darauf zu erleichtern.
Streng genommen, ist das Dublin Core Set für sich gar kein Metadatenformat, sondern eine Zusammenstellung von ursprünglich 13 Elementen, die als Grundlage für die praktische Anwendung von Metadaten dienen sollten, z. B. Author, Title, Subject: Abgesehen davon, daß alle diese Elemente grundsätzlich als optional und wiederholbar definiert sind, sagt das Dublin Core Set weder etwas darüber aus, in welcher Struktur die Elemente anzugeben sind, noch ob bzw. in welcher Form diese in dem betreffenden Dokument (z. B. in einem SGML-Dokument) verankert werden sollen. Es ist durchaus auch möglich und zulässig, die Elemente des Dublin Core Sets in eigenen Datensätzen getrennt vom digitalen Dokument abzubilden.
Das Ziel bestand in der Festlegung eines kleinen, weltweit verständlichen Sets von Metadaten-Elementen, die es Autoren und Informationsanbietern erlauben würden, ihre Werke zu beschreiben und damit die Interoperabilität zwischen unterschiedlich arbeitenden Suchmaschinen zu erleichtern.
Seit Dezember 1996 liegt nun die um zwei auf insgesamt 15 Elemente erweiterte Referenzversion des Dublin Core Sets vor, für die davon ausgegangen wird, daß sich Anzahl und Bezeichnung der darin festgelegten Elemente nicht mehr substantiell verändern werden.
Von vornherein sollten die im Dublin Core Set festgelegten Elemente auf die Beschreibung dokumentartiger Objekte beschränkt bleiben, sog. DLO's (document-like-objects). Das Dublin Core Set erhebt dabei nicht den Anspruch, andere bekannte Formate und Beschreibungssprachen ersetzen zu wollen, sondern es soll gleichsam als eine gemeinsame Brücke zwischen existierenden komplexeren Beschreibungsmodellen fungieren. In diesem Zusammenhang ist zu berücksichtigen, daß die zahlenmäßige und inhaltliche Beschränkung auf die 15 Elemente des Dublin Core Sets deshalb ausreicht, weil das sie beschreibende elektronische Dokument immer ja auch selbst als Informationsquelle herangezogen werden kann.
Die Elemente des Dublin Core Sets und MAB2
Um das Verständnis zu erleichtern, werden in der nachfolgenden Liste die einzelnen Elemente des Dublin Core Sets nicht nur in ihrer englischen Originalbezeichnung, sondern auch mit ihren deutschsprachigen Entsprechungen aufgeführt.
Es wurde bereits darauf hingewiesen, daß das Dublin Core Set bewußt ohne direkten Bezug auf irgendeine Übertragungssyntax festgelegt wurde, weil ausdrücklich ein Mapping der Dublin Core-Elemente auf jede beliebige existierende Syntax möglich sein sollte. Die Library of Congress hat bereits ein entsprechendes Mapping der Dublin Core-Elemente auf das USMARC-Format veröffentlicht:
gopher://marvel.loc.gov:70/00/.listarch/usmarc/dp86.doc
An dieser Stelle soll daher zusätzlich eine entsprechende Abbildung der Dublin Core-Elemente auf die Felder des MAB2-Formats vorgelegt werden:
1. | Title MAB2-TITEL: | 3-- 310 331 335 | Sachtitel Segment Sachtitel Hauptsachtitel in Ansetzungsform Hauptsachtitel in Vorlage- oder Mischform Zusätze zum Hauptsachtitel | ||||||||||||||||||||||||||||||||||||||||||||||||||||
2. | Author or Creator MAB2-TITEL: | 1-- | Verfasser, Urheber, Produzent Segment Personennamen 3. | Subject and Keywords | MAB2-TITEL: 710 720 9-- Schlag- oder Stichwort, Schlagwortkette | Schlagwörter und Schlagwortketten Stichwörter Segment RSWK-Schlagwortketten 4. | Description | MAB2-TITEL: 517 Inhaltliche Beschreibung (Abstracts) | Angaben zum Inhalt 5. | Publisher | MAB2-TITEL: 412 417 Verleger, Drucker | Name des 1. Verlegers, Druckers usw. Name des 2. Verlegers, Druckers usw. 6. | Other Contributors | MAB2-TITEL: 1-- Sonstige beteiligte Personen | Segment Personennamen 7. | Date | MAB2-TITEL: 425 Datum | Erscheinungsjahr(e) 8. | Resource Type | MAB2-TITEL: 050 Objekt- / Dokumenttyp | Datenträger 9. | Format | MAB2-TITEL: 651 653 Format | Fußnote zur Computerdatei Physische Beschreibung der Computerdatei auf Datenträger 10. | Identifier | MAB2-TITEL: 001 540 542 580 655u Identifizierungskennzeichen | Identifikationsnummer des Datensatzes Internationale Standardbuchnummer (ISBN) Internationale Standardnummer für fortlaufende Sammelwerke (ISSN) Sonstige Standardnummern Elektronische Adresse und Zugriffsadresse für Elektronische Publikationen im Fernzugriff / Uniform Resource Locator (URL) 11. | Source | MAB2-TITEL: 525 Datenquelle | Herkunftsangaben 12. | Language | MAB2-TITEL: 037 038 516 Sprache | Sprachencode Code für Herkunftssprache / Sprache des Originals Angaben über Schrift, Sprache und Vollständigkeit der Vorlage 13. | Relation | MAB2-TITEL: 530 Beziehung zu anderen Dokumenten / Objekten | Titel von Bezugswerken 14. | Coverage | MAB2-TITEL: 039 407 523 Räumliche oder zeitliche Maßangaben | Zeitcode Kartographische Materialien: Mathematische Angaben Angaben über Erscheinungsweise und Erscheinungsdauer 15. | Rights | MAB2-TITEL: 537 Copyright-Angaben, Benutzungsbedingungen | Redaktionelle Bemerkungen |
Die Liste der Elemente des Dublin Core Sets läßt deutlich erkennen, daß diese tatsächlich vor allem dazu geeignet sind, "dokumentartige Objekte" zu beschreiben, und zwar in inhaltlicher und formaler Hinsicht, also begrenzt auf Daten, die aus dem Dokument selbst abzuleiten sind. Ausnahmen davon sind die Elemente für die Abbildung von Schlag- und Stichwörtern, der Datenquelle sowie von Copyright- und Benutzungsbedingungen, wobei für letztere erst in der im Dezember 1996 veröffentlichten "Referenzversion" ein entsprechendes Element vorgesehen wurde. Gleichzeitig fehlen jedoch z. B. Elemente für die Beschreibung von Systemvoraussetzungen, Zugriffsarten, Benutzerauthentifizierungs- und Abrechnungsmodalitäten ebenso wie für die Beschreibung von "nicht-dokumentartigen Objekten" wie z. B. Online-Diensten.
Gleichgültig wie umfassend angelegt bzw. wie komplex strukturiert auch immer ein Metadatenformat angelegt sein mag, grundsätzlich wird keines jemals alle Anforderungen abdecken können, die sich von unterschiedlichen Anwendungsbereichen herleiten können. Ganz besonders muß diese Feststellung für das Dublin Core Set gelten, das ja bewußt einfach definiert worden ist. Obwohl diese Konzeption auf eine breite Zustimmung gestoßen war, wurde doch schon bald nach der Formulierung des Dublin Core Sets die Frage aufgeworfen, wie - darauf aufbauend - das Anwendungsspektrum erweitert werden könnte. Die Antwort darauf wurde auf dem zweiten Metadaten-Workshop formuliert, der im April 1996 in Warwick, England stattfand.
Das Warwick Framework
Der auf dem zweiten Metadaten-Workshop erarbeitete Vorschlag des nach dem Veranstaltungsort benannten Warwick Frameworks stellt selbst kein weiteres Metadatenformat dar, sondern es handelt sich um ein theoretisches Modell, das eine Container-Architektur beschreibt, die in der Lage ist, verschiedene "Pakete" unterschiedlicher Arten von Metadaten logisch in sich zu vereinen. Diese können weit über die im Dublin Core Set festgelegten Elemente hinausgehen, ohne daß dieses selbst verändert oder erweitert werden müßte. Pakete in einem solchen logischen Metadaten-Container könnten z. B. folgende Informationen enthalten:
Das Modell des Warwick Frameworks vereinigt große Flexibilität in der Darstellung und Übertragung auch komplexer Metadatenschemata mit den einfachen, vom Autor oder Produzenten selbst zu erstellenden Beschreibungselementen des Dublin Core Sets, das seinerseits wiederum Kompatibilität mit nahezu jedem anderen existierenden Metadatenformat gewährleistet. Diese Konzeption erlaubt die Anwendung und Übertragung von einfach strukturierten Metadaten bis hin zu sehr speziellen und differenzierten Schemata.
Wie zuletzt der an der Staats- und Universitätsbibliothek Göttingen im Dezember 1996 veranstaltete Metadaten-Workshop gezeigt hat, ist heute eine auf die Zukunft gerichtete bibliothekarische Fachdiskussion nicht mehr denkbar, wenn sie nicht auch die Metadatenproblematik mit einschließt: Die Kenntnis von Metadatenkonzeptionen und ihrer Funktion werden daher eine unabdingbare Voraussetzung für Planung, Aufbau und Betreuung digitaler Bibliotheken bilden.