2010-03-25

Dimensionen von Open Bibliographic Data

Seit der gemeinsamen Publikation von Katalogrohdaten duch Kölner Bibliotheken, das Landesbibliothekszentrum Rheinland-Pfalz und das hbz mache ich mir Gedanken darüber, welche Implikationen dieser Schritt für die zukünftige Arbeit von Verbünden und Bibliotheken mit sich bringen könnte.

Natürlich war uns im hbz der Hintergrund und der vornehmliche Zweck einer Datenfreigabe klar: Ziel war und ist es, die Sichtbarkeit und den Nutzen von Katalogdaten im Internet zu maximieren, indem wir die Daten in das Linked-Data-Netz migrieren [1]. Uns wurde bei der Beschäftigung mit Linked Data schnell deutlich, dass der erste notwendige Schritt, um dieses Ziel zu erreichen ein politisch-rechtlicher ist, dass wir eben zunächst die Daten gemeinfrei machen sollten. [2] Open Data ist eine wichtige Voraussetzung, um Linked Data praktikabel und erfolgreich umsetzen zu können.

Die Reaktionen auf diese Open-Data-Initiative, die vielen Gespräche auf dem Bibliothekskongress mit geschätzten Kolleginnen und Kollegen sowie der Kontakt mit Journalist/innen haben mir mehr und mehr die vielschichtigen Implikationen einer konsequenten und verbreiteten Freigabe von Katalogdaten vor Augen geführt, die ich hier erläutern möchte.

Vier Dimensionen einer Open-Data-Praxis

Ich werde im Folgenden vier Dimensionen von Linked-Open-Bibliographic-Data unterscheiden, vier Bereiche der Arbeit von Bibliotheken und Verbünden, die mit einer breiten Annahme der Open-Data-Praxis einigen Veränderungen unterliegen werden. Wie das bei einer solchen Kategorisierung so ist, überschneiden sich die Dimensionen und gehen in einander über. Ich würde mich über Kommentare und Ergänzungen freuen.

1. Die interne Dimension: Konsequenzen für die Bibliothekswelt

Für Bibliotheken, Verbünde und alle anderen Organisationen, die Metadaten produzieren, nutzen, kaufen, verkaufen oder aggregieren bringt die weite Verbreitung einer Open-Data-Praxis weitreichende Konsequenzen mit sich. Auf der Basis freier Katalogdaten könnten Bibliotheken eine Umwelt erschaffen, in der die relativ einfache Nachnutzung großer Mengen von Daten (z.B. bei der Katalogisierung aber auch bei der Anreicherung eines Katalogs mit Schlagwörtern und externen Verweisen) ohne Kosten für die Daten selbst kein Problem wäre.

Für die etablierten Fremddatenlieferanten, die bislang mit Datendiensten Gewinne erwirtschaften, verlangt eine solche Praxis natürlich, ihr somit brüchig werdendes Geschäftsmodell grundlegend zu überdenken und vorausschauend neue Dienste zu entwickeln. Die Deutsche Nationalbibliothek (DNB) ist hier sehr fortschrittlich und hat die Zeichen der Zeit erkannt. In Kürze soll die Personennamendatei (hoffentlich mit einer Public-Domain-Lizenz versehen) als Linked-Open-Data veröffentlicht werden und auch die anderen Normdateien sowie die Titeldaten sollen folgen. Dies bedeutet, dass die DNB mittel- bis langfristig über kostenpflichtige Datendienste keine Gelder mehr erwirtschaften wird und sich die somit fehlenden Einnahmen anderswo holen muss. [3] Man darf gespannt sein, wie die DNB ihr Geschäftsmodell anpassen wird. Auch darf man hoffen, dass andere Fremddatenanbieter diesem Beispiel folgen werden, indem auch sie ihre Geschäftsmodelle überdenken und sich der Open-Data-Bewegung nicht verschließen oder sie gar bekämpfen.

2. Die externe Dimension: Der Nutzen freier Katalogdaten außerhalb der Bibliothekswelt

Auch außerhalb der traditionellen Grenzen der Bibliothekswelt wird eine Open-Data-Praxis einiges verändern. Die deutschen Wikipedianer sind hocherfreut über diesen ersten Schritt zur Öffnung der Bibliothekskataloge. Sie haben am Freitag direkt begonnen, die freien Rohdaten in ihre Dienste zu integrieren. Weitere Dienste wie die Open Library können die Daten genauso nachnutzen.

Einen großen Nutzen von freien bibliographischen Daten sehe ich auch für Wissenschaftler aus verschiedenen Bereichen, seien es Literatur-, Medienwissenschaftler oder Wissenschaftshistoriker. Ein großer, frei zu bearbeitender Korpus von bibliographischen Daten ermöglicht etwa Forschungsprojekte über das Publikationsverhalten, die Publikationsformen und die Inhalte verschiedener Bereiche von Wissenschaft und Literatur. Bibliographische Daten würden dadurch gewissermaßen ihres ursprünglichen Zwecks entfremdet als Forschungsdaten einer neuen Bestimmung zugeführt.

Darüber hinaus gibt es sicher unzählige andere nützliche Dinge, die mit bibliographischen Daten gemacht werden können, die wir uns jetzt aber noch gar nicht vorstellen können.

3. Die systemische Dimension: Öffnung des Bibliothekssystems

Es zeigt sich, dass eine Öffnung der Katalogdaten gleichzeitig eine Öffnung des Bibliothekssystems mit sich bringt. Spätestens sobald andere Organisationen wie die Wikipedia oder das Internet Archive beginnen Katalogdaten nachzunutzen und anzureichern, entsteht fast automatisch eine Kooperation mit diesen Gruppen. Denn will man die Nachnutzung der Daten maximieren, so bleibt ein Austausch über Formate und Katalogisierungspraktiken nicht aus. Auch könnten und sollten Bibliotheken und Verbünde die Ergänzungen und Korrekturen, die beispielsweise von Wikipedianern gemacht werden, in ihre Kataloge zurückfließen lassen. Es lassen sich auch gemeinsame neue Projekte auf Basis der Daten vorstellen. Die Nabelschau des Bibliothekswesens wird also endlich ihrem Ende entgegengehen.

Mit anderen Worten: Die Abgrenzung zwischen einer Bibliothekswelt und dieser Welt externen Organisationen, die ich in den ersten beiden Punkten vollzogen habe, wird mit der Verbreitung einer Open-Data-Praxis in der Bibliothekswelt hinfällig werden bzw. die Bibliothekswelt wird um einige neue Bereiche vergrößern.

4. Die technologische Dimension: Am Semantic Web mitweben

 Open Data dient als bestmögliche rechtliche Grundlage dafür, Daten im Linked-Data-Netz zu verweben. Die Daten in unseren Katalogen basieren auf Standards für die Speicherung von Daten aus den 1970er Jahren (MAB in Deutschland und MARC im internationalen Kontext). Damals wurden die Daten noch auf Magnetbändern gespeichert. Diese Standards sind nur für wenige Menschen innerhalb der Bibliothekswelt vollkommen verständlich und somit von anderen nichtbibliothekarischen Organisationen nur sehr schwierig nachnutzbar. Zudem sind komplexe Abfragen über diese Daten nicht möglich. Struktur und Inhalt einiger MAB-Felder ähneln oft eher einem Prosatext als wohlstrukturierten Daten. Sobald man sich näher mit der Materie auseinandersetzt wird klar, dass wir die Arbeit auf uns nehmen müssen, die Inhalte der Kataloge in wohl strukturierte, standardisierte und somit durch andere auch außerhalb der Bibliotheskwelt nachnutzbare  Formate zu migrieren.

Eben eine solche Anstrengung wird gerade in vielen anderen Bereichen unternommen [4], wo Daten auf Vokabulare gemappt werden, die die Überführung der Daten in das Datenmodell RDF (Resource Description Framework) erlauben. [5] Bibliotheken und Bibliotheksverbünde sollten mit ihren Daten ebenso verfahren. Dies ist ein vielversprechender Weg, um mit unseren Daten endlich ein Teil des Webs zu werden, indem die Daten mit Daten aus anderen Bereichen verlinkt werden. Nutzen und Wert unserer Katalogdaten, die Produkte jahrzehntelanger Katalogisierungsanstrengungen sind, würden somit maximiert.

Vier Motive, gegen Open Data zu sein

Im Umkehrschluss lassen sich aus diesen vier Dimensionen einer Open-Data-Praxis mindestens folgende vier Motive ableiten, gegen freie Katalogdaten zu sein und die Etablierung einer Open-Data-Praxis womöglich sogar verhindern zu wollen:
  1. Man verdient sein Geld mit dem Verkauf von bibliographischen Daten und hat nicht vor das eigene Geschäftsmodell den Entwicklungen im Internetzeitalter anzupassen bzw. man ist eine Bibliothek oder ein Verbund und möchte lieber bis in alle Zukunft für Metadaten Geld bezahlen.
  2. Man möchte nicht, dass die Katalogdaten außerhalb des OPACs irgendjemandem einen zusätzlichen Nutzen bringen und möchte die völlige Kontrolle und den alleinigen Besitz der Daten bei bibliothekarischen Organisationen wissen.
  3. Man möchte nicht mit Leuten oder Organisationen zusammen arbeiten, die nicht aus der Bibliothekswelt kommen und womöglich keine bibliothelkarische Ausbildung haben.
  4. Man möchte die Katalogdaten nicht in eine Form bringen, dass sie endlich "im Netz wohnen" (Danke, Anne), sondern will lieber die altertümlichen Formate beibehalten und die Inhalte der Bibliothekskataloge im Deep Web verstecken.
Regelmäßige Übertext-Leser/innen werden sich denken können, dass der Autor dieses Beitrags keines dieser Motive in irgendeiner Form billigt. Ganz im Gegenteil, ich begrüße alle vier oben ausgearbeiteten Dimensionen einer Open-Bibliographic-Data-Praxis und wünsche mir, dass ihre Entwicklung zügig voranschreiten möge.
Mehr freie bibliographische Daten jetzt!


[1] Eine gute Einführung in Linked Data bieten die zwei TED-Talks des Web-Erfinders Tim Berners-Lee. Von Ian Davis und Tom Heath gibt es auch einen "30 Minute Guide to RDF and Linked Data". Deutschsprachige Einführungen sind meines Wissens bisher kaum existent. Kürzlich hat Angelo Veltens etwas zum Thema auf Deutsch publiziert: "Warum wir Daten verlinken müssen".

[2] Für mehr Informationen zu Open Data und der damit verbundenen Lizenzierung von Datenmengen siehe den einführenden Text im hbz-Opendata-Wiki auf deutsch: "Open Data und Lizenzierungsfragen". [Update: Dieser Text ist online nicht mehr erreichbar. Siehe stattdessen meinen Artikel "Open Data im hbz-Verbund".]

[3] Zu den Veränderungen im Geschäftsmodell der DNB siehe Folie 9 von Jürgen Ketts Vortrag auf der SWIB09 (PDF) oder aktueller den Beitrag von Ute Schwens (PDF), in dem es auch heißt: "Insgesamt geht die DNB mit der Veränderung ihres Geschäftsmodells einen Weg, der letztendlich zu intensiveren Kooperationen und einer größeren Präsenz bibliothekarischer Informationen im Internet der Daten führt – und hofft auf breite Akzeptanz und Unterstützung durch die bibliothekarischen Kolleginnen und Kollegen."

[4] Hier sei nur auf die Open-Government-Initiative in Großbritannien, die Projekte der BBC oder der New York Times verwiesen.

[5] Genau gesprochen, können Daten nur in eine oder mehrere RDF-Serialisierungen übertragen werden. Bei RDF handelt es sich eben um ein Modell, dessen Realisierung eine von vielen verschiedenen Formen (RDF/XML, Turtle, N-Triples, Notation 3 etc.) annehmen muss. RDF ist somit gewissermaßen die Summe seiner Realisierungsmöglichkeiten.

3 Kommentare:

kg hat gesagt…

http://archiv.twoday.net/stories/6258641/

Anonym hat gesagt…

"...wo Daten auf Vokabulare gemappt werden, die..."
und
"Bei RDF handelt es sich eben um ein Modell, dessen Realisierung eine von vielen verschiedenen Formen (RDF/XML, Turtle, N-Triples, Notation 3 etc.) annehmen muss. RDF ist somit gewissermaßen die Summe seiner Realisierungsmöglichkeiten."
Sorry, aber das ist Humbug. Da wird nix gemappt, sondern semantische Relationen so dargestellt, dass Maschinen sie verarbeiten können. Und RDF ist eine (von vielen) Sprachen zur Beschreibung eben dieser Relationen, RDF/XML, Turtle, N-Triples, Notation sind Syntax-Varianten bzw. Notationen von RDF.
Siehe hierzu http://semantic-web-grundlagen.de/wiki/Semantic_Web_%E2%80%93_Grundlagen
Kapitel 3

Anonym hat gesagt…

@Anonym:
In der Regel hilft es zu versuchen, die Leute zu verstehen, bevor man sie belehren möchte. Du unterstellst mir Unwissenheit, wo ich recht gut weiß, wovon ich rede.

"Da wird nix gemappt, sondern semantische Relationen so dargestellt, dass Maschinen sie verarbeiten können."

Ja, gnau das passiert bei Linked Data/im Semantic Web: Relationen werden so dargestellt, dass Maschinen sie verarbeiten können. Allerdings liegt der der größte Teil der bisher erhobenen Daten (insbesondere in der Bibliothekswelt) eben so vor, dass Menschen für ihre Verarbeitung unabdingbar sind, weil Maschinen eben nicht ohne menschliches Zutun über sie operieren können. Um nun diese Altdaten in das SemanticWweb zu bringen, müssen geeignete Vokabulare erschaffen werden (RDA ist ein solcher Versuch) und die Struktur der Altdaten auf das neue Vokabular gemappt werden. Dieses Mapping ist eine notwendige Bedingung für die Konvertierung bestehender bibliographischer Daten zu Linked Data.

"Und RDF ist eine (von vielen) Sprachen zur Beschreibung eben dieser Relationen, RDF/XML, Turtle, N-Triples, Notation sind Syntax-Varianten bzw. Notationen von RDF."

Genau, "RDF/XML, Turtle, N-Triples, Notation sind Syntax-Varianten bzw. Notationen von RDF". Diese Aussage unterscheidet sich nicht wesentlich von meiner: "Bei RDF handelt es sich eben um ein Modell, dessen Realisierung eine von vielen verschiedenen Formen (RDF/XML, Turtle, N-Triples, Notation 3 etc.) annehmen muss."
RDF ist ein abstraktes Modell und "abstrakt" heißt, dass es nicht greifbare Realität sein kann, immateriell ist. Wir können Daten immer nur in einer der vielen RDF-Formen speichern und verarbeiten, RDF an sich werden wir aber nie vor unserer Nase haben.

Kommentar veröffentlichen

Hinweis: Nur ein Mitglied dieses Blogs kann Kommentare posten.