Übertext: Blog: Erst öffnen, dann linken!

Dienstag und Mittwoch fand in Köln das SWIB09 statt. Es war eine sehr interessante Veranstaltung, vor allem habe ich mich gefreut, einige Personen mal im realen Leben zu treffen, die ich bisher nur virtuell kannte. Hier geht es jetzt darum, einige Probleme, Fragen und Unklarheiten zu besprechen, die mir mehrmals aufgefallen sind. Den Anfang macht die Frage nach der Reihenfolge von Lizenzierung, Publizierung, Triplifizierung und Verlinkung von Daten. (Ich hoffe, Felix, der jetzt hier mitschreibt, setzt die Reihe fort.)

Linked Data & Open Data
Zwei verschiedene Ansätze, Bibliotheken in das Semantic Web zu bringen wurden während der Veranstaltung nur allzu deutlich.

Erster Ansatz
Hauptsache hochqualitative Daten in RDF, der Rest wird sich finden, so könnte man die Grundhaltung dieses Angangs beschreiben. Dieser erste Ansatz - der bisher zum Beispiel von der DNB verfolgt wird - scheint mir ein so naiver wie traditioneller zu sein. Er geht so: Wir tüfteln eine Technologie zur Umwandlung der bibliothekarischen Datenformate in RDF-Tripel aus, verwenden dabei am besten ein - bisher von sonst niemandem genutzes, weil noch nicht existierendes - RDA-Vokabular, veröffentlichen am Ende des langen Entwicklungsprozesses die konvertierten Daten und bieten die Möglichkeit der Suche (mit einem SPARQL-Endpoint) und Verlinkung zu unseren Daten an. Über Lizensierungsfragen und die vollständige Öffnung der gesamten Daten machen wir uns aber zunächst keine Gedanken.

Dieser Ansatz birgt zwei grundlegende Probleme:
Erstens wird mit einem RDA-Vokabular auf bibliothekarische Standards gesetzt, die noch nicht fertiggestellt sind und dementsprechend auch keine Verbreitung in nicht-bibliothekarischen Bereichen gefunden haben. Ein solcher Weg birgt die Gefahr ein neues Silo mit Katalogdaten - diesmal im Semantic Web selbst - zu etablieren, denn: Die Nachnutzung bestehender Vokabulare ist gängige Praxis und sorgt dafür, dass Daten verlinkt und damit Linked Data geschaffen wird. Jakob Voß machte in seiner Präsentation über die Bibliographic Ontology (Bibo) deutlich, dass man an diesem Vokabular nicht mehr vorbeikommt, wenn man bibliographische Daten im Linked-Data-Netz veröffentlichen will. Die Bibo selbst berücksichtigt und inkorporiert ihrerseits bestehende De-Facto-Standards wie foaf und die DCMI Metadata Terms.
Eine Möglichkeit wäre es, bei der Entwicklung einer RDA-Ontologie bestehende Klassen und Prädikate aus Bibo, Dublin Core usw zu übernehmen. Allerdings weiß ich nicht, inwieweit dies getan wird.
Zweitens - und dies hat Patrick Danowski sehr schön in seiner Präsentation dargestellt - vernachlässigt dieser Ansatz eine grundlegende Frage, die beim Veröffentlichen von Linked Open Data eine wichtige Rolle spielt: Nämlich die Frage der Lizenzierung. Im letzten Übertext-Beitrag wird dies auch zweimal angesprochen: Der erste Schritt zu Linked-Open-Data sollte die Öffnung der Rohdaten sein. Tim Berners-Lee fasste dies in seinem bekannten TED-Talk in die Worte: Raw Data Now!

Welche Chancen verspielen Bibliotheken, wenn sie erst nach einer langen Planungs- und Entwicklungsphase eine ganzen Haufen triplifizierter bibliographischer Daten freigeben und welche Risiken birgt dieser Ansatz:

1. Aufwändige und schlechtere Konvertierung: Arbeitet eine Bibliothek oder ein Verbund alleine für sich an einer Konvertierung der Daten, so liegt die Arbeitslast und Verantwortung allein auf den Schultern dieser Institution. Veröffentlicht man aber im ersten Schritt die Rohdaten, so lassen sich Teile des Konvertierungsprozesses crowdsourcen, denn es gibt im Internet eine Menge Leute, die an Bibliotheksdaten interessiert sind. Flankiert durch ein offene Plattform zur Dokumentation und Diskussion des Konvertierungssprozesses bringt dieser Ansatz auch von Anfang an Feedback ein, so dass von vorneherein ein bestmögliches Ergebnis sichergestellt wird.

2. Verlinken nicht möglich: Der Ansatz, zunächst die bestehenden Daten einer Institution möglichst vollständig zu konvertieren und erst dann die URIs und internen Verknüpfungen zu veröffentlichen bedeutet, dass erst am Ende dieses Prozesses, wenn die Daten veröffentlicht sind, andere Personen oder Institutionen Verlinkungen mit diesen Daten herstellen können. Dies ist meiner Meinung nach unnötig, gerade weil die Standards eine iterative Publikation der Daten möglich machen und auch URIs alleine schon einen großen Wert haben. Ich fände es zum Beispiel sinnvoll, die PND- (oder GND-)URIs so früh wie möglich zu veröffentlichen, wenn auch nur mit minimalen Informationen (z.B. Ansetzungsform, Verweisungsform + Lebensdaten) versehen. Damit könnten diese URIs frühstmöglich verlinkt und mit anderen Daten in Beziehung gesetzt werden. Nach und nach könnten weitere RDF-Tripel angehängt werden, sobald die Konvertierungsfragen geklärt sind. (Jetzt könnte man einwenden, dass es die GND-URIs schon gibt. Gewissermaßen stimmt dies vielleicht, allerdings hätte die Pedantic Web Group daran einiges zu verbessern, vor allem, weil Personen und die sie beschreibenden Ressourcen dieselbe URI haben. Dieser Umstand schreckt auf jeden Fall vor einer Nutzung der URIs ab.)

Zweiter Ansatz: Open first, link later!
Der zweite Ansatz lässt sich am besten durch ein praktisches Beispiel erläutern, das der CERN Library. Diese Bibliothek nimmt ihren ehemalgien Kollegen Tim Berners-Lee beim Wort und wird - wie Patrick Danowski auf der SWIB09 ankündigte - ihre Daten diese Woche in die Public Domain stellen. Die Open Library und biblios.net werden die Daten übernehmen und verfügbar halten aber auch jedeR andere kann die Daten übernehmen und damit herumspielen.
Erst im zweiten Schritt sollen die Daten in RDF umgewandelt werden und Verlinkungen zu anderen Daten herstellt werden. Ich hoffe, dass dieser Konvertierungsprozess offen und transparent stattfinden wird und die verwendeten Programmiercodes offengelegt werden, so dass zum einen die CERN Library davon profitiert, weil sie den Input aus der Gemeinschaft bekommt und auch zum anderen die Bibliotheken und Verbünde, die dem Beispiel der CERN Library noch folgen werden.

2009-11-26

Erst öffnen, dann linken!

Keine Kommentare:

Kommentar veröffentlichen

Adrian

No rights reserved

Blog-Archiv