2011-09-13

Darum Linked Open Data


Eigentlich hatte ich diesen Artikel als meine morgige Stimme für plan3et.info geplant. Da Jakob Voß dort aber am Montag schon das Thema Linked Open Data angesprochen hatte, habe ich mir für plan3t.info etwas anderes überlegt. So komme ich endlich mal wieder dazu Übertext: Blog zu füttern, der von mir die letzten Monate vollständig vernachlässigt wurde. Mit dem Verfassen meiner Masterarbeit, die ich beenden wollte, bevor der Nachwuchs "Hello World!" sagt, hatte ich  aber auch die letzten Monate genug zu tun. Zudem schreibe ich desöfteren  Beiträge  für openbiblio.net, den Blog der OKFN Working Group on Open Bibliographic Data. Hoffentlich werde ich hier in Zukunft  wieder regelmäßiger etwas veröffentlichen.

Linked Open Data (LOD) in Bibliotheken und verwandten Organisationen erfährt eine breite Aufnahme. Immer mehr Organisationen arbeiten an LOD-Projekten, das W3C wird bald die endgültige Fassung eines Berichts zur Lage von Linked Library Data veröffentlichen und anscheinend wird nun auch die Französische Nationalbibliothek ihre Linked Data unter einer offenen Lizenz veröffentlichen.

Doch warum das Ganze? Anhand von fünf Publikationen aus den letzten Tagen möchte ich Motivationen und Hintergründe verschiedener Akteure aufzeigen.

Der Bericht der W3C Incubator Group on Linked Library Data


Der Bericht befasst sich in erster Linie mit den Vorteilen der technischen Seite von Linked Open Data und lässt den Aspekt der offenen Lizenzierung außen vor. Als Vorteile des Linked-Data-Ansatzes werden allgemein die dadurch ermöglichten Chancen zum TeilenErweitern und Nachnutzen der Daten genannt. Konkrete Vorteile sind:
  • Multilinguale Funktionalitäten wie multilinguale Bezeichnung von Klassifikationsstellen, Metadatenelementen etc.
  • Kollaborative Beschreibung von Ressourcen und einfache Nachnutzung von Informationen aus anderen Quellen
  • Einfache Zitierbarkeit von Beschreibungen
  • Flexiblerer Datenaustausch. Nicht gesamte Katalogeinträge müssen ausgetauscht werden, sondern - je nach Anwendung und Bedarf - auch nur einzelne Beschreibungsaspekte.
Neben dem Aufzeigen von Vorteilen eines LOD-Ansatzes nennt der Bericht auch wichtige Probleme, die mit der traditionellen Datenhaltung, ihrem Austausch und ihrer Publikation verbunden sind:
  • Bibliotheksdaten sind nicht im Web integriert und somit nicht durch die Webcrawler von Suchmaschinen auffindbar. Die Daten sind vielmehr Teil des Deep Webs.
  • Die Standards für bibliothekarische Daten werden nur in der Bibliothekswelt benutzt. Dies erschwert deren Nachnutzung durch andere Akteure oder die Kombination mit Daten aus anderen Quellen.
  • Bibliotheksdaten gleichen eher natürlichen als maschinenlesbaren Texten. Sie sind nur schwach strukturiert und nicht für maschinelle Verarbeitung optimiert.
  • Technologische Veränderungen in der Bibliothekswelt hängen von kommerzielen Softwareanbietern ab.
Wer mehr lesen möchte, gehe zu http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion.

Linked Open Data an der NTNU


Die Bibliothek der NTNU (Norwegische Universität für Wissenschaft und Technologie) in Trondheim publiziert seit 2009 Linked Open Data.  Rurik Greenall hat in einem Beitrag für den Blog der OKFN Working Group on Open Bibliographic Data, die Geschichte und Hintergründe beschrieben. Ich versuche hier den Teil zu übersetzen, in dem er die Vorteile von Linked Open Data aus der Anwenderperspektive nennt:
"Linked Open Data bringt Mittel zur Repräsentation und zur Anreicherung [von Daten, A.P.] zusammen, die mit anderen Technologien nicht möglich sind. Während die Lernkurve für uns nicht leicht war, wurden wir in vielerlei Hinsicht belohnt. Die Nutzung von Open Data hat uns die Möglichkeit verschafft, Systeme zu erschaffen, von denen unsere Nutzer/innen inspiriert werden können. Systeme, die Nutzerfragen beantworten und ihnen dabei helfen, mehr zu finden, als sie ursprünglich gesucht haben. Das geht hinaus über das Konzept monolithischer Systeme, bei denen unser Ziel war, Nutzer/innen in die Systeme zu bekommen; vielmehr dreht sich alles darum, die Daten herauszubekommen und sicherzustellen, dass sie verfügbar sind ohne Referenz zu einer bestehenden Webseite. Offenheit ist der Schlüssel und diese Denkweise hat unsere Arbeit enorm verbessert."
Wenn wir also möglichst vielen interessierten Menschen Zugriff auf unsere elektronischen und Print-Angebote anbieten wollen, dann sollten wir nicht versuchen, sie in monolithische Systeme zu locken, um von diesen Angeboten Kenntnis zu nehmen. Wir sollten stattdessen die Informationen zu unseren Angeboten möglichst breit verteilen, damit Nutzerinnen die Informationen in ihrer gewohnten Umgebung (z.B. Google) finden können. Passenderweise hat mir Rurik einmal gesagt, dass er keinen Sinn darin sieht, Discovery-Systeme wie Primo o.ä. zu lizenzieren; das Discovery-System seiner Bibliothek sei Google.

Ruriks Artikel schließt folgendermaßen:
"Es ist offensichtlich für uns, dass die Nutzung von Linked Open Data nicht nur den nötigen Zugang zu unseren Daten herstellt, sondern auch ein Weg ist, um sie mit den Daten anderer anzureichern. Es ist auch klar, dass in einem Zeitalter, wo "vernetzt" die Norm ist, jeder andere Ansatz nicht nur den Erfolg beschränkt, sondern ihn wahrscheinlich sogar ausschließt."
Bietet LOD wirklich völlig neue Möglichkeiten?


Als kleines Korrektiv zu den 'neuen Möglichkeiten', die Linked Open Data erst eröffnen würde, verweise ich noch auf diesen Blogpost von Lee Feigenbaum. Er antwortet darin auf die oft gestellte Frage Was kann ich mit Semantic-Web-Technologien machen, das ich nicht mit anderen Technologien machen kann? - "Nicht viel." Allerdings stellt er klar, dass die Frage falsch gestellt ist und lauten müsste: Was kann ich mit Semantic-Web-technologien machen, das ich sonst nicht machen würde?
Da Linked Data zwar keine revolutionäre Technik ist aber einen evolutionären Vorteil mit sich bringe, weil es Projekte möglich mache, die mit anderen Technologien - aufgrund des damit verbundenen Aufwands - nicht durchgeführt würden. Linked Data bedeute für viele Projekte: vom No-Go zum Go.
In einem weiteren Blogpost stellt er als vorteilhafte Eigenschaften von LOD heraus, dass es sich um ein  "common, coherent set of standards" handelt.

hbz: Motivation und erwartete Vorteile


Silke Schomburg hat vorgestern in einem Vortrag (Folien) beim internationalen Ex-Libris-Anwendertreffen unter anderem die Motivationen des hbz für Linked Open Data genannt. Folie 4 fasst einige bereits genannte Argumente knapp zusammen:
"Nutzung internationaler, domänenübergreifender Standards führt zu:
  • Erhöhter Auffindbarkeit
  • Möglicher Mehrfachnutzung eines Datenbestands
  • Maximierter Interoperabilität und Nachnutzbarkeit
  • Flexiblem Datenmodell"
Dies erinnert an die Aufzählung der W3C-LLD-Gruppe. Daraus folgend werden als möglicher Return of Investment genannt (Folie 5), dass die Nutzung eines standardisierten Technologie-Stacks mittel- bis langfristig dazu führt dieselben Dienste mit weniger Ressourcen sowie neue und verbesserte Services anbieten zu können.

Offene Strukturierte bibliographische Daten: Machen wir es nicht, machen es andere...


Nicht nur scheint LOD also aus rationalen und Effizienzgründen die bessere Wahl zum Aufbau zukünftiger Informationsinfrastrukturen zu sein. Auch könnte es der Bibliothekswelt dabei helfen, relevant zu bleiben und nicht durch andere Organisationen verdrängt zu werden.

Jakob Voß hat am Wochenende darauf hingewiesen, dass Wikimedia überlegt, ein Projekt "Bibliographisch-archivalische Datenbank" anzugehen, in dem eine offene bibliographisch-archivalische Datenbank angelegt werden soll zur Nachnutzung durch die verschiedenen Wikimedia-Projekte aber auch durch andere Akteure wie Wissenschaftler oder Google Books.

Wenn bibliothekarische Organisationen nicht eine wichtige Rolle dabei übernehmen, bibliographische Daten im großen Stil offen, strukturiert und leicht nachnutzbar zur Verfügung stellen, werden es schließlich andere tun...