2009-11-20

Workshop-Bericht: Open Data and the Semantic Web

Besser spät als nie - und dafür umso umfangreicher. Dieser Bericht wurde gemeinsam mit Felix Ostrowski verfasst. Unser Arbeitgeber, das hbz, hat uns freundlicherweise die Teilnahme am Workshop "Open Data and the Semantic Web" der Open Knowledge Foundation (OKFN) ermöglicht. So haben wir uns gemeinsam - beide in labilem gesundheitlichen Zustand - für ein langes Wochenende nach London aufgemacht und am Freitag dem 13. diesen Workshop besucht. Hier nun unser Bericht.

Rufus Pollock (OKFN): Einführung
Rufus Pollock von der Open Knowledge Foundation führte in den Tag ein und erläuterte das Konzept der Offenheit von Wissen anhand der Open Definition, die in Kurzform besagt:
A piece of knowledge is open if you are free to use, reuse, and redistribute it.
Gemäß der Open Definition darf Wissen den folgenden maximalen Einschränkungen unterliegen: share-alike (das heißt Veränderungen des Werks müssen unter der gleichen Lizenz weitergegeben werden) und attribution (Nennung des Urhebers). Somit sind etwa Creative-Commons-Lizenzen nach der Open Definition nicht notwendig offen. Dies gilt etwa für Lizenzen, die eine kommerzielle Nutzung verbieten

Zudem erläuterte Rufus Pollock CKAN (Comprehensive Knowledge Archive Network). Diese Registry gibt einen Überblick über bestehende Open-Data-Pakete und -Projekte. Zu jedem Paket/Projekt wird seine Kompatibilität mit der Open Definition anhand zweier grundlegender Eigenschaften angegeben: das Vorhandensein bzw. Nichtvorhandensein einer Lizenz sowie die Möglichkeit eines Downloads der Daten. CKAN stellt eine Lese- und Schreib-API bereit und ist in der Talis Connected Commons Platform als RDF verfügbar.

Leigh Dodds: Web Integrated Data
Leigh Dodds (Talis) machte deutlich, dass es bei Linked Open Data vor allem darum geht, den Nutzen bestehender strukturierter Daten zu maximieren. Der Weg zu dieser maximalen (Nach-)Nutzbarkeit erfolge in drei Schritten:
  1. Rohdaten veröffentlichen: Rohdaten heißt, die Daten werden unbearbeitet in Formaten wie CSV, XLS, PDF usw. publiziert. Sie sollten aber möglichst mit Metadaten, einer Dokumentation und Lizenz versehen werden.
  2. Webzugriff ermöglichen: Durch die Nutzung offener Webformate (XML, JSON etc.) und die Bereitstellung einer API wird ein direkter Webzugriff auf die Daten möglich.
  3. Vollständige Webintegration: Die Integration mit dem Web geschieht durch die Bereitstellung der Daten in RDF, einem webnativen Datenmodell. Dazu müssen Entitäten und Verknüpfungen zwischen diesen mittels URIs identifiziert werden.
Nach der Veröffentlichung heißt es: "Wait for great things to happen." Daten werden nachgenutzt und verlinkt und im Ergebnis entsteht das Linked-Data-Netz, ein menschen- und maschinenlesbares "Web of data".

Jordan Hatcher: Legal tools for Open Data
Die Techniker auf dem Workshop waren sich einig: Juristische Aspekte von Open Data sind langweilig aber leider sehr wichtig. Jordan Hatcher übernahm die Aufgabe, Probleme und Möglichkeiten der Lizenzierung von Daten kurz darzustellen.

Bis vor einiger Zeit gab es noch keine Lizenzen für Daten/Datenbanken. Für Software (Open Source) und intellektuelle Werke (Creative Commons) gibt es zwar schon länger Lösungen, diese lassen sich aber aufgrund der unterschiedlichen Rechtslage für Daten wie Datenbanken nicht übertragen.
Mittlerweile gibt es aber auch drei Lizenzen für Daten und Datenbanken:
Die Open Database License (ODbL) und die Public Domain Dedication and Licence (PDDL) sind auf Initiative des OKFN-Projekts Open Data Commons entstanden. Außerdem gibt es noch die mit der PDDL interoperable CC-0/CC-Zero (für die es allerdings noch keine deutsche Version gibt).
Während die OdBL Linzenzeinschränkungen wie Attribution und Share-alike erlaubt, ist es Ziel einer PDDL- oder CC-0-Lizenzierung, sämtliche Urheberrechtsansprüche (Vervielfältigungs-, Verwertungs- und Vertriebsrecht) aufzugeben und die Daten(bank) in die Public Domain zu stellen. ("Public Domain" ist kein deutscher Rechtsbegriff. Es ist vielleicht am ehesten mit Gemeinfreiheit gleichzusetzen.)

Jenni Tennison: Provenance in RDF
Jenni Tennison referierte über eine Kernfrage im Umgang mit Daten, die natürlich auch auf Linked Data zutrifft: "How do you know whether you can trust a piece of information?" (http://www.jenitennison.com/blog/node/133)

Klar ist, dass das Vertrauen in Daten umso gefestigter ist, je tiefer der Einblick in ihre Herkunft ist. Es geht also darum, eine Nachvollziehbarkeit der Entstehungsgeschichte von Daten herzustellen, um Vertrauen in diese Daten zu ermöglichen. Die Entstehung von Daten lässt sich beschreiben als das u.U. mehrmalige transformieren von Ausgangs- bzw. Rohdaten durch Prozesse, welche von Akteuren gesteuert werden.

Es gilt also, die Daten und die auf sie einwirkenden Prozesse transparent zu gestalten; dies wird durch "Open Data" und "Open SourceSoftware" gewährleistet. Tennison stellte zwei bestehende Ansätze vor, die dazu dienen, Provinienz-Information für RDF-Daten strukturiert (und ihrerseits in Form von RDF-Daten) formulieren zu können: Das Open Provenance Model und das Provenance Vocabulary. Sie machte deutlich, dass ersteres vereinfacht und das zweite (weil noch unfertig) mitentwickelt werden müsse, um für Linked-Data-Zwecke Anwendung zu finden.

Zuletzt verwies Tennison auf ein Ungleichgewicht, das man als "Linked-Data-Paradox" bezeichnen könnte: Linked-Data baut darauf auf, das alles einen Namen (in Form einer URI) hat. RDF-Tripel sind allerdings von Grund auf anonym und können momentan nur durch einen etwas schwergewichtigen Vorgang namens Reification (das heißt soviel wie "Verdinglichung", weil eine Aussage zu einer Entität ernannt wird (was sie eigentlich von vornherein sein sollte)) als Ressourcen referenzierbar gemacht werden. Da die Grundeinheit von RDF-Daten die einzelne Aussage ist, spielen auch Provenienz-Informationen auf dieser Ebene eine wichtige Rolle, sind aber momentan nicht bequem anzubringen.

Hugh Glaser: sameAs.org
Hugh Glaser stellte die von ihm ins Leben gerufene Webseite/Datenbank sameAs.org vor. Da Linked Data de facto das RDF-Datenmodell zu Grunde liegt, werden Entitäten ("Dinge in der echten Welt") über URIs referenziert. Da es (zum Glück) keine zentrale Vergabestelle für diese URIs gibt, ist es unvermeidbar, dass die selbe Entität von zwei (und meist noch viel mehr) verschiedenen URIs referenziert wird. Um das Zusammenführen von Beschreibungen eines Gegenstandes mit verschiedenen URIs zu ermöglichen, gibt es das OWL-Prädikat sameas, mit dem eben die Gleichheit der durch verschiedene URIs referenzierten Entität behauptet wird. Da dies eine sehr starke Behauptung ist, kann es zu unangenehmen Nebenwirkungen kommen. So hat etwa die New York Times beim Publizieren von RDF-Daten per owl:sameas auf URIs in DbPedia verwiesen und dadurch aus Versehen ihre Copyright-Bestimmungen auch auf die dort vorhandenen Daten ausgedehnt.

Um solche Probleme im Keim zu ersticken, ist Glasers Ansatz, die Aussagen über die Gleichheit der Referenz von URIs von den Aussagen über das Referenzierte zu trennen. Dafür hat er sameas.org implementiert, eine Datenbank, die ausschließlich Aussagen zur Kongruenz von URIs beinhaltet. Es wird damit möglich, auf diese Datenbank zu verweisen, anstatt Identitätsaussagen in den eigenen Daten treffen zu müssen. Dies hat auch den angenehmen Nebeneffekt, dass die Menge an Verweisen immer weiter wachsen kann, ohne dass das die eigenen Daten permanent aktualisiert werden müssen. sameAs.org unterscheidet sich von Diensten wie Okkam und Subj3ct, die dem Auffinden existierender URIs für bestimmte Entitäten dienen, eben genau darin, dass diese nicht dem Verweisen auf andere URIs dienen.

Eine Frage die sich aus der Perspektive der Bibliothekswelt aufdrängt, ist die, warum die URIs des VIAF bislang keine Berücksichtigung in der sameAs.org Datenbank gefunden haben. Dies mag daran liegen, dass der Nutzen von viaf.org bislang nahezu ausschließlich in der Bereitstellung von URIs für Personen liegt. (Zumindest waren wir bislang nicht in der Lage, dort Daten in irgendeiner RDF-Serialisierung zu finden). Sobald die URIs jedoch mit RDF beschrieben werden, könnten sie sich als enorm wertvoll herausstellen.

Lightning Talks

Hier ein kleiner Überblick über die gehaltenen Lightning Talks mit ein paar Links.

Mark Birbeck: RDFa & Government Data
Mit einem Ausschnitt aus dieser Präsentation bestritt Mark Birbeck seinen Lightning Talk über RDFa. Er exemplifizierte die Vorteile von RDFa am Beispiel der Anreicherung bestehender Webseiten mit Stellenangeboten in der öffentlichen Verwaltung, um diese harvesten zu können. Ohne die Publikationsworkflowa zu vereinheitlichen lassen sich verschiedene bestehende HTML-Webangebote mit einem einheitlichen Vokabular anreichern. Darauf aufbauend ist es schließlich ein Leichtes, zentralisierte Webangebote mit den gesammelten Stellenanzeigen bereitzustellen.

Rufus Pollock über CKAN
Rufus Pollock ging nochmal auf CKAN (s.o.) ein.

Jeni Tennison zu data.gov.uk
Jeni Tennison gab einen kurzen Einblick in die Baustelle data.gov.uk. Das britische Pendant zum US-amerikanischen data.gov hat ja mit Tim Berners-Lee den Erfinder des Semantic Web im Boot. Man darf gespannt sein, was dabei rauskommt, die öffentliche Beta-Phase soll im Dezember beginnen.

Ian Davis zum Data Incubator
Ian Davis (Talis) stellte das Freizeitprojekt einiger Talis-Mitarbeiter, den Data Incubator, vor. Dieser dient dem Zweck, Linked-Data-Praktiker zusammenzuführen, um große offene Datensätze in RDF zu konvertieren und diese Prozesse zu dokumentieren, indem etwa die verwendeten Programmcodes offen gelegt werden. Um diese Ziele zu erreichen wird ein Diskussionsforum bereitgestellt, Speicherkapazität in der Talis Platform sowie ein Google-Code-Repository.

Axel Rauschmayer: Social and Personal Linked Data
Axel Rauschmayer (LMU München) stellte sein Projekt Hyena vor, eine Mischung aus Wiki und Datenbank basierend auf RDF. Hyena kann sowohl offline, d.h. desktopbasiert, als auch webbasiert benutzt werden und verfügt über eine Synchronisierungsfunktion zwischen Web- und Desktopanwendung.

John Goodwin über Linked Data at Ordnance Survey
John Goodwin stellte die Ordnance-Survey-Linked-Data-Seite vor. Ordnance Survey ist die für Kartographierung zuständige britische Verwaltungsagentur. Die bisher vorhandenen Daten sind schon sehr informativ. Sie enthalten etwa Angaben über Regierungs- und Wahlbezirke und in welchem Verhältnis diese zueinander stehen. Genauere Geodaten über Grenzverläufe sind noch nicht vorhanden, weil ein Mapping in RDF offensichtlich nicht sehr leicht ist. Für mehr Informationen siehe einen Blogbeitrag zum Thema von John Goodwin.
Ordnance Survey war in den letzten Tagen im Gespräch, z.B. in den Medien und auf Twitter, weil es nun auch seine Karten online zur freien Verfügung gestellt hat.

Yves Raimond: BBC Linked Data
Sehr ansehnlich sind die Linked-Data-Seiten der BBC, die Yves Raimond präsentiert hat. Diese Seiten erhalten Unmengen an Daten über sämtliche Radio- und TV-Sendungen der BBC samt aller gespielten Lieder mit den entsprechenden Metadaten, Sendezeiten und und und. Wir empfehlen, darin einfach mal ein bisschen zu browsen. Wann wohl der WDR oder die ARD so etwas auf die Beine stellen werden? Die Daten sind ja da...

Chris Wallace: Model induction for RDF comprehension and browsing
Chris Wallace stellte eine Art Ontologie-Generator vor, auf den wir hier nicht näher eingehen, weil wir ihn schlicht in den fünf Minuten nicht genug erfasst haben. Es geht offensichtlich darum, eine Art Ontologie aus einer Menge von RDF-Tripeln induktiv herzuleiten.

Mark Birbeck: Where next for RDFa?
Mark Birbeck stellte die Frage über die Zukunft von RDFa und blieb eine Antwort schuldig. Vielleicht haben wir aber auch gerade nicht aufgepasst.

Richard Light: Museum Linked Data
Unseren Notizen nach zu urteilen, ist hiervon nicht viel hängengeblieben. Der Lightning Talk basierte auf diesen Folien oder sehr ähnlichen.

Rob McKinnon: Making Data Open
Rob McKinnons unterhaltsamer Vortrag stellte das Projekt Companies Open House vor, das aus Frustration am und Alternative zum öffentlichen Angebot (keine permanenten, weil Session-URLs) an einem Tag zusammengehackt wurde und Informationen zu UK-basierten Unternehmen unter stabilen URLs liefert.
Die Aufzeichnung eines (noch kürzeren Vortrag) von McKinnon zum Thema kann hier angeschaut werden.

Georgi Kobilarov: uberblic.org
Georgi Kobilarov (Berlin), der die DBpedia an der FU Berlin mitentwickelt hat, stellte sein neues Projekt uberblic.org vor. Es dient der Integration verschiedener Ontologien in einer Über-Ontologie, die in einem kollaborativen Prozess entstehen soll. Das Ganze sah ziemlich interessant aus, ist derzeit aber noch nicht offen zugänglich. Man darf gespannt sein...

John Goodwin: Genealogy and Linked Data
John Goodwin gab einen Überblick über seine Anwendung von Linked-Data auf das Feld der Genealogie.

Kristof Van Tomme: Drupal and the semantic web
Kristof Van Tomme (Pronovix) eräzhlte etwas über die RDFa-Integration in der kommenden siebten Version des Content-Management-Systems Drupal.

Linked Data Clinic - Fragen an die ExpertInnen

Zum Abschluß des Workshops wurden in der "Linked Data Clinic" von den anwesenden Experten einige grundlegende Fragen diskutiert, aber - und das war auch nicht Sinn der Übung - keineswegs abschließend beantwortet.

Bestehende URIs wiederverwenden oder neue prägen?
Anknüpfend an die Problematik der owl:samewas-Relationen (s.o.) ging es zunächst darum, welcher Ansatz grundsätzlich zu bevorzugen ist: Beim Publizieren von Linked Data auf bestehende URIs zurückzugreifen oder eigene URIs zu prägen, welche dann mit den bestehenden verknüpft werden. Hier gab es keine eindeutige Präferenz.

Versionierung und Beschreibung von RDF-Daten
Ein weiteres wichtiges Feld, dessen Wichtigkeit allgemein anerkannt wurde, ist das der Metadaten zu Linked Data. Wie können Standards geschaffen werden, um RDF-Daten zu beschreiben? Welche Ansätze gibt es, RDF-Daten zu versionieren? Beiden Fragen liegt wieder das Reifikations-Problem zu Grunde, also die Beschreibung von RDF-Aussagen durch RDF-Aussagen. [Anmerkung: es besteht, wie bereits erwähnt, durchaus die Möglichkeit, RDF-Aussagen zu eigenständigen Ressourcen zu erheben. Aber diese birgt so einige Folgeprobleme, so dass die Frage erlaubt sein muss, ob im RDF-Modell nicht schlicht etwas vergessen wurde: nämlich die Berücksichtung dessen, dass auch Aussagen Ressourcen sind - und sogar sehr wichtige.]

RDF-Modellierung: Agile Entwicklung oder Wasserfall?
Weiter ging es mit der die Anwendungsentwicklung betreffenden Frage, inwiefern Änderungen in einem RDF-basierten Datenschema ad-hoc möglich sind, ob also das RDF-Modell mit der agilen Softwareentwicklung kompatibel ist. Hier herrschte weitgehend der Tenor, dass das Erweitern des Schemas deutlich schmerzfreier ist, als in einem relationalen Datenmodell, da das zugrundeliegende Datenbankschema - so denn ein Triple Store eingesetzt wird - nicht geändert werden muss.

Google-RDF: Was wären die Folgen
Zuletzt wurde ergebnisoffen die Frage diskutiert ob RDF auch dann eine zukunftsträchtige Basis für Linked Data bleibt, wenn ein "Big Player" wie Google auf die Idee kommen sollte, auf einen anderen Standard zu setzen.

Abschlussfrage
Die Abschlussfrage an die Experten lautete: Was sind die Herausforderungen für (1) die Linked-Data-Gemeinschaft bzw. (2) für Linked-Data-Anfänger?

Jeni Tennison wies noch einmal darauf hin, dass mit der Verbreitung von Linked Data auch verstärkt die Frage der Provinienzdokumentation und Versionierung aufkommen wird, und man wohl daran täte, die oben bereits angedeuteten Probleme offensiv anzugehen.
Steve Harris und Hugh Glaser betonten, das bei aller Umwandlung von bestehenden Daten in das Linked-Data-Modell die Entwicklung von (Endnutzer-)Anwendungen, die auf diesen Daten operieren, nicht vergessen werden darf.
Georgi Kobilarov deutete an, dass ein Problem für Einsteiger - vor allem in die technischen Aspekte von Linked Data - weniger die Komplexität der Materie als vielmehr das Finden der richtigen Tutorials und Dokumentationen im Web ist.

Auch wir meinen: Linked Data ist von Natur her dezentral, und so sollte daran gelegen sein, dass sich die Auseinandersetzung mit der Materie nicht auf einen elitären Zirkel beschränkt. (Hmm, leider ist dies hier auch nicht gerade zu einem Einführungstext geraten. Vielleicht ein andernmal...)

Kommentare:

Cornelius Puschmann hat gesagt…

Danke für den sehr informativen Beitrag - fühle mich jetzt sehr gut informiert. Mein Augenmerk liegt ebenfalls besonders auf den Endanwendungen, auf die wir vermutlich noch ein wenig warten müssen...

Kathi hat gesagt…

Auch von mir vielen Dank für den "letzten Stand der Dinge"! Besonders das Lizenzthema war für mich neu. Und Glückwunsch zu dem spendablen Arbeitgeber...

Jakob hat gesagt…

Danke für den Bericht!

Kommentar veröffentlichen