2009-11-26

Erst öffnen, dann linken!

Dienstag und Mittwoch fand in Köln das SWIB09 statt. Es war eine sehr interessante Veranstaltung, vor allem habe ich mich gefreut, einige Personen mal im realen Leben zu treffen, die ich bisher nur virtuell kannte. Hier geht es jetzt darum, einige Probleme, Fragen und Unklarheiten zu besprechen, die mir mehrmals aufgefallen sind. Den Anfang macht die Frage nach der Reihenfolge von Lizenzierung, Publizierung, Triplifizierung und Verlinkung von Daten. (Ich hoffe, Felix, der jetzt hier mitschreibt, setzt die Reihe fort.)

Linked Data & Open Data
Zwei verschiedene Ansätze, Bibliotheken in das Semantic Web zu bringen wurden während der Veranstaltung nur allzu deutlich.

Erster Ansatz
Hauptsache hochqualitative Daten in RDF, der Rest wird sich finden, so könnte man die Grundhaltung dieses Angangs beschreiben. Dieser erste Ansatz - der bisher zum Beispiel von der DNB verfolgt wird - scheint mir ein so naiver wie traditioneller zu sein. Er geht so: Wir tüfteln eine Technologie zur Umwandlung der bibliothekarischen Datenformate in RDF-Tripel aus, verwenden dabei am besten ein - bisher von sonst niemandem genutzes, weil noch nicht existierendes - RDA-Vokabular, veröffentlichen am Ende des langen Entwicklungsprozesses die konvertierten Daten und bieten die Möglichkeit der Suche (mit einem SPARQL-Endpoint) und Verlinkung zu unseren Daten an. Über Lizensierungsfragen und die vollständige Öffnung der gesamten Daten machen wir uns aber zunächst keine Gedanken.

Dieser Ansatz birgt zwei grundlegende Probleme:
Erstens wird mit einem RDA-Vokabular auf bibliothekarische Standards gesetzt, die noch nicht fertiggestellt sind und dementsprechend auch keine Verbreitung in nicht-bibliothekarischen Bereichen gefunden haben. Ein solcher Weg birgt die Gefahr ein neues Silo mit Katalogdaten - diesmal im Semantic Web selbst - zu etablieren, denn: Die Nachnutzung bestehender Vokabulare ist gängige Praxis und sorgt dafür, dass Daten verlinkt und damit Linked Data geschaffen wird. Jakob Voß machte in seiner Präsentation über die Bibliographic Ontology (Bibo) deutlich, dass man an diesem Vokabular nicht mehr vorbeikommt, wenn man bibliographische Daten im Linked-Data-Netz veröffentlichen will. Die Bibo selbst berücksichtigt und inkorporiert ihrerseits bestehende De-Facto-Standards wie foaf und die DCMI Metadata Terms.
Eine Möglichkeit wäre es, bei der Entwicklung einer RDA-Ontologie bestehende Klassen und Prädikate aus Bibo, Dublin Core usw zu übernehmen. Allerdings weiß ich nicht, inwieweit dies getan wird.
Zweitens - und dies hat Patrick Danowski sehr schön in seiner Präsentation dargestellt - vernachlässigt dieser Ansatz eine grundlegende Frage, die beim Veröffentlichen von Linked Open Data eine wichtige Rolle spielt: Nämlich die Frage der Lizenzierung. Im letzten Übertext-Beitrag wird dies auch zweimal angesprochen: Der erste Schritt zu Linked-Open-Data sollte die Öffnung der Rohdaten sein. Tim Berners-Lee fasste dies in seinem bekannten TED-Talk in die Worte: Raw Data Now!

Welche Chancen verspielen Bibliotheken, wenn sie erst nach einer langen Planungs- und Entwicklungsphase eine ganzen Haufen triplifizierter bibliographischer Daten freigeben und welche Risiken birgt dieser Ansatz:

1. Aufwändige und schlechtere Konvertierung: Arbeitet eine Bibliothek oder ein Verbund alleine für sich an einer Konvertierung der Daten, so liegt die Arbeitslast und Verantwortung allein auf den Schultern dieser Institution. Veröffentlicht man aber im ersten Schritt die Rohdaten, so lassen sich Teile des Konvertierungsprozesses crowdsourcen, denn es gibt im Internet eine Menge Leute, die an Bibliotheksdaten interessiert sind. Flankiert durch ein offene Plattform zur Dokumentation und Diskussion des Konvertierungssprozesses bringt dieser Ansatz auch von Anfang an Feedback ein, so dass von vorneherein ein bestmögliches Ergebnis sichergestellt wird.

2. Verlinken nicht möglich: Der Ansatz, zunächst die bestehenden Daten einer Institution möglichst vollständig zu konvertieren und erst dann die URIs und internen Verknüpfungen zu veröffentlichen bedeutet, dass erst am Ende dieses Prozesses, wenn die Daten veröffentlicht sind, andere Personen oder Institutionen Verlinkungen mit diesen Daten herstellen können. Dies ist meiner Meinung nach unnötig, gerade weil die Standards eine iterative Publikation der Daten möglich machen und auch URIs alleine schon einen großen Wert haben. Ich fände es zum Beispiel sinnvoll, die PND- (oder GND-)URIs so früh wie möglich zu veröffentlichen, wenn auch nur mit minimalen Informationen (z.B. Ansetzungsform, Verweisungsform + Lebensdaten) versehen. Damit könnten diese URIs frühstmöglich verlinkt und mit anderen Daten in Beziehung gesetzt werden. Nach und nach könnten weitere RDF-Tripel angehängt werden, sobald die Konvertierungsfragen geklärt sind. (Jetzt könnte man einwenden, dass es die GND-URIs schon gibt. Gewissermaßen stimmt dies vielleicht, allerdings hätte die Pedantic Web Group daran einiges zu verbessern, vor allem, weil Personen und die sie beschreibenden Ressourcen dieselbe URI haben. Dieser Umstand schreckt auf jeden Fall vor einer Nutzung der URIs ab.)

Zweiter Ansatz: Open first, link later!
Der zweite Ansatz lässt sich am besten durch ein praktisches Beispiel erläutern, das der CERN Library. Diese Bibliothek nimmt ihren ehemalgien Kollegen Tim Berners-Lee beim Wort und wird - wie Patrick Danowski auf der SWIB09 ankündigte - ihre Daten diese Woche in die Public Domain stellen. Die Open Library und biblios.net werden die Daten übernehmen und verfügbar halten aber auch jedeR andere kann die Daten übernehmen und damit herumspielen.
Erst im zweiten Schritt sollen die Daten in RDF umgewandelt werden und Verlinkungen zu anderen Daten herstellt werden. Ich hoffe, dass dieser Konvertierungsprozess offen und transparent stattfinden wird und die verwendeten Programmiercodes offengelegt werden, so dass zum einen die CERN Library davon profitiert, weil sie den Input aus der Gemeinschaft bekommt und auch zum anderen die Bibliotheken und Verbünde, die dem Beispiel der CERN Library noch folgen werden.

2009-11-20

Workshop-Bericht: Open Data and the Semantic Web

Besser spät als nie - und dafür umso umfangreicher. Dieser Bericht wurde gemeinsam mit Felix Ostrowski verfasst. Unser Arbeitgeber, das hbz, hat uns freundlicherweise die Teilnahme am Workshop "Open Data and the Semantic Web" der Open Knowledge Foundation (OKFN) ermöglicht. So haben wir uns gemeinsam - beide in labilem gesundheitlichen Zustand - für ein langes Wochenende nach London aufgemacht und am Freitag dem 13. diesen Workshop besucht. Hier nun unser Bericht.

Rufus Pollock (OKFN): Einführung
Rufus Pollock von der Open Knowledge Foundation führte in den Tag ein und erläuterte das Konzept der Offenheit von Wissen anhand der Open Definition, die in Kurzform besagt:
A piece of knowledge is open if you are free to use, reuse, and redistribute it.
Gemäß der Open Definition darf Wissen den folgenden maximalen Einschränkungen unterliegen: share-alike (das heißt Veränderungen des Werks müssen unter der gleichen Lizenz weitergegeben werden) und attribution (Nennung des Urhebers). Somit sind etwa Creative-Commons-Lizenzen nach der Open Definition nicht notwendig offen. Dies gilt etwa für Lizenzen, die eine kommerzielle Nutzung verbieten

Zudem erläuterte Rufus Pollock CKAN (Comprehensive Knowledge Archive Network). Diese Registry gibt einen Überblick über bestehende Open-Data-Pakete und -Projekte. Zu jedem Paket/Projekt wird seine Kompatibilität mit der Open Definition anhand zweier grundlegender Eigenschaften angegeben: das Vorhandensein bzw. Nichtvorhandensein einer Lizenz sowie die Möglichkeit eines Downloads der Daten. CKAN stellt eine Lese- und Schreib-API bereit und ist in der Talis Connected Commons Platform als RDF verfügbar.

Leigh Dodds: Web Integrated Data
Leigh Dodds (Talis) machte deutlich, dass es bei Linked Open Data vor allem darum geht, den Nutzen bestehender strukturierter Daten zu maximieren. Der Weg zu dieser maximalen (Nach-)Nutzbarkeit erfolge in drei Schritten:
  1. Rohdaten veröffentlichen: Rohdaten heißt, die Daten werden unbearbeitet in Formaten wie CSV, XLS, PDF usw. publiziert. Sie sollten aber möglichst mit Metadaten, einer Dokumentation und Lizenz versehen werden.
  2. Webzugriff ermöglichen: Durch die Nutzung offener Webformate (XML, JSON etc.) und die Bereitstellung einer API wird ein direkter Webzugriff auf die Daten möglich.
  3. Vollständige Webintegration: Die Integration mit dem Web geschieht durch die Bereitstellung der Daten in RDF, einem webnativen Datenmodell. Dazu müssen Entitäten und Verknüpfungen zwischen diesen mittels URIs identifiziert werden.
Nach der Veröffentlichung heißt es: "Wait for great things to happen." Daten werden nachgenutzt und verlinkt und im Ergebnis entsteht das Linked-Data-Netz, ein menschen- und maschinenlesbares "Web of data".

Jordan Hatcher: Legal tools for Open Data
Die Techniker auf dem Workshop waren sich einig: Juristische Aspekte von Open Data sind langweilig aber leider sehr wichtig. Jordan Hatcher übernahm die Aufgabe, Probleme und Möglichkeiten der Lizenzierung von Daten kurz darzustellen.

Bis vor einiger Zeit gab es noch keine Lizenzen für Daten/Datenbanken. Für Software (Open Source) und intellektuelle Werke (Creative Commons) gibt es zwar schon länger Lösungen, diese lassen sich aber aufgrund der unterschiedlichen Rechtslage für Daten wie Datenbanken nicht übertragen.
Mittlerweile gibt es aber auch drei Lizenzen für Daten und Datenbanken:
Die Open Database License (ODbL) und die Public Domain Dedication and Licence (PDDL) sind auf Initiative des OKFN-Projekts Open Data Commons entstanden. Außerdem gibt es noch die mit der PDDL interoperable CC-0/CC-Zero (für die es allerdings noch keine deutsche Version gibt).
Während die OdBL Linzenzeinschränkungen wie Attribution und Share-alike erlaubt, ist es Ziel einer PDDL- oder CC-0-Lizenzierung, sämtliche Urheberrechtsansprüche (Vervielfältigungs-, Verwertungs- und Vertriebsrecht) aufzugeben und die Daten(bank) in die Public Domain zu stellen. ("Public Domain" ist kein deutscher Rechtsbegriff. Es ist vielleicht am ehesten mit Gemeinfreiheit gleichzusetzen.)

Jenni Tennison: Provenance in RDF
Jenni Tennison referierte über eine Kernfrage im Umgang mit Daten, die natürlich auch auf Linked Data zutrifft: "How do you know whether you can trust a piece of information?" (http://www.jenitennison.com/blog/node/133)

Klar ist, dass das Vertrauen in Daten umso gefestigter ist, je tiefer der Einblick in ihre Herkunft ist. Es geht also darum, eine Nachvollziehbarkeit der Entstehungsgeschichte von Daten herzustellen, um Vertrauen in diese Daten zu ermöglichen. Die Entstehung von Daten lässt sich beschreiben als das u.U. mehrmalige transformieren von Ausgangs- bzw. Rohdaten durch Prozesse, welche von Akteuren gesteuert werden.

Es gilt also, die Daten und die auf sie einwirkenden Prozesse transparent zu gestalten; dies wird durch "Open Data" und "Open SourceSoftware" gewährleistet. Tennison stellte zwei bestehende Ansätze vor, die dazu dienen, Provinienz-Information für RDF-Daten strukturiert (und ihrerseits in Form von RDF-Daten) formulieren zu können: Das Open Provenance Model und das Provenance Vocabulary. Sie machte deutlich, dass ersteres vereinfacht und das zweite (weil noch unfertig) mitentwickelt werden müsse, um für Linked-Data-Zwecke Anwendung zu finden.

Zuletzt verwies Tennison auf ein Ungleichgewicht, das man als "Linked-Data-Paradox" bezeichnen könnte: Linked-Data baut darauf auf, das alles einen Namen (in Form einer URI) hat. RDF-Tripel sind allerdings von Grund auf anonym und können momentan nur durch einen etwas schwergewichtigen Vorgang namens Reification (das heißt soviel wie "Verdinglichung", weil eine Aussage zu einer Entität ernannt wird (was sie eigentlich von vornherein sein sollte)) als Ressourcen referenzierbar gemacht werden. Da die Grundeinheit von RDF-Daten die einzelne Aussage ist, spielen auch Provenienz-Informationen auf dieser Ebene eine wichtige Rolle, sind aber momentan nicht bequem anzubringen.

Hugh Glaser: sameAs.org
Hugh Glaser stellte die von ihm ins Leben gerufene Webseite/Datenbank sameAs.org vor. Da Linked Data de facto das RDF-Datenmodell zu Grunde liegt, werden Entitäten ("Dinge in der echten Welt") über URIs referenziert. Da es (zum Glück) keine zentrale Vergabestelle für diese URIs gibt, ist es unvermeidbar, dass die selbe Entität von zwei (und meist noch viel mehr) verschiedenen URIs referenziert wird. Um das Zusammenführen von Beschreibungen eines Gegenstandes mit verschiedenen URIs zu ermöglichen, gibt es das OWL-Prädikat sameas, mit dem eben die Gleichheit der durch verschiedene URIs referenzierten Entität behauptet wird. Da dies eine sehr starke Behauptung ist, kann es zu unangenehmen Nebenwirkungen kommen. So hat etwa die New York Times beim Publizieren von RDF-Daten per owl:sameas auf URIs in DbPedia verwiesen und dadurch aus Versehen ihre Copyright-Bestimmungen auch auf die dort vorhandenen Daten ausgedehnt.

Um solche Probleme im Keim zu ersticken, ist Glasers Ansatz, die Aussagen über die Gleichheit der Referenz von URIs von den Aussagen über das Referenzierte zu trennen. Dafür hat er sameas.org implementiert, eine Datenbank, die ausschließlich Aussagen zur Kongruenz von URIs beinhaltet. Es wird damit möglich, auf diese Datenbank zu verweisen, anstatt Identitätsaussagen in den eigenen Daten treffen zu müssen. Dies hat auch den angenehmen Nebeneffekt, dass die Menge an Verweisen immer weiter wachsen kann, ohne dass das die eigenen Daten permanent aktualisiert werden müssen. sameAs.org unterscheidet sich von Diensten wie Okkam und Subj3ct, die dem Auffinden existierender URIs für bestimmte Entitäten dienen, eben genau darin, dass diese nicht dem Verweisen auf andere URIs dienen.

Eine Frage die sich aus der Perspektive der Bibliothekswelt aufdrängt, ist die, warum die URIs des VIAF bislang keine Berücksichtigung in der sameAs.org Datenbank gefunden haben. Dies mag daran liegen, dass der Nutzen von viaf.org bislang nahezu ausschließlich in der Bereitstellung von URIs für Personen liegt. (Zumindest waren wir bislang nicht in der Lage, dort Daten in irgendeiner RDF-Serialisierung zu finden). Sobald die URIs jedoch mit RDF beschrieben werden, könnten sie sich als enorm wertvoll herausstellen.

Lightning Talks

Hier ein kleiner Überblick über die gehaltenen Lightning Talks mit ein paar Links.

Mark Birbeck: RDFa & Government Data
Mit einem Ausschnitt aus dieser Präsentation bestritt Mark Birbeck seinen Lightning Talk über RDFa. Er exemplifizierte die Vorteile von RDFa am Beispiel der Anreicherung bestehender Webseiten mit Stellenangeboten in der öffentlichen Verwaltung, um diese harvesten zu können. Ohne die Publikationsworkflowa zu vereinheitlichen lassen sich verschiedene bestehende HTML-Webangebote mit einem einheitlichen Vokabular anreichern. Darauf aufbauend ist es schließlich ein Leichtes, zentralisierte Webangebote mit den gesammelten Stellenanzeigen bereitzustellen.

Rufus Pollock über CKAN
Rufus Pollock ging nochmal auf CKAN (s.o.) ein.

Jeni Tennison zu data.gov.uk
Jeni Tennison gab einen kurzen Einblick in die Baustelle data.gov.uk. Das britische Pendant zum US-amerikanischen data.gov hat ja mit Tim Berners-Lee den Erfinder des Semantic Web im Boot. Man darf gespannt sein, was dabei rauskommt, die öffentliche Beta-Phase soll im Dezember beginnen.

Ian Davis zum Data Incubator
Ian Davis (Talis) stellte das Freizeitprojekt einiger Talis-Mitarbeiter, den Data Incubator, vor. Dieser dient dem Zweck, Linked-Data-Praktiker zusammenzuführen, um große offene Datensätze in RDF zu konvertieren und diese Prozesse zu dokumentieren, indem etwa die verwendeten Programmcodes offen gelegt werden. Um diese Ziele zu erreichen wird ein Diskussionsforum bereitgestellt, Speicherkapazität in der Talis Platform sowie ein Google-Code-Repository.

Axel Rauschmayer: Social and Personal Linked Data
Axel Rauschmayer (LMU München) stellte sein Projekt Hyena vor, eine Mischung aus Wiki und Datenbank basierend auf RDF. Hyena kann sowohl offline, d.h. desktopbasiert, als auch webbasiert benutzt werden und verfügt über eine Synchronisierungsfunktion zwischen Web- und Desktopanwendung.

John Goodwin über Linked Data at Ordnance Survey
John Goodwin stellte die Ordnance-Survey-Linked-Data-Seite vor. Ordnance Survey ist die für Kartographierung zuständige britische Verwaltungsagentur. Die bisher vorhandenen Daten sind schon sehr informativ. Sie enthalten etwa Angaben über Regierungs- und Wahlbezirke und in welchem Verhältnis diese zueinander stehen. Genauere Geodaten über Grenzverläufe sind noch nicht vorhanden, weil ein Mapping in RDF offensichtlich nicht sehr leicht ist. Für mehr Informationen siehe einen Blogbeitrag zum Thema von John Goodwin.
Ordnance Survey war in den letzten Tagen im Gespräch, z.B. in den Medien und auf Twitter, weil es nun auch seine Karten online zur freien Verfügung gestellt hat.

Yves Raimond: BBC Linked Data
Sehr ansehnlich sind die Linked-Data-Seiten der BBC, die Yves Raimond präsentiert hat. Diese Seiten erhalten Unmengen an Daten über sämtliche Radio- und TV-Sendungen der BBC samt aller gespielten Lieder mit den entsprechenden Metadaten, Sendezeiten und und und. Wir empfehlen, darin einfach mal ein bisschen zu browsen. Wann wohl der WDR oder die ARD so etwas auf die Beine stellen werden? Die Daten sind ja da...

Chris Wallace: Model induction for RDF comprehension and browsing
Chris Wallace stellte eine Art Ontologie-Generator vor, auf den wir hier nicht näher eingehen, weil wir ihn schlicht in den fünf Minuten nicht genug erfasst haben. Es geht offensichtlich darum, eine Art Ontologie aus einer Menge von RDF-Tripeln induktiv herzuleiten.

Mark Birbeck: Where next for RDFa?
Mark Birbeck stellte die Frage über die Zukunft von RDFa und blieb eine Antwort schuldig. Vielleicht haben wir aber auch gerade nicht aufgepasst.

Richard Light: Museum Linked Data
Unseren Notizen nach zu urteilen, ist hiervon nicht viel hängengeblieben. Der Lightning Talk basierte auf diesen Folien oder sehr ähnlichen.

Rob McKinnon: Making Data Open
Rob McKinnons unterhaltsamer Vortrag stellte das Projekt Companies Open House vor, das aus Frustration am und Alternative zum öffentlichen Angebot (keine permanenten, weil Session-URLs) an einem Tag zusammengehackt wurde und Informationen zu UK-basierten Unternehmen unter stabilen URLs liefert.
Die Aufzeichnung eines (noch kürzeren Vortrag) von McKinnon zum Thema kann hier angeschaut werden.

Georgi Kobilarov: uberblic.org
Georgi Kobilarov (Berlin), der die DBpedia an der FU Berlin mitentwickelt hat, stellte sein neues Projekt uberblic.org vor. Es dient der Integration verschiedener Ontologien in einer Über-Ontologie, die in einem kollaborativen Prozess entstehen soll. Das Ganze sah ziemlich interessant aus, ist derzeit aber noch nicht offen zugänglich. Man darf gespannt sein...

John Goodwin: Genealogy and Linked Data
John Goodwin gab einen Überblick über seine Anwendung von Linked-Data auf das Feld der Genealogie.

Kristof Van Tomme: Drupal and the semantic web
Kristof Van Tomme (Pronovix) eräzhlte etwas über die RDFa-Integration in der kommenden siebten Version des Content-Management-Systems Drupal.

Linked Data Clinic - Fragen an die ExpertInnen

Zum Abschluß des Workshops wurden in der "Linked Data Clinic" von den anwesenden Experten einige grundlegende Fragen diskutiert, aber - und das war auch nicht Sinn der Übung - keineswegs abschließend beantwortet.

Bestehende URIs wiederverwenden oder neue prägen?
Anknüpfend an die Problematik der owl:samewas-Relationen (s.o.) ging es zunächst darum, welcher Ansatz grundsätzlich zu bevorzugen ist: Beim Publizieren von Linked Data auf bestehende URIs zurückzugreifen oder eigene URIs zu prägen, welche dann mit den bestehenden verknüpft werden. Hier gab es keine eindeutige Präferenz.

Versionierung und Beschreibung von RDF-Daten
Ein weiteres wichtiges Feld, dessen Wichtigkeit allgemein anerkannt wurde, ist das der Metadaten zu Linked Data. Wie können Standards geschaffen werden, um RDF-Daten zu beschreiben? Welche Ansätze gibt es, RDF-Daten zu versionieren? Beiden Fragen liegt wieder das Reifikations-Problem zu Grunde, also die Beschreibung von RDF-Aussagen durch RDF-Aussagen. [Anmerkung: es besteht, wie bereits erwähnt, durchaus die Möglichkeit, RDF-Aussagen zu eigenständigen Ressourcen zu erheben. Aber diese birgt so einige Folgeprobleme, so dass die Frage erlaubt sein muss, ob im RDF-Modell nicht schlicht etwas vergessen wurde: nämlich die Berücksichtung dessen, dass auch Aussagen Ressourcen sind - und sogar sehr wichtige.]

RDF-Modellierung: Agile Entwicklung oder Wasserfall?
Weiter ging es mit der die Anwendungsentwicklung betreffenden Frage, inwiefern Änderungen in einem RDF-basierten Datenschema ad-hoc möglich sind, ob also das RDF-Modell mit der agilen Softwareentwicklung kompatibel ist. Hier herrschte weitgehend der Tenor, dass das Erweitern des Schemas deutlich schmerzfreier ist, als in einem relationalen Datenmodell, da das zugrundeliegende Datenbankschema - so denn ein Triple Store eingesetzt wird - nicht geändert werden muss.

Google-RDF: Was wären die Folgen
Zuletzt wurde ergebnisoffen die Frage diskutiert ob RDF auch dann eine zukunftsträchtige Basis für Linked Data bleibt, wenn ein "Big Player" wie Google auf die Idee kommen sollte, auf einen anderen Standard zu setzen.

Abschlussfrage
Die Abschlussfrage an die Experten lautete: Was sind die Herausforderungen für (1) die Linked-Data-Gemeinschaft bzw. (2) für Linked-Data-Anfänger?

Jeni Tennison wies noch einmal darauf hin, dass mit der Verbreitung von Linked Data auch verstärkt die Frage der Provinienzdokumentation und Versionierung aufkommen wird, und man wohl daran täte, die oben bereits angedeuteten Probleme offensiv anzugehen.
Steve Harris und Hugh Glaser betonten, das bei aller Umwandlung von bestehenden Daten in das Linked-Data-Modell die Entwicklung von (Endnutzer-)Anwendungen, die auf diesen Daten operieren, nicht vergessen werden darf.
Georgi Kobilarov deutete an, dass ein Problem für Einsteiger - vor allem in die technischen Aspekte von Linked Data - weniger die Komplexität der Materie als vielmehr das Finden der richtigen Tutorials und Dokumentationen im Web ist.

Auch wir meinen: Linked Data ist von Natur her dezentral, und so sollte daran gelegen sein, dass sich die Auseinandersetzung mit der Materie nicht auf einen elitären Zirkel beschränkt. (Hmm, leider ist dies hier auch nicht gerade zu einem Einführungstext geraten. Vielleicht ein andernmal...)

2009-11-09

Wissen und Informationsfreiheit

Anstatt eines Credos, hier ein Scio, also anstatt eines Glaubensbekenntnisses ein Wissensbekenntnis:
Ich weiß, dass über alles Wissen gestritten werden muss. Nur dieses  Wissen ist unbestreitbar, dass die beste Voraussetzung jedes Wissensstreits der freie Zugriff Aller auf die relevanten Informationen ist.

2009-11-03

Exzerpt-Monitoring und -anreicherung mit Tynt

 [Update, 21.12.2009: Ich war ja von Anfang an selbst nicht so sehr begeistert von Tynt und habe das Experiment abgebrochen. Mittlerweile habe ich das Exzerptmonitoring wieder deaktiviert.]

Seit einer Woche habe ich übrigens Tynt Insight für dieses Blog installiert. Das ist ein Tool zum Monitoring der Nutzeraktionen auf den Webseiten einer bestimmten Domain. Eine Anmeldung bei Tynt und das Kopieren einer Zeile Javascript in den Quelltext reichen aus und es geht los. (Da Tynt Insight auf Javascript basiert lässt es sich auch - etwa durch die Nutzung von noscript oder ähnlichem - umgehen.)

Und was macht dieses Tool jetzt genau? Es sind vor allem zwei Nutzeraktionen, die Tynt erfasst, zählt und auswertet: Copy & Paste und das Kopieren von Bildern. (Augenfixationserkennung wird noch nicht unterstützt. ;-) Das heißt, ich kann in Echtzeit erfahren, welche Zeichenketten sich Übertext-Leser zu welcher Zeit markiert und kopiert haben. Darüberhinaus werden alle 24 Stunden Statistiken über die Aktivitäten erstellt. So kann ich erfahren, welche Inhalte für die Leserinnen besonders interessant sind und kann diese - wenn ich mir den Pro-Account gönne - sogar automatisch twittern lassen.

Metadaten automatisch mitgeliefert

Soso, mag jetzt so manch einer denken, das ist ja sehr aufschlussreich, besonders für ein Blog, dessen Beiträge jeweils 30 bis 100mal angeschaut werden... Ehrlich gesagt war das Exzerptmonitoring auch nicht der ausschlaggebende Punkt für mich, Tynt Insight zu installieren. Ganz im Gegenteil, ich finde es persönlich eher abschreckend, wenn ich weiß, dass jedes Exzerpieren registriert wird.

Was mich gereizt hat war die Anreicherung von Exzerpten durch die automatische Beigabe von Metadaten. Probier es einfach mal aus und kopiere eine beliebige Zeichenkette, füge sie - etwa in einen Editor - ein und du wirst sehen: nicht nur die kopierte Zeichenkette erscheint, sondern auch interessante Metadaten, nämlich die Lizenzinformation und eine URL, die dich zur jeweiligen Seite mit dem hervorgehobenen Exzerpt zurückführt.

Sinnvoll & praktisch oder überflüssig & nervig?

Mich würde interessieren was andere von diesem Tool halten. Findet ihr es praktisch oder gefällt es euch nicht? Mich hat es teilweise schon genervt, wenn ich beim Einfügen mehr Text stehen habe als ich eigentlich kopiert hatte. Andererseits kann ich mir aufbauend auf dieser Technik sehr praktische Anwendungen für das Exzerpieren und Zitieren elektronischer wissenschaftlicher (Hyper-)Texte vorstellen. Dies kann sicher jeder nachvollziehen, der etwa schonmal eine Textpassage zitieren wollte, die dazugehörige Quellenangabe aber verlegt hatte.

2009-11-01

Flickr und Open Library verlinken

Ich hatte vor einiger Zeitschon mal was drüber gelesen, es bisher aber nie ausprobiert: das Maschinentagging von Flickr-Bildern zur Verlinkung mit der Open Library. Eine Präsentation zur Open Library beim MALIS-Studiengang war nun der Anlass, diesen spaßigen Dienst einmal auszuprobieren.

Zunächst habe ich ein Testfoto machen lassen und auf Flickr hochgeladen. Dann war es ein leichtes, die Verknüpfung zum entsprechenden Bucheintrag bei der Open Library herzustellen, weil diese Maschinentags alles andere als kompliziert sind. Sie haben die Form openlibrary:id='Buch-ID', in meinem Fall also openlibrary:id=OL2274241M.

Das Ergebnis: Auf der Flickr-Seite des Fotos erscheint ein kleiner verlinkter Hinweis "LIB Symbolische Maschinen ist ein Buch der Open Library", dem jedeR folgen kann um die  bibliographischen Daten des Buches einzusehen oder - falls verfügbar - im digitalisierten Volltext zu stöbern. Leider funktioniert die Verknüpfung momentan (noch) nicht in die andere Richtung, d.h. beim Bucheintrag in der Open Library gibt es keinen Link auf maschinengetaggte Flickr-Bilder.

Ist es nicht schön, was man alles Tolles machen kann, wenn man nur eindeutige IDs und darauf aufbauende stabile URLs hat...