2010-02-03

Mehr zu Blog-Metadaten in Dublin Core

Im Oktober hatte ich über die Anreicherung dieses Blogs mit Dublin-Core-Metadaten in RDFa berichtet. Im Rahmen meines Weiterbildungsstudiums der Bibliotheks- und Informationswissenschaften an der FH-Köln habe ich dann mit meiner Gruppe eine Aufgabe zum Thema bearbeitet.

Das schriftliche Ergebnis unserer Überlegungen zu Blog-Metadaten in Dublin Core und zur Konzeption von Blog-Suchmaschinen habe ich nun heute bei Scribd publiziert (Link). Neben den Überlegungen zur Anreicherung eines Blogs mit DC-Metadaten findet sich in der Arbeit ein Entwurf für die Modellierung einer Blog-Suchmaschine ausgehend von einer knappen Darstellung der - nach Jens Schröder -  fünf besten Blog-Suchmaschinen.

Das Ganze kann sicher für Leute, die sich mit Blog-Metadaten, Dublin Core und Blog-Suche befassen, ganz nützlich sein, weshalb es nun auch publiziert wurde. So kann es auch über das Studium hinaus von Nutzen sein...

Mein Dank geht an meine GruppenmitstreiterInnen Irene, Katrin und Tobias für die allzeit gute und reibungslose Zusammenarbeit und dafür, dass sie der Publikation zugestimmt haben. Bald hat dieser Aufgaben-Stress ja endlich sein Ende und die - sicher deutlich spannendere und spaßigere - Projektphase beginnt.

2010-01-07

Kommunikation statt Information

Der Ausdruck 'Information' ist im Bibliotheksbereich wie auch im allgemeinen Sprachgebrauch (wenn es etwa um das "Digitale Zeitalter" geht) allgegenwärtig. Auch in meinem Studium der Bibliotheks- und Informationswissenschaften taucht er häufig auf. Allein, reflektiert oder diskutiert worden ist er in diesem Rahmen überhaupt nicht. [1] Ein solcher Mangel an Reflexion in Kombination mit der verbreiteten Orientierungslosigkeit von BibliothekarInnen und Bibliotheken in der Fortentwicklung des Bitzeitalters hat mich zu der Auffassung gebracht, dass eine Selbstverortung des Bibliothekswesens dringend nötig ist. Ein Bewusstsein der eigenen Rolle und der damit verbundenen Aufgaben verlangt allerdings nach grundlegenden Fragen wie: Was tun wissenschaftliche Bibliotheken? [2] Was heißt überhaupt 'Wissenschaft' und was ist ihre gesellschaftliche Rolle? Welchen Status hat das Konzept 'Information' und wie fassen wir es auch und gerade in Abgrenzung zu 'Daten', 'Wissen', 'Kommunikation', 'Quelle', 'Text' oder gar 'Schrift'?

Eine Frage Edward Corrados auf Twitter und die Antworten darauf (siehe meine Zusammenstellung rechts und die Tweet-Urls unten [3]) zeigten, dass auch interessierte und "informierte" BibliothekarInnen  keinen klaren Begriff von 'Information' in Abgrenzung zu 'Daten' und 'Wissen' haben, der für eine grundlegende Analyse taugt, die wiederum Ausgangspunkt für die Gestaltung des stattfindenen Wandels sein könnte. (Ich nehme mich von diesem Urteil nicht aus.) Vielleicht sollten wir einfach mit einer anderen Fragestellung beginnen...

Was ist die Hauptaufgabe von Bibliotheken?

Die landläufige Auffassung von der Kernaufgabe von Bibliotheken (wissenschaftlichen wie öffentlichen) lässt sich in etwa so zusammenfassen: Bibliotheken sammeln, erschließen und bewahren Informationen, die sich auf unterschiedlichen medialen Trägern befinden und machen diese den NutzerInnen mittels Retrievalangeboten auffindbar und über Ausleihe usw. zugänglich. Zurecht wird diese Auffassung zunehmend aufgrund ihrer Bestandszentrierung kritisiert, die einer Kunden- und Serviceorientierung zuwiderläuft.

Plädoyer für einen Perspektivwechsel

Ich plädiere für einen Perspektivwechsel in der Betrachtung der Rolle von wissenschaftlichen Bibliotheken: Weg von der Fixierung auf einen diffusen und fruchtlosen Informationsbegriff hin zu einer Analyse der kommunikativen Funktion von Bibliotheken. Dieses Plädoyer weist eine deutliche Parallele auf zur erwähnten Forderung nach mehr Nutzer- und Serviceorientierung statt der traditionellen Bestandsorientierung und liefert eine theoretische Unterfütterung dieser Forderung.

Lasst uns also nicht von Information, vom Bestand der Bibliothek sprechen, sondern von ihrer Rolle als Ermöglicherin der Kommunikation zwischen WissenschaftlerInnen. Ich bin überzeugt, dass eine solche Betrachtung das Potential hat, die Entwicklung der wissenschaftlichen Bibliotheken im  Bitzeitalter nachhaltig zu beeinflussen. Als Nebenerscheinung wird ein solcher Ansatz die zahlreichen und gravierenden Unterschiede zwischen wissenschaftlichen und öffentlichen Bibliotheken hervortreten lassen, die ein informationszentrierter Ansatz eher verdeckt.

Die Kommunikation in der Wissenschaft ist in den letzten Jahren zunehmend zu einem Thema wissenschaftlicher Betrachtung geworden, vor allem im angelsächsischen Raum. [4] In der Bibliothekswelt ist die Wichtigkeit dieser Untersuchungen für die eigene Arbeit weitestgehend unerkannt geblieben. [5] Dies ist umso erstaunlicher, wo wissenschaftliche Bibliotheken doch bisher konstitutive Bestandteile der wissenschaftlichen Kommunikationsinfrastruktur waren und damit ihre ganze Existenz auf das Engste an die wissenschaftliche Kommunikation gekoppelt war und ist.

Agenda

In den nächsten Monaten (leider muss ich ja in der nächsten Zeit auch noch "studieren", was momentan heißt vorgesetzte Aufgaben zum Wohlgefallen von DozentInnen in einem vorgegebenen Zeitrahmen zu erledigen) werde ich mich in einer Reihe von lose zusammenhängenden Beiträgen dem Thema "Kommunikation in der Wissenschaft und die Rolle wissenschaftlicher Bibliotheken" widmen. Zunächst werde ich versuchen, die - im 19. und 20. Jahrhundert verfestigte - Rolle wissenschaftlicher Bibliotheken in der Wissenschaftskommunikation zu fassen um anschließend die wichtigsten Entwicklungen und Einflüsse im Bitzeitalter zu identifizieren. Daran anschließend sollen schlussendlich Perspektiven und mögliche Strategien für wissenschaftliche Bibliotheken aufgezeigt werden. Da das Ganze hier in einem Blog und nicht in einer wissenschaftlichen (Print-)Zeitschrift geschieht, wird es naturgemäß eher ein Tasten, Fragen und Experimentieren mit dem Ziel, die wesentlichen Dimensionen einer nötigen Analyse herauszuarbeiten und in Beziehung zu setzen. Und natürlich hoffe ich auf fruchtbare Anmerkungen und Kritik von Seiten der Leserschaft...


[1] Die Annahme, dass in einem Studium die Grundbegriffe der Zunft geklärt würden liegt doch nahe. In meinem (Erst-)Studium der Kommunikationswissenschaften gab es jedenfalls eine Vorlesung, die sich zwei Semester grundlegend mit Sprache und Kommunikation befasste.

[2] Ich befasse mich hier ausschließlich mit wissenschaftlichen Bibliotheken und bin der Meinung, dass sich nur wenig aus einer Analyse wissenschaftlicher Bibliotheken auf öffentliche Bibliotheken direkt übertragen lässt. Viel mehr lässt sich wahrscheinlich aus den Unterschieden lernen. Ich bin der Auffassung, dass die Aufgaben von wissenschaftlichen und öffentlichen Bibliotheken - gerade wenn man sie aus dem Blickwinkel ihrer kommunikativen Rolle betrachtet - sehr verschieden sind. Meines Erachtens sollte folgerichtig eine Trennung dieser beiden Bereiche im Studium erwägt werden.

[3] Das komplette Twitter-Frage-Antwort-Spiel umfasste folgende Tweets (in chronologischer Reihenfolge):
[4] Siehe meine Quellensammlung zum Thema unter http://www.bibsonomy.org/user/acka47/scholarly_communication.

[5] Eine rühmliche Ausnahme im deutschsprachigen Raum ist ein Artikel von Rafael Ball mit dem Titel "Wissenschaftskommunikation im Wandel - Bibliotheken sind mitten drin". Auch

    2009-12-19

    Freie Metadaten - (k)ein Thema für den Bibliothekskongress

    Dieser Beitrag von Anne Christensen, Patrick Danowski und Adrian Pohl wurde zeitgleich auf den Blogs netbib, Bibliothek 2.0 und mehr und Übertext veröffentlicht.

    Katalogdaten sind zweifellos gefragter denn je - nicht nur für Zwecke der Fremddatenübernahme bei der Katalogisierung, sondern auch im Web 2.0, von Sozialen Katalogisierungsanwendungen wie LibraryThing und Open Library. Darüberhinaus gewinnen mit dem unaufhaltsamen Fortschritt von Linked Data, der dieses Jahr seinen bisherigen Höhepunkt erreicht hat, Katalogdaten in einem weiteren Anwendungsbereich an Bedeutung. Die Verlinkung freier Daten (Linked Open Data) bietet uns die Möglichkeit, das Wissen, was in den Titel- und Normdaten enthalten ist, abzuschöpfen und durch die Verknüpfung mit anderen - nichtbibliothekarischen - Wissensressourcen seine Nutzungsmöglichkeiten zu maximieren.

    Kommerz mit Metadaten

    Parallel zu dieser Entwicklung des Internet zum Linked-Data-Web und der Aussicht auf ganz neue Möglichkeiten der Recherche und Wissensgewinnung entwickelt sich aber auch die kommerzielle Nutzung von Metadaten in ganz neue Dimensionen. OCLC, das etwa ein Drittel seines Umsatzes mit dem Verkauf von anderen produzierter Katalogdaten macht, versuchte mit einer neuen Metadaten-Policy - unter Umgehung der Mitgliederbasis und der bibliothekarischen Gemeinschaft, die das Vorhaben schließlich zu Fall brachten -, sein Monopol auf die Katalogdaten der Mitgliedsbibliotheken juristisch zu zementieren. Organisationen wie EBSCO und Serials Solutions  versuchen mit ihren neuen Produkten EBSCO Discovery Service und Summon eine Menge Geld im Bereich Aggregierung und Verkauf von Metadaten und dazugehörigen Suchoberflächen zu verdienen.

    Open Access: ja, Open Data: ja, Open Bibliographic Data: nein

    Vor diesem Hintergrund ist es verwunderlich, dass die deutschsprachigen Bibliotheken und Bibliotheksverbünde sich bisher kaum mit neuen Nutzungsmöglichkeiten ihrer bibliographischen Daten auseinandergesetzt haben. Adrian Pohl stellte zwar am Ende seiner Dokumentation der OCLC-Metadaten-Kontroverse bereits u.a diese Frage für die deutschsprachige Bibliothekswelt:

    "Wie stehen deutsche Bibliotheken im Allgemeinen zu einem Urheberrecht auf bibliografische Metadaten und zu einer Einschränkung des Zugangs auf diese Daten? Wie zum freien Zugang und zur kostenlosen Verbreitung von Metadaten?" (S.288)

    Über Problemstellungen wurde aber bisher selten geredet und an die Öffnung und Verfügbarmachung der mit öffentlichen Mitteln produzierten bibliothekarischen Daten wird kaum ein Gedanke verschwendet. Zur gleichen Zeit wird die Bibliothekswelt nicht müde als ein wichtiger Pfeiler der Open-Access-Bewegung lautstark von anderen, nämlich Wissenschaftlern, die Freigabe ihrer Arbeitsprodukte, sowohl von Publikationen also auch von Rohdaten, zu fordern.

    Es tut sich was...

    Es sind aber erste Entwicklungen hin zur Freigabe bibliographischer Daten auszumachen: Im Strategieentwurf des Gemeinsamen Bibliotheksverbund (GBV) vom August dieses Jahres ist die Entwicklung einer Lizenz zur Freigabe der Verbunddaten festgehalten, auch das Hochschulbibliothekszentrum Nordrhein-Westfalen (hbz) unterstützt die Freigabe von Katalogdaten und Patrick Danowski hat - wie im Übertext berichtet - auf der Tagung "Semantic Web für Bibliotheken" angekündigt, dass die CERN Library ihre Daten öffnen werde. (Leider hat sich der angekündigte Termin auf Januar 2010 verschoben)

    ...aber: Zwei Open-Data-Vorträge abgelehnt

    Dass das Thema - auch im Bibliothekswesen - an Bedeutung gewinnt, ist also klar. Dies zeigte sich auch daran, dass mindestens zwei Vortragsvorschläge dazu - von den Autoren und der Autorin dieses Beitrags - für den Bibliothekskongress 2010 eingereicht worden sind. (Die beiden Abstracts sind am Ende dieses Textes dokumentiert.) Leider entschied die Programmkommission (deren Zusammensetzung nicht transparent im Internet dokumentiert ist), dass dem Thema "Freie bibliographische Daten" auf dem Bibliothekskongress kein Forum geboten werde. Beide Vorträge wurden abgelehnt. Insgesamt ist das Auswahlverfahren für den Bibliothekartag wie Bibliothekskongress wenig transparent.

    Nachdem die erwähnte Tagung "Semantic Web in Bibliotheken" vom hbz und der ZBW im November 2009 innerhalb von kürzester Zeit ausgebucht war, ist es umso bedauerlicher, dass dem offensichtlichen Interesse von Kolleginnen und Kollege an dieser Thematik in dem Leipziger Programm anscheinend nicht Rechnung getragen wurde. Bibliotheken haben mit Open Data die Chance, sich als Erzeugerinnen und Anbieterinnen von qualitativ hochwertigen, webfähigen Daten zu profilieren. BID Deutschland, die Bundesvereinigung Deutscher Bibliotheksverbände, als Veranstalterin des Leipziger Kongresses versäumt damit den eigenen Anspruch, "zeitgemäße Informationsdienstleistungen als Voraussetzung für die Entwicklung von international konkurrenzfähigen Produkten zur Verfügung zu stellen".

    Gespannt erwarten wir das Programm, um zu sehen welche Themen BID Deutschland für wichtig und innovativ hält.


    Dokumentation der eingereichten Abstracts:

    Freie Metadaten
    Referenten: Anne Christensen (SUB Hamburg), Adrian Pohl (hbz)

    ABSTRACT
    Open Source und Open Access sind mittlerweile im öffentlichen und bibliothekarischen Diskurs fest verankerte Begriffe. In den letzten Jahren wird zunehmend auch über Open Data diskutiert – seien die freien Daten, um die es dabei geht, wissenschaftliche, statistische, administrative Daten oder eben Metadaten.
    Dieser Vortrag dient als Einführung in das Thema "Freie Metadaten" und beantwortet Fragen wie: Was heißt frei? Um welche Daten geht es? Warum sollen Daten frei sein? Behandelt werden der Hintergrund der Bestrebungen nach freien Metadaten, ihre Geschichte, die dahinterstehenden Motivationen und Ziele. Besondere Berücksichtigung findet dabei die Veröffentlichung von bibliografischen Daten und Normdaten als Open Linked Data.
    Zudem werden Vorhaben zur Freisetzung der bibliografischen Metadaten im deutschsprachigen Raum betrachtet und es wird auf Fragen der Umsetzung eingegangen: Welche Lizenz soll ich wählen? Bin ich rechtlich befugt, alle Daten in meinem Katalog freizugeben? In welchem Format publiziere ich meine Daten?

    Aus dem Silo ins Semantic Web: Bibliographische Daten als Linked Data Publizieren

    P. Danowski

    CERN Scientific Information Service, 1211 Geneve, Schweiz

    Inhalt

    Tim Barners Lee hat den Begriff Linked Data fuer eine Methode beschrieben mit der Daten veroeffentlich, geteilt und verbunden werden. Dabei sollen die Daten mit URL basirten Identifiern erreichbar sein und andere Daten im Netz referenzieren (verlinken).[1] Inzwischen wurde eine Vielzahl von Daten mit dieser Methode publiziert.[2]

    Spaetestens seit dem letzten Jahr sind auch Bibliotheken auf dieses Thema aufmerksam geworden und beginnen ihrer Ressourcen in dieses Netz von Daten einzubringen. In dem Vortrag wird gezeigt, wie sich bibliographsche Daten als Linked Data publizieren lassen.

    Dabei soll darauf eingegangen werden welche Frage zu klaeren sind. Dies sind unter anderen:

    - Die Wahl einen Formats (einer Ontology)

    - Lizenzfragen

    - Vertrauensfragen

    Der gesammten Prozess soll anhand eines Projekt fuer die Katalog Daten der CERN Library veranschaulicht werden. Es soll auch beschrieben werden welche Probleme in dem Prozess aufgekommen sind und welche Loesungsmoeglichten hierfür entdeckt wurden.

    Quellenangaben

    [1] vgl. auch http://en.wikipedia.org/wiki/Linked_data

    [2] Zu der Menge der Daten gibt es ein klickbares Diagramm in dem die Verbindung der verschieden Ressources erkennbar ist. http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-07-14.html

    2009-11-26

    Erst öffnen, dann linken!

    Dienstag und Mittwoch fand in Köln das SWIB09 statt. Es war eine sehr interessante Veranstaltung, vor allem habe ich mich gefreut, einige Personen mal im realen Leben zu treffen, die ich bisher nur virtuell kannte. Hier geht es jetzt darum, einige Probleme, Fragen und Unklarheiten zu besprechen, die mir mehrmals aufgefallen sind. Den Anfang macht die Frage nach der Reihenfolge von Lizenzierung, Publizierung, Triplifizierung und Verlinkung von Daten. (Ich hoffe, Felix, der jetzt hier mitschreibt, setzt die Reihe fort.)

    Linked Data & Open Data
    Zwei verschiedene Ansätze, Bibliotheken in das Semantic Web zu bringen wurden während der Veranstaltung nur allzu deutlich.

    Erster Ansatz
    Hauptsache hochqualitative Daten in RDF, der Rest wird sich finden, so könnte man die Grundhaltung dieses Angangs beschreiben. Dieser erste Ansatz - der bisher zum Beispiel von der DNB verfolgt wird - scheint mir ein so naiver wie traditioneller zu sein. Er geht so: Wir tüfteln eine Technologie zur Umwandlung der bibliothekarischen Datenformate in RDF-Tripel aus, verwenden dabei am besten ein - bisher von sonst niemandem genutzes, weil noch nicht existierendes - RDA-Vokabular, veröffentlichen am Ende des langen Entwicklungsprozesses die konvertierten Daten und bieten die Möglichkeit der Suche (mit einem SPARQL-Endpoint) und Verlinkung zu unseren Daten an. Über Lizensierungsfragen und die vollständige Öffnung der gesamten Daten machen wir uns aber zunächst keine Gedanken.

    Dieser Ansatz birgt zwei grundlegende Probleme:
    Erstens wird mit einem RDA-Vokabular auf bibliothekarische Standards gesetzt, die noch nicht fertiggestellt sind und dementsprechend auch keine Verbreitung in nicht-bibliothekarischen Bereichen gefunden haben. Ein solcher Weg birgt die Gefahr ein neues Silo mit Katalogdaten - diesmal im Semantic Web selbst - zu etablieren, denn: Die Nachnutzung bestehender Vokabulare ist gängige Praxis und sorgt dafür, dass Daten verlinkt und damit Linked Data geschaffen wird. Jakob Voß machte in seiner Präsentation über die Bibliographic Ontology (Bibo) deutlich, dass man an diesem Vokabular nicht mehr vorbeikommt, wenn man bibliographische Daten im Linked-Data-Netz veröffentlichen will. Die Bibo selbst berücksichtigt und inkorporiert ihrerseits bestehende De-Facto-Standards wie foaf und die DCMI Metadata Terms.
    Eine Möglichkeit wäre es, bei der Entwicklung einer RDA-Ontologie bestehende Klassen und Prädikate aus Bibo, Dublin Core usw zu übernehmen. Allerdings weiß ich nicht, inwieweit dies getan wird.
    Zweitens - und dies hat Patrick Danowski sehr schön in seiner Präsentation dargestellt - vernachlässigt dieser Ansatz eine grundlegende Frage, die beim Veröffentlichen von Linked Open Data eine wichtige Rolle spielt: Nämlich die Frage der Lizenzierung. Im letzten Übertext-Beitrag wird dies auch zweimal angesprochen: Der erste Schritt zu Linked-Open-Data sollte die Öffnung der Rohdaten sein. Tim Berners-Lee fasste dies in seinem bekannten TED-Talk in die Worte: Raw Data Now!

    Welche Chancen verspielen Bibliotheken, wenn sie erst nach einer langen Planungs- und Entwicklungsphase eine ganzen Haufen triplifizierter bibliographischer Daten freigeben und welche Risiken birgt dieser Ansatz:

    1. Aufwändige und schlechtere Konvertierung: Arbeitet eine Bibliothek oder ein Verbund alleine für sich an einer Konvertierung der Daten, so liegt die Arbeitslast und Verantwortung allein auf den Schultern dieser Institution. Veröffentlicht man aber im ersten Schritt die Rohdaten, so lassen sich Teile des Konvertierungsprozesses crowdsourcen, denn es gibt im Internet eine Menge Leute, die an Bibliotheksdaten interessiert sind. Flankiert durch ein offene Plattform zur Dokumentation und Diskussion des Konvertierungssprozesses bringt dieser Ansatz auch von Anfang an Feedback ein, so dass von vorneherein ein bestmögliches Ergebnis sichergestellt wird.

    2. Verlinken nicht möglich: Der Ansatz, zunächst die bestehenden Daten einer Institution möglichst vollständig zu konvertieren und erst dann die URIs und internen Verknüpfungen zu veröffentlichen bedeutet, dass erst am Ende dieses Prozesses, wenn die Daten veröffentlicht sind, andere Personen oder Institutionen Verlinkungen mit diesen Daten herstellen können. Dies ist meiner Meinung nach unnötig, gerade weil die Standards eine iterative Publikation der Daten möglich machen und auch URIs alleine schon einen großen Wert haben. Ich fände es zum Beispiel sinnvoll, die PND- (oder GND-)URIs so früh wie möglich zu veröffentlichen, wenn auch nur mit minimalen Informationen (z.B. Ansetzungsform, Verweisungsform + Lebensdaten) versehen. Damit könnten diese URIs frühstmöglich verlinkt und mit anderen Daten in Beziehung gesetzt werden. Nach und nach könnten weitere RDF-Tripel angehängt werden, sobald die Konvertierungsfragen geklärt sind. (Jetzt könnte man einwenden, dass es die GND-URIs schon gibt. Gewissermaßen stimmt dies vielleicht, allerdings hätte die Pedantic Web Group daran einiges zu verbessern, vor allem, weil Personen und die sie beschreibenden Ressourcen dieselbe URI haben. Dieser Umstand schreckt auf jeden Fall vor einer Nutzung der URIs ab.)

    Zweiter Ansatz: Open first, link later!
    Der zweite Ansatz lässt sich am besten durch ein praktisches Beispiel erläutern, das der CERN Library. Diese Bibliothek nimmt ihren ehemalgien Kollegen Tim Berners-Lee beim Wort und wird - wie Patrick Danowski auf der SWIB09 ankündigte - ihre Daten diese Woche in die Public Domain stellen. Die Open Library und biblios.net werden die Daten übernehmen und verfügbar halten aber auch jedeR andere kann die Daten übernehmen und damit herumspielen.
    Erst im zweiten Schritt sollen die Daten in RDF umgewandelt werden und Verlinkungen zu anderen Daten herstellt werden. Ich hoffe, dass dieser Konvertierungsprozess offen und transparent stattfinden wird und die verwendeten Programmiercodes offengelegt werden, so dass zum einen die CERN Library davon profitiert, weil sie den Input aus der Gemeinschaft bekommt und auch zum anderen die Bibliotheken und Verbünde, die dem Beispiel der CERN Library noch folgen werden.


    MN95QN8XA3NT (Verwirrt? Dieser Code ist zur Erfassung des Blogs in Technorati, das einem den Erfassungsprozess nicht gerade leicht macht.)

    2009-11-20

    Workshop-Bericht: Open Data and the Semantic Web

    Besser spät als nie - und dafür umso umfangreicher. Dieser Bericht wurde gemeinsam mit Felix Ostrowski verfasst. Unser Arbeitgeber, das hbz, hat uns freundlicherweise die Teilnahme am Workshop "Open Data and the Semantic Web" der Open Knowledge Foundation (OKFN) ermöglicht. So haben wir uns gemeinsam - beide in labilem gesundheitlichen Zustand - für ein langes Wochenende nach London aufgemacht und am Freitag dem 13. diesen Workshop besucht. Hier nun unser Bericht.

    Rufus Pollock (OKFN): Einführung
    Rufus Pollock von der Open Knowledge Foundation führte in den Tag ein und erläuterte das Konzept der Offenheit von Wissen anhand der Open Definition, die in Kurzform besagt:
    A piece of knowledge is open if you are free to use, reuse, and redistribute it.
    Gemäß der Open Definition darf Wissen den folgenden maximalen Einschränkungen unterliegen: share-alike (das heißt Veränderungen des Werks müssen unter der gleichen Lizenz weitergegeben werden) und attribution (Nennung des Urhebers). Somit sind etwa Creative-Commons-Lizenzen nach der Open Definition nicht notwendig offen. Dies gilt etwa für Lizenzen, die eine kommerzielle Nutzung verbieten

    Zudem erläuterte Rufus Pollock CKAN (Comprehensive Knowledge Archive Network). Diese Registry gibt einen Überblick über bestehende Open-Data-Pakete und -Projekte. Zu jedem Paket/Projekt wird seine Kompatibilität mit der Open Definition anhand zweier grundlegender Eigenschaften angegeben: das Vorhandensein bzw. Nichtvorhandensein einer Lizenz sowie die Möglichkeit eines Downloads der Daten. CKAN stellt eine Lese- und Schreib-API bereit und ist in der Talis Connected Commons Platform als RDF verfügbar.

    Leigh Dodds: Web Integrated Data
    Leigh Dodds (Talis) machte deutlich, dass es bei Linked Open Data vor allem darum geht, den Nutzen bestehender strukturierter Daten zu maximieren. Der Weg zu dieser maximalen (Nach-)Nutzbarkeit erfolge in drei Schritten:
    1. Rohdaten veröffentlichen: Rohdaten heißt, die Daten werden unbearbeitet in Formaten wie CSV, XLS, PDF usw. publiziert. Sie sollten aber möglichst mit Metadaten, einer Dokumentation und Lizenz versehen werden.
    2. Webzugriff ermöglichen: Durch die Nutzung offener Webformate (XML, JSON etc.) und die Bereitstellung einer API wird ein direkter Webzugriff auf die Daten möglich.
    3. Vollständige Webintegration: Die Integration mit dem Web geschieht durch die Bereitstellung der Daten in RDF, einem webnativen Datenmodell. Dazu müssen Entitäten und Verknüpfungen zwischen diesen mittels URIs identifiziert werden.
    Nach der Veröffentlichung heißt es: "Wait for great things to happen." Daten werden nachgenutzt und verlinkt und im Ergebnis entsteht das Linked-Data-Netz, ein menschen- und maschinenlesbares "Web of data".

    Jordan Hatcher: Legal tools for Open Data
    Die Techniker auf dem Workshop waren sich einig: Juristische Aspekte von Open Data sind langweilig aber leider sehr wichtig. Jordan Hatcher übernahm die Aufgabe, Probleme und Möglichkeiten der Lizenzierung von Daten kurz darzustellen.

    Bis vor einiger Zeit gab es noch keine Lizenzen für Daten/Datenbanken. Für Software (Open Source) und intellektuelle Werke (Creative Commons) gibt es zwar schon länger Lösungen, diese lassen sich aber aufgrund der unterschiedlichen Rechtslage für Daten wie Datenbanken nicht übertragen.
    Mittlerweile gibt es aber auch drei Lizenzen für Daten und Datenbanken:
    Die Open Database License (ODbL) und die Public Domain Dedication and Licence (PDDL) sind auf Initiative des OKFN-Projekts Open Data Commons entstanden. Außerdem gibt es noch die mit der PDDL interoperable CC-0/CC-Zero (für die es allerdings noch keine deutsche Version gibt).
    Während die OdBL Linzenzeinschränkungen wie Attribution und Share-alike erlaubt, ist es Ziel einer PDDL- oder CC-0-Lizenzierung, sämtliche Urheberrechtsansprüche (Vervielfältigungs-, Verwertungs- und Vertriebsrecht) aufzugeben und die Daten(bank) in die Public Domain zu stellen. ("Public Domain" ist kein deutscher Rechtsbegriff. Es ist vielleicht am ehesten mit Gemeinfreiheit gleichzusetzen.)

    Jenni Tennison: Provenance in RDF
    Jenni Tennison referierte über eine Kernfrage im Umgang mit Daten, die natürlich auch auf Linked Data zutrifft: "How do you know whether you can trust a piece of information?" (http://www.jenitennison.com/blog/node/133)

    Klar ist, dass das Vertrauen in Daten umso gefestigter ist, je tiefer der Einblick in ihre Herkunft ist. Es geht also darum, eine Nachvollziehbarkeit der Entstehungsgeschichte von Daten herzustellen, um Vertrauen in diese Daten zu ermöglichen. Die Entstehung von Daten lässt sich beschreiben als das u.U. mehrmalige transformieren von Ausgangs- bzw. Rohdaten durch Prozesse, welche von Akteuren gesteuert werden.

    Es gilt also, die Daten und die auf sie einwirkenden Prozesse transparent zu gestalten; dies wird durch "Open Data" und "Open SourceSoftware" gewährleistet. Tennison stellte zwei bestehende Ansätze vor, die dazu dienen, Provinienz-Information für RDF-Daten strukturiert (und ihrerseits in Form von RDF-Daten) formulieren zu können: Das Open Provenance Model und das Provenance Vocabulary. Sie machte deutlich, dass ersteres vereinfacht und das zweite (weil noch unfertig) mitentwickelt werden müsse, um für Linked-Data-Zwecke Anwendung zu finden.

    Zuletzt verwies Tennison auf ein Ungleichgewicht, das man als "Linked-Data-Paradox" bezeichnen könnte: Linked-Data baut darauf auf, das alles einen Namen (in Form einer URI) hat. RDF-Tripel sind allerdings von Grund auf anonym und können momentan nur durch einen etwas schwergewichtigen Vorgang namens Reification (das heißt soviel wie "Verdinglichung", weil eine Aussage zu einer Entität ernannt wird (was sie eigentlich von vornherein sein sollte)) als Ressourcen referenzierbar gemacht werden. Da die Grundeinheit von RDF-Daten die einzelne Aussage ist, spielen auch Provenienz-Informationen auf dieser Ebene eine wichtige Rolle, sind aber momentan nicht bequem anzubringen.

    Hugh Glaser: sameAs.org
    Hugh Glaser stellte die von ihm ins Leben gerufene Webseite/Datenbank sameAs.org vor. Da Linked Data de facto das RDF-Datenmodell zu Grunde liegt, werden Entitäten ("Dinge in der echten Welt") über URIs referenziert. Da es (zum Glück) keine zentrale Vergabestelle für diese URIs gibt, ist es unvermeidbar, dass die selbe Entität von zwei (und meist noch viel mehr) verschiedenen URIs referenziert wird. Um das Zusammenführen von Beschreibungen eines Gegenstandes mit verschiedenen URIs zu ermöglichen, gibt es das OWL-Prädikat sameas, mit dem eben die Gleichheit der durch verschiedene URIs referenzierten Entität behauptet wird. Da dies eine sehr starke Behauptung ist, kann es zu unangenehmen Nebenwirkungen kommen. So hat etwa die New York Times beim Publizieren von RDF-Daten per owl:sameas auf URIs in DbPedia verwiesen und dadurch aus Versehen ihre Copyright-Bestimmungen auch auf die dort vorhandenen Daten ausgedehnt.

    Um solche Probleme im Keim zu ersticken, ist Glasers Ansatz, die Aussagen über die Gleichheit der Referenz von URIs von den Aussagen über das Referenzierte zu trennen. Dafür hat er sameas.org implementiert, eine Datenbank, die ausschließlich Aussagen zur Kongruenz von URIs beinhaltet. Es wird damit möglich, auf diese Datenbank zu verweisen, anstatt Identitätsaussagen in den eigenen Daten treffen zu müssen. Dies hat auch den angenehmen Nebeneffekt, dass die Menge an Verweisen immer weiter wachsen kann, ohne dass das die eigenen Daten permanent aktualisiert werden müssen. sameAs.org unterscheidet sich von Diensten wie Okkam und Subj3ct, die dem Auffinden existierender URIs für bestimmte Entitäten dienen, eben genau darin, dass diese nicht dem Verweisen auf andere URIs dienen.

    Eine Frage die sich aus der Perspektive der Bibliothekswelt aufdrängt, ist die, warum die URIs des VIAF bislang keine Berücksichtigung in der sameAs.org Datenbank gefunden haben. Dies mag daran liegen, dass der Nutzen von viaf.org bislang nahezu ausschließlich in der Bereitstellung von URIs für Personen liegt. (Zumindest waren wir bislang nicht in der Lage, dort Daten in irgendeiner RDF-Serialisierung zu finden). Sobald die URIs jedoch mit RDF beschrieben werden, könnten sie sich als enorm wertvoll herausstellen.

    Lightning Talks

    Hier ein kleiner Überblick über die gehaltenen Lightning Talks mit ein paar Links.

    Mark Birbeck: RDFa & Government Data
    Mit einem Ausschnitt aus dieser Präsentation bestritt Mark Birbeck seinen Lightning Talk über RDFa. Er exemplifizierte die Vorteile von RDFa am Beispiel der Anreicherung bestehender Webseiten mit Stellenangeboten in der öffentlichen Verwaltung, um diese harvesten zu können. Ohne die Publikationsworkflowa zu vereinheitlichen lassen sich verschiedene bestehende HTML-Webangebote mit einem einheitlichen Vokabular anreichern. Darauf aufbauend ist es schließlich ein Leichtes, zentralisierte Webangebote mit den gesammelten Stellenanzeigen bereitzustellen.

    Rufus Pollock über CKAN
    Rufus Pollock ging nochmal auf CKAN (s.o.) ein.

    Jeni Tennison zu data.gov.uk
    Jeni Tennison gab einen kurzen Einblick in die Baustelle data.gov.uk. Das britische Pendant zum US-amerikanischen data.gov hat ja mit Tim Berners-Lee den Erfinder des Semantic Web im Boot. Man darf gespannt sein, was dabei rauskommt, die öffentliche Beta-Phase soll im Dezember beginnen.

    Ian Davis zum Data Incubator
    Ian Davis (Talis) stellte das Freizeitprojekt einiger Talis-Mitarbeiter, den Data Incubator, vor. Dieser dient dem Zweck, Linked-Data-Praktiker zusammenzuführen, um große offene Datensätze in RDF zu konvertieren und diese Prozesse zu dokumentieren, indem etwa die verwendeten Programmcodes offen gelegt werden. Um diese Ziele zu erreichen wird ein Diskussionsforum bereitgestellt, Speicherkapazität in der Talis Platform sowie ein Google-Code-Repository.

    Axel Rauschmayer: Social and Personal Linked Data
    Axel Rauschmayer (LMU München) stellte sein Projekt Hyena vor, eine Mischung aus Wiki und Datenbank basierend auf RDF. Hyena kann sowohl offline, d.h. desktopbasiert, als auch webbasiert benutzt werden und verfügt über eine Synchronisierungsfunktion zwischen Web- und Desktopanwendung.

    John Goodwin über Linked Data at Ordnance Survey
    John Goodwin stellte die Ordnance-Survey-Linked-Data-Seite vor. Ordnance Survey ist die für Kartographierung zuständige britische Verwaltungsagentur. Die bisher vorhandenen Daten sind schon sehr informativ. Sie enthalten etwa Angaben über Regierungs- und Wahlbezirke und in welchem Verhältnis diese zueinander stehen. Genauere Geodaten über Grenzverläufe sind noch nicht vorhanden, weil ein Mapping in RDF offensichtlich nicht sehr leicht ist. Für mehr Informationen siehe einen Blogbeitrag zum Thema von John Goodwin.
    Ordnance Survey war in den letzten Tagen im Gespräch, z.B. in den Medien und auf Twitter, weil es nun auch seine Karten online zur freien Verfügung gestellt hat.

    Yves Raimond: BBC Linked Data
    Sehr ansehnlich sind die Linked-Data-Seiten der BBC, die Yves Raimond präsentiert hat. Diese Seiten erhalten Unmengen an Daten über sämtliche Radio- und TV-Sendungen der BBC samt aller gespielten Lieder mit den entsprechenden Metadaten, Sendezeiten und und und. Wir empfehlen, darin einfach mal ein bisschen zu browsen. Wann wohl der WDR oder die ARD so etwas auf die Beine stellen werden? Die Daten sind ja da...

    Chris Wallace: Model induction for RDF comprehension and browsing
    Chris Wallace stellte eine Art Ontologie-Generator vor, auf den wir hier nicht näher eingehen, weil wir ihn schlicht in den fünf Minuten nicht genug erfasst haben. Es geht offensichtlich darum, eine Art Ontologie aus einer Menge von RDF-Tripeln induktiv herzuleiten.

    Mark Birbeck: Where next for RDFa?
    Mark Birbeck stellte die Frage über die Zukunft von RDFa und blieb eine Antwort schuldig. Vielleicht haben wir aber auch gerade nicht aufgepasst.

    Richard Light: Museum Linked Data
    Unseren Notizen nach zu urteilen, ist hiervon nicht viel hängengeblieben. Der Lightning Talk basierte auf diesen Folien oder sehr ähnlichen.

    Rob McKinnon: Making Data Open
    Rob McKinnons unterhaltsamer Vortrag stellte das Projekt Companies Open House vor, das aus Frustration am und Alternative zum öffentlichen Angebot (keine permanenten, weil Session-URLs) an einem Tag zusammengehackt wurde und Informationen zu UK-basierten Unternehmen unter stabilen URLs liefert.
    Die Aufzeichnung eines (noch kürzeren Vortrag) von McKinnon zum Thema kann hier angeschaut werden.

    Georgi Kobilarov: uberblic.org
    Georgi Kobilarov (Berlin), der die DBpedia an der FU Berlin mitentwickelt hat, stellte sein neues Projekt uberblic.org vor. Es dient der Integration verschiedener Ontologien in einer Über-Ontologie, die in einem kollaborativen Prozess entstehen soll. Das Ganze sah ziemlich interessant aus, ist derzeit aber noch nicht offen zugänglich. Man darf gespannt sein...

    John Goodwin: Genealogy and Linked Data
    John Goodwin gab einen Überblick über seine Anwendung von Linked-Data auf das Feld der Genealogie.

    Kristof Van Tomme: Drupal and the semantic web
    Kristof Van Tomme (Pronovix) eräzhlte etwas über die RDFa-Integration in der kommenden siebten Version des Content-Management-Systems Drupal.

    Linked Data Clinic - Fragen an die ExpertInnen

    Zum Abschluß des Workshops wurden in der "Linked Data Clinic" von den anwesenden Experten einige grundlegende Fragen diskutiert, aber - und das war auch nicht Sinn der Übung - keineswegs abschließend beantwortet.

    Bestehende URIs wiederverwenden oder neue prägen?
    Anknüpfend an die Problematik der owl:samewas-Relationen (s.o.) ging es zunächst darum, welcher Ansatz grundsätzlich zu bevorzugen ist: Beim Publizieren von Linked Data auf bestehende URIs zurückzugreifen oder eigene URIs zu prägen, welche dann mit den bestehenden verknüpft werden. Hier gab es keine eindeutige Präferenz.

    Versionierung und Beschreibung von RDF-Daten
    Ein weiteres wichtiges Feld, dessen Wichtigkeit allgemein anerkannt wurde, ist das der Metadaten zu Linked Data. Wie können Standards geschaffen werden, um RDF-Daten zu beschreiben? Welche Ansätze gibt es, RDF-Daten zu versionieren? Beiden Fragen liegt wieder das Reifikations-Problem zu Grunde, also die Beschreibung von RDF-Aussagen durch RDF-Aussagen. [Anmerkung: es besteht, wie bereits erwähnt, durchaus die Möglichkeit, RDF-Aussagen zu eigenständigen Ressourcen zu erheben. Aber diese birgt so einige Folgeprobleme, so dass die Frage erlaubt sein muss, ob im RDF-Modell nicht schlicht etwas vergessen wurde: nämlich die Berücksichtung dessen, dass auch Aussagen Ressourcen sind - und sogar sehr wichtige.]

    RDF-Modellierung: Agile Entwicklung oder Wasserfall?
    Weiter ging es mit der die Anwendungsentwicklung betreffenden Frage, inwiefern Änderungen in einem RDF-basierten Datenschema ad-hoc möglich sind, ob also das RDF-Modell mit der agilen Softwareentwicklung kompatibel ist. Hier herrschte weitgehend der Tenor, dass das Erweitern des Schemas deutlich schmerzfreier ist, als in einem relationalen Datenmodell, da das zugrundeliegende Datenbankschema - so denn ein Triple Store eingesetzt wird - nicht geändert werden muss.

    Google-RDF: Was wären die Folgen
    Zuletzt wurde ergebnisoffen die Frage diskutiert ob RDF auch dann eine zukunftsträchtige Basis für Linked Data bleibt, wenn ein "Big Player" wie Google auf die Idee kommen sollte, auf einen anderen Standard zu setzen.

    Abschlussfrage
    Die Abschlussfrage an die Experten lautete: Was sind die Herausforderungen für (1) die Linked-Data-Gemeinschaft bzw. (2) für Linked-Data-Anfänger?

    Jeni Tennison wies noch einmal darauf hin, dass mit der Verbreitung von Linked Data auch verstärkt die Frage der Provinienzdokumentation und Versionierung aufkommen wird, und man wohl daran täte, die oben bereits angedeuteten Probleme offensiv anzugehen.
    Steve Harris und Hugh Glaser betonten, das bei aller Umwandlung von bestehenden Daten in das Linked-Data-Modell die Entwicklung von (Endnutzer-)Anwendungen, die auf diesen Daten operieren, nicht vergessen werden darf.
    Georgi Kobilarov deutete an, dass ein Problem für Einsteiger - vor allem in die technischen Aspekte von Linked Data - weniger die Komplexität der Materie als vielmehr das Finden der richtigen Tutorials und Dokumentationen im Web ist.

    Auch wir meinen: Linked Data ist von Natur her dezentral, und so sollte daran gelegen sein, dass sich die Auseinandersetzung mit der Materie nicht auf einen elitären Zirkel beschränkt. (Hmm, leider ist dies hier auch nicht gerade zu einem Einführungstext geraten. Vielleicht ein andernmal...)

    2009-11-09

    Wissen und Informationsfreiheit

    Anstatt eines Credos, hier ein Scio, also anstatt eines Glaubensbekenntnisses ein Wissensbekenntnis:
    Ich weiß, dass über alles Wissen gestritten werden muss. Nur dieses  Wissen ist unbestreitbar, dass die beste Voraussetzung jedes Wissensstreits der freie Zugriff Aller auf die relevanten Informationen ist.

    2009-11-03

    Exzerpt-Monitoring und -anreicherung mit Tynt

     [Update, 21.12.2009: Ich war ja von Anfang an selbst nicht so sehr begeistert von Tynt und habe das Experiment abgebrochen. Mittlerweile habe ich das Exzerptmonitoring wieder deaktiviert.]

    Seit einer Woche habe ich übrigens Tynt Insight für dieses Blog installiert. Das ist ein Tool zum Monitoring der Nutzeraktionen auf den Webseiten einer bestimmten Domain. Eine Anmeldung bei Tynt und das Kopieren einer Zeile Javascript in den Quelltext reichen aus und es geht los. (Da Tynt Insight auf Javascript basiert lässt es sich auch - etwa durch die Nutzung von noscript oder ähnlichem - umgehen.)

    Und was macht dieses Tool jetzt genau? Es sind vor allem zwei Nutzeraktionen, die Tynt erfasst, zählt und auswertet: Copy & Paste und das Kopieren von Bildern. (Augenfixationserkennung wird noch nicht unterstützt. ;-) Das heißt, ich kann in Echtzeit erfahren, welche Zeichenketten sich Übertext-Leser zu welcher Zeit markiert und kopiert haben. Darüberhinaus werden alle 24 Stunden Statistiken über die Aktivitäten erstellt. So kann ich erfahren, welche Inhalte für die Leserinnen besonders interessant sind und kann diese - wenn ich mir den Pro-Account gönne - sogar automatisch twittern lassen.

    Metadaten automatisch mitgeliefert

    Soso, mag jetzt so manch einer denken, das ist ja sehr aufschlussreich, besonders für ein Blog, dessen Beiträge jeweils 30 bis 100mal angeschaut werden... Ehrlich gesagt war das Exzerptmonitoring auch nicht der ausschlaggebende Punkt für mich, Tynt Insight zu installieren. Ganz im Gegenteil, ich finde es persönlich eher abschreckend, wenn ich weiß, dass jedes Exzerpieren registriert wird.

    Was mich gereizt hat war die Anreicherung von Exzerpten durch die automatische Beigabe von Metadaten. Probier es einfach mal aus und kopiere eine beliebige Zeichenkette, füge sie - etwa in einen Editor - ein und du wirst sehen: nicht nur die kopierte Zeichenkette erscheint, sondern auch interessante Metadaten, nämlich die Lizenzinformation und eine URL, die dich zur jeweiligen Seite mit dem hervorgehobenen Exzerpt zurückführt.

    Sinnvoll & praktisch oder überflüssig & nervig?

    Mich würde interessieren was andere von diesem Tool halten. Findet ihr es praktisch oder gefällt es euch nicht? Mich hat es teilweise schon genervt, wenn ich beim Einfügen mehr Text stehen habe als ich eigentlich kopiert hatte. Andererseits kann ich mir aufbauend auf dieser Technik sehr praktische Anwendungen für das Exzerpieren und Zitieren elektronischer wissenschaftlicher (Hyper-)Texte vorstellen. Dies kann sicher jeder nachvollziehen, der etwa schonmal eine Textpassage zitieren wollte, die dazugehörige Quellenangabe aber verlegt hatte.