2010-03-09

OCLCs Lock-In-Strategie

OCLC macht wieder von sich reden - mit einer Unternehmensstrategie, die man sonst eher von Herstellern proprietärer Software kennt: dem Lock-In-Effekt.

SkyRiver & die Bibliothek der Michigan State University

Aber beginnen wir am Anfang. (Die Zahlen aus dem folgenden Text stützen sich auf einen Artikel im Library Journal und einen Blogbeitrag von Karen Coyle.)

Im Oktober startete SkyRiver "a new bibliographic utility that offers a low cost alternative for cooperative cataloging". Gegründet hatte es Jerry Kline,  dem Mitgründer und Chef von Innovative Interfaces. SkyRiver wurde vom Library Journal sogleich als ernstzunehmender Konkurrent  zu OCLCs WorldCat im Bereich Fremddatenübernahme gehandelt.

Die Bibliothek der Michigan State University (MSU) rechnete sich nicht unerhebliche Einsparungen aus und beschloss - nach 40 Jahren Nutzung des OCLC-Fremddatenangebots - seine Fremddaten zukünftig von SkyRiver zu beziehen. Die Bibliothek hatte allerdings nicht vor, OCLC vollständig den Rücken zu kehren, sondern wollte weiterhin seine Bestandsangaben in den WorldCat laden, um seine Bestände anderen Bibliotheken weiterhin für die Inter Library Loan - das angelsächsische Pendant zuer Fernleihe  - anzubieten. Die MSU-Bibliothek machte seine Berechnungen mit dem Preis von 0,23 US-$ für das Hochladen eines Titels. Daraus ergabn Kosten von etwa 6000 $ jährlich für das Hochladen von etwa 26 000 Titeln pro Jahr. (Es ist doch bemerkenswert, dass Bibliotheken von sich aus diese - zugegebenermaßen geringen - Kosten auf sich nehmen, damit andere Zugriff auf ihre Bestände haben. Vgl. hierzu auch einen Blogbeitrag von Jonathan Rochkind.) Für die Teilnahme an der Fernleihe via OCLCs WorldCat zahlt die Bibliothek übrigens zusätzliche 88,500 $.

OCLC forderte schließlich aber einen ganz anderen Preis für diese - eigentlich in einer Preisliste festgelegte - Dienstleistung: Statt 0,23 $ pro Titel sollte das Ganze auf einmal 2,85 $ pro Titel kosten. Das ist mehr als das Zwölffache! Dieser enorme Preis für das Hochladen von Titeln in den WorldCat würde sämtliche finanziellen Vorteile, die die Bibliothek sich durch den Wechsel versprochen hat, nivellieren, so dass die MSU-Bibliothek auf eine Aktualisierung ihrer Bestandsangaben im WorldCat in Zukunft verzichten wird.

OCLCs Rhetorik

OCLCs Umgang mit dem Thema ist geprägt von einer einfachen Rhetorik. Bibliotheken, die den WorldCat nur für Fremdleihzwecke nutzen, nicht aber an dessen Aufbau und Pflege mitarbeiten wollen, wird parasitäres Verhalten vorgeworfen. Im Januar ließ Larry Alford, Vorsitzender des OCLC Board of Trustees, anklingen, dass sich Bibliotheken wie die der MSU eben  nur die Rosinen rauspicken wollen: "In some ways, I believe this is the equivalent of  'skimming the cream off the top without buying the whole bottle of milk.'" (Seine faktenlose und rhetorikgetränkte Rede ist seit Kurzem online verfügbar.) OCLC verkauft sich als der selbstlose Ermöglicher und Hüter bibliothekarischer Kooperation, deren Hauptziele eben Aufbau und Pfelge des WorldCat seien. Sämtliche Bibliotheken, die nicht bereit sind horrende Preise für die auf der weltweit größten bibliographischen Datenbank basierenden Dienste zu zahlen und die sich von OCLC abwenden möchten, trügen zum Untergang des WorldCat bei. Larry Alford:
"To be very frank, if enough libraries—not a lot, but enough—choose to consume more value from the cooperative than they return to the cooperative, then we risk losing WorldCat ... Decisions for short-term benefit or economic relief can be very harmful in the long term to our commons." (S.3 des Redetexts)
Ich weiß nicht, ob diese Rhetorik auch nur annähernd ihren Zweck erreicht. Meinem persönlichen Eindruck nach hat OCLC sich mittlerweile ziemlich in die Scheiße geritten und trägt mit seinem Verhalten zum Erstarken und Aufbegehren der Mitgliedsinstitutionen und zur Entstehung neuer konkurrierender Angebote bei.

Schwung für die Open-Data-Bewegung

Ich habe bisher auf Mailinglisten und in Blogposts keine Stimmen vernommen, die sich hinter OCLC stellen und sein Verhalten rechtfertigen. (Siehe etwa die Sammlung von Reaktionen hier sowie den Diskussionstrang zum Thema in der Mailingliste NGC4LIB, der hier startet.) Das war letztes Jahr bei OCLCs Versuch eine restriktive Metadaten-Policy durch die Hintertür einzuführen noch anders.

Ganz im Gegenteil scheint OCLC mit seinem krampfhaften Versuch, das eigene Monopol im angelsächsischen Raum zu erhalten, dazu beizutragen, dass sich immer mehr BibliothekarInnen mit einem Open-Data-Ansatz anfreunden. Auf NGC4LIB jedenfalls wurden entsprechende Forderungen, Katalogdaten auf einem Server abzulegen und über OAI-PMH bereitzustellen von verschiedenen Leuten unterstützt. Aus dieser Perspektive kann ich nur sagen: "Weiter so, OCLC!"

2010-02-10

Partizipativer Katalog, Intertextualität und Linked Data

Lambert Heller hat mich vor einiger Zeit in einer kleinen Twitter-Konversation (die hier ihren Ausgang nahm) auf den Aufsatz “Participatory Networks: The Library as Conversation” hingewiesen. Mittlerweile habe ich mal ein wenig in den Text reingeschaut, und ich stimme völlig mit dem Grundgedanken überein, dass Bibliotheken den NutzerInnen "constructive means ... to improve or shape the conversation" (S.5) geben müssen. Für wissenschaftlliche Bibliotheken heißt das, die Konversation der WissenschaftlerInnen durch das bereitstellen einer entsprechenden Infrastruktur zu unterstützen. (Nichts Anderes war und ist die Aufgabe wissenschaftlicher Bibliotheken.) [1]

Ich will hier nicht näher auf den Aufsatz eingehen, vielleicht ein andernmal. Allerdings spukt ein konkreter und m.E. vielversprechender Ansatz der Nutzerpartizipation schon länger in meinem Kopf herum. Dieser illustriert auch sehr schön, welche Möglichkeiten die Migration bibliographischer Daten in das Semantic Web bietet. Es geht um die kollaborative Vernetzung der katalogisierten Ressourcen mittels typisierter Links, mit anderen Worten darum, die NutzerInnen bibliographischer Daten Linked Data produzieren zu lassen.

Literatur heißt Verwobensein, verknüpfen heißt verstehen

Zunächst ein ganz bisschen Intertextualitäts- und Erkenntnistheorie. Ich habe bereits im Blogbeitrag Der Text der Zukunft I: Die Vergangenheit auf den Charakter des Verwobenseins von Texten, der Intertextualität von Literatur, hingewiesen. Weil ich es gerade nicht besser hinbekomme, zitiere ich einfach aus diesem Blogbeitrag. Zum einen heißt es dort (inklusive Grammatikfehler):
"[Es] hat sich bereits im Papierzeitalter gezeigt, dass jeder Begriff von Textidentität, der sich auf dem Paradigma der Druckpublikationen gründet, ein stark verkürzter ist und unsere Auffassung davon, was ein Text ist, in die Irre führt. Die bis in die 60er Jahre zurückgehende Intertextualitätsforschung baut auf der Vorstellung auf, dass ein Text seine Identität nicht aus sich selbst heraus, sondern vielmehr durch die Stellung, die er in der Literatur einnimmt, erhält. (...) Jeder Text erhält seine Bedeutung und seinen Wert durch seine Relationen zu anderen Texten – seien dies Texte, an die er (explizit oder implizit) anknüpft, auf die er verweist oder Texte, die ihrerseits an ihn anknüpfen. Augenfällig wird die Intertextualität etwa in Zitaten und Verweisen, ein großer Teil der Verknüpfungen zwischen Texten bleibt aber implizit."
Ein Text erhält seine Bedeutung und Identität also nicht aus sich selbst heraus, weshalb etwa ein Abstract nur sehr wenig über einen Text aussagt, wenn es seine Beziehungen zu anderen Texten, zur ähnlichen Forschungsprojekten, zu Forschungstraditionen und Schulen usw. nicht aufzeigt.

Zum anderen heißt es im erwähnten Blogbeitrag:
"Jede Verknüpfung schafft Erkenntnis. Die Intertextualitätsforschung stimmt mit Theoretikern wie Nelson Goodman, Jacques Derrida oder Ludwig Jäger in der Annahme überein, dass sich sämtliche Erkenntnis immer in der Verknüpfung mit und Verformung von Bestehendem vollzieht und somit alles Wissen je Produkt von Anknüpfungs- und Transformationshandlungen ist.
Ein Merkmal des Papierzeitalters ist, dass ein großer Teil dieser Verknüpfungs- und somit Erkenntnisarbeit privat und weitestgehend unerkannt stattfindet. Ich spreche von Prozessen, die beim Lesen von Texten stattfinden. Ich spreche von der Produktivität des Rezipienten, die sich in Handlungen wie dem Unterstreichen, dem Verweisen auf Bekanntes, dem Hervorheben relevanter neuer Anknüpfungspunkte zeigt. Diese produktiven Prozesse gehen meist in den Notizen des Lesers oder am Rande der Buchseiten verloren."
Hier wird deutlich gemacht, dass Bedeutung und Verstehen durch Vernetzung entstehen, durch In-Beziehung-Setzen, durch Vergleichen, Abgrenzen und ähnlichen Handlungen. Darüber hinaus wird darauf hingewiesen, dass im Papierzeitalter ein großer Teil unserer Arbeit mit Texten im Privaten stattfindet und dadurch für die direkte Kommunikation zwischen Menschen verloren ist. [2] Eine wichtige Frage im Hinblick auf die Zukunft bibliographischer Datenbanken und von eBook-Readern ist, wie diese bisher privaten Daten in maschinenlesbarer Form gespeichert, mit anderen geteilt und nachgenutzt werden können.

Möglichkeiten eines partizipativen Katalogs


Dann will ich endlich mal auf meinen Vorschlag für einen partizipativen Katalog zurückkommen, der wahrscheinlich recht leicht umzusetzen wäre, sobald die bibliographischen Daten als Linked Data vorliegen.

Wieso geben wir nicht den Leuten, die wirklich Ahnung von jenen Dingen, d.h. Texten haben, die in Bibliothekskatalogen verzeichnet sind, die Möglichkeit, ihr Wissen, ihre Vermutungen und Annahmen über bestimmte Zusammenhänge dort hineinzulegen? Der "Katalog 2.0", mit Social Tagging, Listenfunktionen und ähnlichem ist sicher als ein Schritt in die richtige Richtung zu begrüßen. Allerdings sind die Handlungen des Taggens und der Gruppierung in Listen noch sehr ähnlich der traditionellen Klassifizierung. Mir geht es hier aber um eine etwas andere Form der Anreicherung von Quellendaten, um eine andere, direktere Form des In-Beziehung-Setzens von Texten. [3]

Es ist integraler Bestandteil jeder Wissenschaft, jedes wissenschaftlichen Textes, Bezugnahmen zu anderen Texten explizit zu machen. Dies geschieht über die Fußnote, das Literaturverzeichnis und ähnliche Mittel. Allerdings sagt ein Literaturverzeichnis nur aus, dass der dazugehörige Text auf die dort aufgelisteten Quellen bezugnimmt aber nicht in welcher Weise dies geschieht, d.h.welchen Charakter die Bezugnahme hat. Wird der referenzierte Text kritisiert, wird auf den dort kommunizierten Erkenntnissen aufgebaut, wird dem Text widersporchen, er gar widerlegt oder dient er als Teil eines Korpus für linguistische Untersuchungen wissenschaftlicher Literatur?

Typisierte Verlinkungen ermöglichen

Auch diese Überlegungen sind alles andere als neu, ganz im Gegenteil, Wissenschaftler (nicht Bibliothekare) experimentieren schon mit der Umsetzung. Es gibt bereits zwei OWL-Ontologien (man könnte auch von "Link-Klassifikationen" sprechen), die ein Vokabular zur Verknüpfung wissenschaftlicher Texte zur Verfügung stellen.

Die erste Ontologie ist die Scientific Discourse Relationships Ontology Specification. Sie wurde entwickelt von Do-it-yourself-Wissenschaftlern aus der biomedizinischen Alzheimerforschung im Kontext des SWAN-Projekts Semantic Web Applications in Neuromedicine, "a project to develop knowledge bases for the neurodegenerative disease research communities, using the energy and self-organization of that community enabled by Semantic Web technology". Diese Ontologie ist sehr übersichtlich und umfasst bisher nur die folgenden dreizehn Eigenschaften von Referenzen:

Interessant ist, dass allein die weiter untergliederte Eigenschaft "refers to" der Klassifizierung expliziter Bezugnahmen dient, d.h. der Klassifizierung von Referenzen in Fußnoten oder Literaturverzeichnissen. Die nicht weiter untergliederten Eigenschaften "inconsistentWith", "consistentWith", "relevantTo" und "alternativeTo" können auch zwischen nicht explizit verknüpften Texten bestehen und sie können vor allem allein durch Fachleute expliziert werden.

Die zweite, detailliertere Ontologie ist CiTO, die Citation Typing Ontology. Sie konzentriert sich bei der Verknüpfung von Texten allerdings allein auf die Spezifizierung bereits deklarierter Beziehungen, das heißt auf die Klassifizierung der Verweise in einem Literaturverzeichnis. Im Abstract eines Artikels von David Sutton (pdf) über CiTO heißt es:
"CiTO, the Citation Typing Ontology, is an ontology for describing the nature of reference citations in scientific research articles and other scholarly works, and for publishing these descriptions on the Semantic Web. Citation are described in terms of the factual and rhetorical relationships between citing publication and cited publication, the in-text and global citation frequencies of each cited work, and the nature of the cited work itself, including its peer review status."
Die CiTO geht also über die Typisierung von Bezügen zwischen Texten noch hinaus, indem sie etwa auch eine Klassifikation wissenschaftlicher Quellen versucht und etwas über den Peer-Review-Status und die Anzahl der Anführungen referenzierter Texte aussagen lässt. Darüberhinaus versucht CiTO, die Functional Requirements for Bibliographic Records (FRBR) umzusetzen.

Der sehr lesenswerte Artikel Adventurs in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article zeigt unter anderem den Nutzen mit CiTO annotierter Referenzlisten auf, geht aber auch auf weitere Aspekte des "Semantic Publishing" ein und exemplifiziert das Ganze mit der semantischen Anreicherung eines Zeitschriftenartikels (Anschauen und Rumprobieren lohnen sich). Semantic Publishing definieren die AutorInnen wie folgt:
"We define the term semantic publication to include anything that enhances the meaning of a published journal article, facilitates its automated discovery, enables its linking to semantically related articles, provides access to data within the article in actionable form, or facilitates integration of data between articles."
 Ich habe keine Ahnung, inwiefern dieser Ansatz (der Artikel wurde im April 2009 publiziert) Anklang gefunden hat und ob bereits Verlage an einer Umsetzung des Konzepts arbeiten.

Beide hier vorgestellten Ontologien sind eher für den SMT-Bereich (Science, Medicine, Technology) der Wissenschaften geschaffen und dort vor allem für die Annotierung von Beziehungen zwischen Zeitschriftenartikeln zu den in ihnen erwähnten Quellen. Es geht in erster Linie darum, bereits explizit gemachte Verknüpfungen zu spezifizieren. Zudem soll diese Spezifikation - zumindest mit der CiTO - bereits vor der Publikation durch die Autoren eines Texts durchgeführt werden, weshalb auch von "Semantic Publishing" gesprochen wird. Selbstverständlich eignen sich diese Link-Klassifikationen aber auch für die nachträgliche Verknüpfung von Texten in Semantic-Web-Katalogen durch die Benutzer der Daten.

Ontologien für implizite Textbeziehungen

Zum einen ist es nötig, die Anwendung und Weiterentwicklung bestehender Referenz-Typologien zu unterstützen. [4] Es sollten aber auch Ontologien entwickelt werden, die ein Vokabular bereitstellen, um implizite Beziehungen zwischen Texten explizit zu machen. In James Joyces Ulysses gibt es etwa nirgendwo einen Verweis zu Homers Odyssee, nichtsdestotrotz nimmt das Werk bezug auf den antiken Klassiker. Es wäre ein enormer Fortschritt, wenn jedeR die Möglichkeit hätte,diese impliziten Beziehungen durch die Vergabe maschinenlesbarer, typisierter Links explizit zu machen.

Literaturwissenschaftler könnten zum Beispiel eine Menge dazu beitragen, nicht augenfällige Beziehungen zwischen Werken der Weltliteratur explizit zu machen. In der Tat wurde und wird schon viel Arbeit von LiteraturwissenschaftlerInnen geleistet, die sich ausgiebig mit den Beziehungen zwischen Werken der Weltliteratur befassen. Leider taten und tun sie dies in Prosatexten und produzieren somit keine maschinenlesbaren Daten. Bestimmt wären auch eine Menge nichtinstutionalisierte Wissenschaffer dabei, wenn es um die Verlinkung literarischer Werke geht. Die LibraryThing-Community hätte zum Beispiel sicher ihre wahre Freude daran.

Eine Genette-Ontologie?

Der französische Literaturwissenschaftler Gérard Genette hat in seinem Werk Palimpseste. Die Literatur auf zweiter Stufe eine Terminologie für die Bezugnahmeformen zwischen literarischen Werken herausgearbeitet. Neben der Typisierung hypertextueller (ja, so nennt er das) Bezugnahmeformen in der Literatur (er unterscheidet zum Beispiel Anspielungen, Plagiate, Parodien, Hommagen) beinhaltet das Buch noch einen weitaus größeren Teil, der diese Beziehungen an Beispielen aus der Weltliteratur aufzeigt. Es dürfte ein interessantes Projekt sein, seine Klassifizierung in eine OWL-Ontologie zu überführen und seine Beispiele in RDF-Tripel zu übersetzen. [5] So könnten die Erkenntnisse des Prosatexts Palimpseste - wie auch die Arbeiten vieler anderer Literaturwissenschaftler - unter großem Gewinn in maschinenlesbare Aussagen "übersetzt" werden. Dadurch würden sich für Literaturwissenschaftler ungeheure neue Möglichkeiten der Forschung und Erkenntnisgewinnung ergeben. Und auch die Möglichkeiten der Literaturrecherche könnten dadurch eine neue Dimension gewinnen.

Im Rahmen eines MALIS-Projekts habe ich vor, eben eine solche Genette-Ontologie zu basteln, die LiteraturwissenschaftlerInnen als Mittel dienen kann, ihr Wissen und ihre Vermutungen über die Beziehungen zwischen literarischen Werken in maschinenlesbarer Form zu repräsentieren. Dazu bei Gelegenheit mehr...



[1] In dem Aufsatz wird dabei immer von Katalogen gesprochen, die partizipativ gestaltet werden müssten. M.E. werden wir uns in Zukunft von dem Konzept eines Katalogs, der ja irgendwie immer auch ein Datensilo ist, verabschieden und dabei auch unsere Terminologie einmal überdenken. Aber die Diskussion über den Terminus "Katalog" gibt es ja schon länger...

[2] Dave Lankes, der den oben erwähnten Artikel "Participatory Networks: The Library as Conversation" mitverfasst hat, machte vor einigen Tagen in seinem Blog seinem Unmut über das iPad Luft, weil es eben die Möglichkeiten elektronischer Medien nicht ausschöpfe, diese bisher rein privaten Anmerkungen zu teilen oder über Textstellen direkt mit anderen zu kommunizieren. Als Read-Only-Medium unterstützt das iPad statt eines aktiven und kommunizierenden Leser allein das passive, konsumierende Lesen.

[3] Tagging setzt unzweifelhaft auch Werke in Beziehung, tut dies aber indirekt, über den Umweg eines gemeinsamen Etiketts, des Tags.

[4] Zwischen Blogs und anderen Webseiten gibt es auch unzählige Verknüpfungen, die nicht näher spezifiziert sind. Ich wundere mich, dass es bis heute keine Linkklassifikation gibt, mit der Hyperlinks mittels RDFa annotiert werden können, um den Charakter der jeweiligen Verlinkung zu spezifizieren. Oder gibt es so etwas und ich kenne es einfach nicht?

[5] Leider fehlen zur gelungenen Umsetzung eines solchen Projekts noch FRBR-Werk-URIs, um die Beziehungen zu repräsentieren. Ein Grund, unsere Kataloge durch Nutzung von RDA-Vokabulare in das Linked-Data-Web zu migrieren.

2010-02-03

Mehr zu Blog-Metadaten in Dublin Core

Im Oktober hatte ich über die Anreicherung dieses Blogs mit Dublin-Core-Metadaten in RDFa berichtet. Im Rahmen meines Weiterbildungsstudiums der Bibliotheks- und Informationswissenschaften an der FH-Köln habe ich dann mit meiner Gruppe eine Aufgabe zum Thema bearbeitet.

Das schriftliche Ergebnis unserer Überlegungen zu Blog-Metadaten in Dublin Core und zur Konzeption von Blog-Suchmaschinen habe ich nun heute bei Scribd publiziert (Link). Neben den Überlegungen zur Anreicherung eines Blogs mit DC-Metadaten findet sich in der Arbeit ein Entwurf für die Modellierung einer Blog-Suchmaschine ausgehend von einer knappen Darstellung der - nach Jens Schröder -  fünf besten Blog-Suchmaschinen.

Das Ganze kann sicher für Leute, die sich mit Blog-Metadaten, Dublin Core und Blog-Suche befassen, ganz nützlich sein, weshalb es nun auch publiziert wurde. So kann es auch über das Studium hinaus von Nutzen sein...

Mein Dank geht an meine GruppenmitstreiterInnen Irene, Katrin und Tobias für die allzeit gute und reibungslose Zusammenarbeit und dafür, dass sie der Publikation zugestimmt haben. Bald hat dieser Aufgaben-Stress ja endlich sein Ende und die - sicher deutlich spannendere und spaßigere - Projektphase beginnt.

2010-01-07

Kommunikation statt Information

Der Ausdruck 'Information' ist im Bibliotheksbereich wie auch im allgemeinen Sprachgebrauch (wenn es etwa um das "Digitale Zeitalter" geht) allgegenwärtig. Auch in meinem Studium der Bibliotheks- und Informationswissenschaften taucht er häufig auf. Allein, reflektiert oder diskutiert worden ist er in diesem Rahmen überhaupt nicht. [1] Ein solcher Mangel an Reflexion in Kombination mit der verbreiteten Orientierungslosigkeit von BibliothekarInnen und Bibliotheken in der Fortentwicklung des Bitzeitalters hat mich zu der Auffassung gebracht, dass eine Selbstverortung des Bibliothekswesens dringend nötig ist. Ein Bewusstsein der eigenen Rolle und der damit verbundenen Aufgaben verlangt allerdings nach grundlegenden Fragen wie: Was tun wissenschaftliche Bibliotheken? [2] Was heißt überhaupt 'Wissenschaft' und was ist ihre gesellschaftliche Rolle? Welchen Status hat das Konzept 'Information' und wie fassen wir es auch und gerade in Abgrenzung zu 'Daten', 'Wissen', 'Kommunikation', 'Quelle', 'Text' oder gar 'Schrift'?

Eine Frage Edward Corrados auf Twitter und die Antworten darauf (siehe meine Zusammenstellung rechts und die Tweet-Urls unten [3]) zeigten, dass auch interessierte und "informierte" BibliothekarInnen  keinen klaren Begriff von 'Information' in Abgrenzung zu 'Daten' und 'Wissen' haben, der für eine grundlegende Analyse taugt, die wiederum Ausgangspunkt für die Gestaltung des stattfindenen Wandels sein könnte. (Ich nehme mich von diesem Urteil nicht aus.) Vielleicht sollten wir einfach mit einer anderen Fragestellung beginnen...

Was ist die Hauptaufgabe von Bibliotheken?

Die landläufige Auffassung von der Kernaufgabe von Bibliotheken (wissenschaftlichen wie öffentlichen) lässt sich in etwa so zusammenfassen: Bibliotheken sammeln, erschließen und bewahren Informationen, die sich auf unterschiedlichen medialen Trägern befinden und machen diese den NutzerInnen mittels Retrievalangeboten auffindbar und über Ausleihe usw. zugänglich. Zurecht wird diese Auffassung zunehmend aufgrund ihrer Bestandszentrierung kritisiert, die einer Kunden- und Serviceorientierung zuwiderläuft.

Plädoyer für einen Perspektivwechsel

Ich plädiere für einen Perspektivwechsel in der Betrachtung der Rolle von wissenschaftlichen Bibliotheken: Weg von der Fixierung auf einen diffusen und fruchtlosen Informationsbegriff hin zu einer Analyse der kommunikativen Funktion von Bibliotheken. Dieses Plädoyer weist eine deutliche Parallele auf zur erwähnten Forderung nach mehr Nutzer- und Serviceorientierung statt der traditionellen Bestandsorientierung und liefert eine theoretische Unterfütterung dieser Forderung.

Lasst uns also nicht von Information, vom Bestand der Bibliothek sprechen, sondern von ihrer Rolle als Ermöglicherin der Kommunikation zwischen WissenschaftlerInnen. Ich bin überzeugt, dass eine solche Betrachtung das Potential hat, die Entwicklung der wissenschaftlichen Bibliotheken im  Bitzeitalter nachhaltig zu beeinflussen. Als Nebenerscheinung wird ein solcher Ansatz die zahlreichen und gravierenden Unterschiede zwischen wissenschaftlichen und öffentlichen Bibliotheken hervortreten lassen, die ein informationszentrierter Ansatz eher verdeckt.

Die Kommunikation in der Wissenschaft ist in den letzten Jahren zunehmend zu einem Thema wissenschaftlicher Betrachtung geworden, vor allem im angelsächsischen Raum. [4] In der Bibliothekswelt ist die Wichtigkeit dieser Untersuchungen für die eigene Arbeit weitestgehend unerkannt geblieben. [5] Dies ist umso erstaunlicher, wo wissenschaftliche Bibliotheken doch bisher konstitutive Bestandteile der wissenschaftlichen Kommunikationsinfrastruktur waren und damit ihre ganze Existenz auf das Engste an die wissenschaftliche Kommunikation gekoppelt war und ist.

Agenda

In den nächsten Monaten (leider muss ich ja in der nächsten Zeit auch noch "studieren", was momentan heißt vorgesetzte Aufgaben zum Wohlgefallen von DozentInnen in einem vorgegebenen Zeitrahmen zu erledigen) werde ich mich in einer Reihe von lose zusammenhängenden Beiträgen dem Thema "Kommunikation in der Wissenschaft und die Rolle wissenschaftlicher Bibliotheken" widmen. Zunächst werde ich versuchen, die - im 19. und 20. Jahrhundert verfestigte - Rolle wissenschaftlicher Bibliotheken in der Wissenschaftskommunikation zu fassen um anschließend die wichtigsten Entwicklungen und Einflüsse im Bitzeitalter zu identifizieren. Daran anschließend sollen schlussendlich Perspektiven und mögliche Strategien für wissenschaftliche Bibliotheken aufgezeigt werden. Da das Ganze hier in einem Blog und nicht in einer wissenschaftlichen (Print-)Zeitschrift geschieht, wird es naturgemäß eher ein Tasten, Fragen und Experimentieren mit dem Ziel, die wesentlichen Dimensionen einer nötigen Analyse herauszuarbeiten und in Beziehung zu setzen. Und natürlich hoffe ich auf fruchtbare Anmerkungen und Kritik von Seiten der Leserschaft...


[1] Die Annahme, dass in einem Studium die Grundbegriffe der Zunft geklärt würden liegt doch nahe. In meinem (Erst-)Studium der Kommunikationswissenschaften gab es jedenfalls eine Vorlesung, die sich zwei Semester grundlegend mit Sprache und Kommunikation befasste.

[2] Ich befasse mich hier ausschließlich mit wissenschaftlichen Bibliotheken und bin der Meinung, dass sich nur wenig aus einer Analyse wissenschaftlicher Bibliotheken auf öffentliche Bibliotheken direkt übertragen lässt. Viel mehr lässt sich wahrscheinlich aus den Unterschieden lernen. Ich bin der Auffassung, dass die Aufgaben von wissenschaftlichen und öffentlichen Bibliotheken - gerade wenn man sie aus dem Blickwinkel ihrer kommunikativen Rolle betrachtet - sehr verschieden sind. Meines Erachtens sollte folgerichtig eine Trennung dieser beiden Bereiche im Studium erwägt werden.

[3] Das komplette Twitter-Frage-Antwort-Spiel umfasste folgende Tweets (in chronologischer Reihenfolge):
[4] Siehe meine Quellensammlung zum Thema unter http://www.bibsonomy.org/user/acka47/scholarly_communication.

[5] Eine rühmliche Ausnahme im deutschsprachigen Raum ist ein Artikel von Rafael Ball mit dem Titel "Wissenschaftskommunikation im Wandel - Bibliotheken sind mitten drin". Auch

    2009-12-19

    Freie Metadaten - (k)ein Thema für den Bibliothekskongress

    Dieser Beitrag von Anne Christensen, Patrick Danowski und Adrian Pohl wurde zeitgleich auf den Blogs netbib, Bibliothek 2.0 und mehr und Übertext veröffentlicht.

    Katalogdaten sind zweifellos gefragter denn je - nicht nur für Zwecke der Fremddatenübernahme bei der Katalogisierung, sondern auch im Web 2.0, von Sozialen Katalogisierungsanwendungen wie LibraryThing und Open Library. Darüberhinaus gewinnen mit dem unaufhaltsamen Fortschritt von Linked Data, der dieses Jahr seinen bisherigen Höhepunkt erreicht hat, Katalogdaten in einem weiteren Anwendungsbereich an Bedeutung. Die Verlinkung freier Daten (Linked Open Data) bietet uns die Möglichkeit, das Wissen, was in den Titel- und Normdaten enthalten ist, abzuschöpfen und durch die Verknüpfung mit anderen - nichtbibliothekarischen - Wissensressourcen seine Nutzungsmöglichkeiten zu maximieren.

    Kommerz mit Metadaten

    Parallel zu dieser Entwicklung des Internet zum Linked-Data-Web und der Aussicht auf ganz neue Möglichkeiten der Recherche und Wissensgewinnung entwickelt sich aber auch die kommerzielle Nutzung von Metadaten in ganz neue Dimensionen. OCLC, das etwa ein Drittel seines Umsatzes mit dem Verkauf von anderen produzierter Katalogdaten macht, versuchte mit einer neuen Metadaten-Policy - unter Umgehung der Mitgliederbasis und der bibliothekarischen Gemeinschaft, die das Vorhaben schließlich zu Fall brachten -, sein Monopol auf die Katalogdaten der Mitgliedsbibliotheken juristisch zu zementieren. Organisationen wie EBSCO und Serials Solutions  versuchen mit ihren neuen Produkten EBSCO Discovery Service und Summon eine Menge Geld im Bereich Aggregierung und Verkauf von Metadaten und dazugehörigen Suchoberflächen zu verdienen.

    Open Access: ja, Open Data: ja, Open Bibliographic Data: nein

    Vor diesem Hintergrund ist es verwunderlich, dass die deutschsprachigen Bibliotheken und Bibliotheksverbünde sich bisher kaum mit neuen Nutzungsmöglichkeiten ihrer bibliographischen Daten auseinandergesetzt haben. Adrian Pohl stellte zwar am Ende seiner Dokumentation der OCLC-Metadaten-Kontroverse bereits u.a diese Frage für die deutschsprachige Bibliothekswelt:

    "Wie stehen deutsche Bibliotheken im Allgemeinen zu einem Urheberrecht auf bibliografische Metadaten und zu einer Einschränkung des Zugangs auf diese Daten? Wie zum freien Zugang und zur kostenlosen Verbreitung von Metadaten?" (S.288)

    Über Problemstellungen wurde aber bisher selten geredet und an die Öffnung und Verfügbarmachung der mit öffentlichen Mitteln produzierten bibliothekarischen Daten wird kaum ein Gedanke verschwendet. Zur gleichen Zeit wird die Bibliothekswelt nicht müde als ein wichtiger Pfeiler der Open-Access-Bewegung lautstark von anderen, nämlich Wissenschaftlern, die Freigabe ihrer Arbeitsprodukte, sowohl von Publikationen also auch von Rohdaten, zu fordern.

    Es tut sich was...

    Es sind aber erste Entwicklungen hin zur Freigabe bibliographischer Daten auszumachen: Im Strategieentwurf des Gemeinsamen Bibliotheksverbund (GBV) vom August dieses Jahres ist die Entwicklung einer Lizenz zur Freigabe der Verbunddaten festgehalten, auch das Hochschulbibliothekszentrum Nordrhein-Westfalen (hbz) unterstützt die Freigabe von Katalogdaten und Patrick Danowski hat - wie im Übertext berichtet - auf der Tagung "Semantic Web für Bibliotheken" angekündigt, dass die CERN Library ihre Daten öffnen werde. (Leider hat sich der angekündigte Termin auf Januar 2010 verschoben)

    ...aber: Zwei Open-Data-Vorträge abgelehnt

    Dass das Thema - auch im Bibliothekswesen - an Bedeutung gewinnt, ist also klar. Dies zeigte sich auch daran, dass mindestens zwei Vortragsvorschläge dazu - von den Autoren und der Autorin dieses Beitrags - für den Bibliothekskongress 2010 eingereicht worden sind. (Die beiden Abstracts sind am Ende dieses Textes dokumentiert.) Leider entschied die Programmkommission (deren Zusammensetzung nicht transparent im Internet dokumentiert ist), dass dem Thema "Freie bibliographische Daten" auf dem Bibliothekskongress kein Forum geboten werde. Beide Vorträge wurden abgelehnt. Insgesamt ist das Auswahlverfahren für den Bibliothekartag wie Bibliothekskongress wenig transparent.

    Nachdem die erwähnte Tagung "Semantic Web in Bibliotheken" vom hbz und der ZBW im November 2009 innerhalb von kürzester Zeit ausgebucht war, ist es umso bedauerlicher, dass dem offensichtlichen Interesse von Kolleginnen und Kollege an dieser Thematik in dem Leipziger Programm anscheinend nicht Rechnung getragen wurde. Bibliotheken haben mit Open Data die Chance, sich als Erzeugerinnen und Anbieterinnen von qualitativ hochwertigen, webfähigen Daten zu profilieren. BID Deutschland, die Bundesvereinigung Deutscher Bibliotheksverbände, als Veranstalterin des Leipziger Kongresses versäumt damit den eigenen Anspruch, "zeitgemäße Informationsdienstleistungen als Voraussetzung für die Entwicklung von international konkurrenzfähigen Produkten zur Verfügung zu stellen".

    Gespannt erwarten wir das Programm, um zu sehen welche Themen BID Deutschland für wichtig und innovativ hält.


    Dokumentation der eingereichten Abstracts:

    Freie Metadaten
    Referenten: Anne Christensen (SUB Hamburg), Adrian Pohl (hbz)

    ABSTRACT
    Open Source und Open Access sind mittlerweile im öffentlichen und bibliothekarischen Diskurs fest verankerte Begriffe. In den letzten Jahren wird zunehmend auch über Open Data diskutiert – seien die freien Daten, um die es dabei geht, wissenschaftliche, statistische, administrative Daten oder eben Metadaten.
    Dieser Vortrag dient als Einführung in das Thema "Freie Metadaten" und beantwortet Fragen wie: Was heißt frei? Um welche Daten geht es? Warum sollen Daten frei sein? Behandelt werden der Hintergrund der Bestrebungen nach freien Metadaten, ihre Geschichte, die dahinterstehenden Motivationen und Ziele. Besondere Berücksichtigung findet dabei die Veröffentlichung von bibliografischen Daten und Normdaten als Open Linked Data.
    Zudem werden Vorhaben zur Freisetzung der bibliografischen Metadaten im deutschsprachigen Raum betrachtet und es wird auf Fragen der Umsetzung eingegangen: Welche Lizenz soll ich wählen? Bin ich rechtlich befugt, alle Daten in meinem Katalog freizugeben? In welchem Format publiziere ich meine Daten?

    Aus dem Silo ins Semantic Web: Bibliographische Daten als Linked Data Publizieren

    P. Danowski

    CERN Scientific Information Service, 1211 Geneve, Schweiz

    Inhalt

    Tim Barners Lee hat den Begriff Linked Data fuer eine Methode beschrieben mit der Daten veroeffentlich, geteilt und verbunden werden. Dabei sollen die Daten mit URL basirten Identifiern erreichbar sein und andere Daten im Netz referenzieren (verlinken).[1] Inzwischen wurde eine Vielzahl von Daten mit dieser Methode publiziert.[2]

    Spaetestens seit dem letzten Jahr sind auch Bibliotheken auf dieses Thema aufmerksam geworden und beginnen ihrer Ressourcen in dieses Netz von Daten einzubringen. In dem Vortrag wird gezeigt, wie sich bibliographsche Daten als Linked Data publizieren lassen.

    Dabei soll darauf eingegangen werden welche Frage zu klaeren sind. Dies sind unter anderen:

    - Die Wahl einen Formats (einer Ontology)

    - Lizenzfragen

    - Vertrauensfragen

    Der gesammten Prozess soll anhand eines Projekt fuer die Katalog Daten der CERN Library veranschaulicht werden. Es soll auch beschrieben werden welche Probleme in dem Prozess aufgekommen sind und welche Loesungsmoeglichten hierfür entdeckt wurden.

    Quellenangaben

    [1] vgl. auch http://en.wikipedia.org/wiki/Linked_data

    [2] Zu der Menge der Daten gibt es ein klickbares Diagramm in dem die Verbindung der verschieden Ressources erkennbar ist. http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-07-14.html

    2009-11-26

    Erst öffnen, dann linken!

    Dienstag und Mittwoch fand in Köln das SWIB09 statt. Es war eine sehr interessante Veranstaltung, vor allem habe ich mich gefreut, einige Personen mal im realen Leben zu treffen, die ich bisher nur virtuell kannte. Hier geht es jetzt darum, einige Probleme, Fragen und Unklarheiten zu besprechen, die mir mehrmals aufgefallen sind. Den Anfang macht die Frage nach der Reihenfolge von Lizenzierung, Publizierung, Triplifizierung und Verlinkung von Daten. (Ich hoffe, Felix, der jetzt hier mitschreibt, setzt die Reihe fort.)

    Linked Data & Open Data
    Zwei verschiedene Ansätze, Bibliotheken in das Semantic Web zu bringen wurden während der Veranstaltung nur allzu deutlich.

    Erster Ansatz
    Hauptsache hochqualitative Daten in RDF, der Rest wird sich finden, so könnte man die Grundhaltung dieses Angangs beschreiben. Dieser erste Ansatz - der bisher zum Beispiel von der DNB verfolgt wird - scheint mir ein so naiver wie traditioneller zu sein. Er geht so: Wir tüfteln eine Technologie zur Umwandlung der bibliothekarischen Datenformate in RDF-Tripel aus, verwenden dabei am besten ein - bisher von sonst niemandem genutzes, weil noch nicht existierendes - RDA-Vokabular, veröffentlichen am Ende des langen Entwicklungsprozesses die konvertierten Daten und bieten die Möglichkeit der Suche (mit einem SPARQL-Endpoint) und Verlinkung zu unseren Daten an. Über Lizensierungsfragen und die vollständige Öffnung der gesamten Daten machen wir uns aber zunächst keine Gedanken.

    Dieser Ansatz birgt zwei grundlegende Probleme:
    Erstens wird mit einem RDA-Vokabular auf bibliothekarische Standards gesetzt, die noch nicht fertiggestellt sind und dementsprechend auch keine Verbreitung in nicht-bibliothekarischen Bereichen gefunden haben. Ein solcher Weg birgt die Gefahr ein neues Silo mit Katalogdaten - diesmal im Semantic Web selbst - zu etablieren, denn: Die Nachnutzung bestehender Vokabulare ist gängige Praxis und sorgt dafür, dass Daten verlinkt und damit Linked Data geschaffen wird. Jakob Voß machte in seiner Präsentation über die Bibliographic Ontology (Bibo) deutlich, dass man an diesem Vokabular nicht mehr vorbeikommt, wenn man bibliographische Daten im Linked-Data-Netz veröffentlichen will. Die Bibo selbst berücksichtigt und inkorporiert ihrerseits bestehende De-Facto-Standards wie foaf und die DCMI Metadata Terms.
    Eine Möglichkeit wäre es, bei der Entwicklung einer RDA-Ontologie bestehende Klassen und Prädikate aus Bibo, Dublin Core usw zu übernehmen. Allerdings weiß ich nicht, inwieweit dies getan wird.
    Zweitens - und dies hat Patrick Danowski sehr schön in seiner Präsentation dargestellt - vernachlässigt dieser Ansatz eine grundlegende Frage, die beim Veröffentlichen von Linked Open Data eine wichtige Rolle spielt: Nämlich die Frage der Lizenzierung. Im letzten Übertext-Beitrag wird dies auch zweimal angesprochen: Der erste Schritt zu Linked-Open-Data sollte die Öffnung der Rohdaten sein. Tim Berners-Lee fasste dies in seinem bekannten TED-Talk in die Worte: Raw Data Now!

    Welche Chancen verspielen Bibliotheken, wenn sie erst nach einer langen Planungs- und Entwicklungsphase eine ganzen Haufen triplifizierter bibliographischer Daten freigeben und welche Risiken birgt dieser Ansatz:

    1. Aufwändige und schlechtere Konvertierung: Arbeitet eine Bibliothek oder ein Verbund alleine für sich an einer Konvertierung der Daten, so liegt die Arbeitslast und Verantwortung allein auf den Schultern dieser Institution. Veröffentlicht man aber im ersten Schritt die Rohdaten, so lassen sich Teile des Konvertierungsprozesses crowdsourcen, denn es gibt im Internet eine Menge Leute, die an Bibliotheksdaten interessiert sind. Flankiert durch ein offene Plattform zur Dokumentation und Diskussion des Konvertierungssprozesses bringt dieser Ansatz auch von Anfang an Feedback ein, so dass von vorneherein ein bestmögliches Ergebnis sichergestellt wird.

    2. Verlinken nicht möglich: Der Ansatz, zunächst die bestehenden Daten einer Institution möglichst vollständig zu konvertieren und erst dann die URIs und internen Verknüpfungen zu veröffentlichen bedeutet, dass erst am Ende dieses Prozesses, wenn die Daten veröffentlicht sind, andere Personen oder Institutionen Verlinkungen mit diesen Daten herstellen können. Dies ist meiner Meinung nach unnötig, gerade weil die Standards eine iterative Publikation der Daten möglich machen und auch URIs alleine schon einen großen Wert haben. Ich fände es zum Beispiel sinnvoll, die PND- (oder GND-)URIs so früh wie möglich zu veröffentlichen, wenn auch nur mit minimalen Informationen (z.B. Ansetzungsform, Verweisungsform + Lebensdaten) versehen. Damit könnten diese URIs frühstmöglich verlinkt und mit anderen Daten in Beziehung gesetzt werden. Nach und nach könnten weitere RDF-Tripel angehängt werden, sobald die Konvertierungsfragen geklärt sind. (Jetzt könnte man einwenden, dass es die GND-URIs schon gibt. Gewissermaßen stimmt dies vielleicht, allerdings hätte die Pedantic Web Group daran einiges zu verbessern, vor allem, weil Personen und die sie beschreibenden Ressourcen dieselbe URI haben. Dieser Umstand schreckt auf jeden Fall vor einer Nutzung der URIs ab.)

    Zweiter Ansatz: Open first, link later!
    Der zweite Ansatz lässt sich am besten durch ein praktisches Beispiel erläutern, das der CERN Library. Diese Bibliothek nimmt ihren ehemalgien Kollegen Tim Berners-Lee beim Wort und wird - wie Patrick Danowski auf der SWIB09 ankündigte - ihre Daten diese Woche in die Public Domain stellen. Die Open Library und biblios.net werden die Daten übernehmen und verfügbar halten aber auch jedeR andere kann die Daten übernehmen und damit herumspielen.
    Erst im zweiten Schritt sollen die Daten in RDF umgewandelt werden und Verlinkungen zu anderen Daten herstellt werden. Ich hoffe, dass dieser Konvertierungsprozess offen und transparent stattfinden wird und die verwendeten Programmiercodes offengelegt werden, so dass zum einen die CERN Library davon profitiert, weil sie den Input aus der Gemeinschaft bekommt und auch zum anderen die Bibliotheken und Verbünde, die dem Beispiel der CERN Library noch folgen werden.


    MN95QN8XA3NT (Verwirrt? Dieser Code ist zur Erfassung des Blogs in Technorati, das einem den Erfassungsprozess nicht gerade leicht macht.)

    2009-11-20

    Workshop-Bericht: Open Data and the Semantic Web

    Besser spät als nie - und dafür umso umfangreicher. Dieser Bericht wurde gemeinsam mit Felix Ostrowski verfasst. Unser Arbeitgeber, das hbz, hat uns freundlicherweise die Teilnahme am Workshop "Open Data and the Semantic Web" der Open Knowledge Foundation (OKFN) ermöglicht. So haben wir uns gemeinsam - beide in labilem gesundheitlichen Zustand - für ein langes Wochenende nach London aufgemacht und am Freitag dem 13. diesen Workshop besucht. Hier nun unser Bericht.

    Rufus Pollock (OKFN): Einführung
    Rufus Pollock von der Open Knowledge Foundation führte in den Tag ein und erläuterte das Konzept der Offenheit von Wissen anhand der Open Definition, die in Kurzform besagt:
    A piece of knowledge is open if you are free to use, reuse, and redistribute it.
    Gemäß der Open Definition darf Wissen den folgenden maximalen Einschränkungen unterliegen: share-alike (das heißt Veränderungen des Werks müssen unter der gleichen Lizenz weitergegeben werden) und attribution (Nennung des Urhebers). Somit sind etwa Creative-Commons-Lizenzen nach der Open Definition nicht notwendig offen. Dies gilt etwa für Lizenzen, die eine kommerzielle Nutzung verbieten

    Zudem erläuterte Rufus Pollock CKAN (Comprehensive Knowledge Archive Network). Diese Registry gibt einen Überblick über bestehende Open-Data-Pakete und -Projekte. Zu jedem Paket/Projekt wird seine Kompatibilität mit der Open Definition anhand zweier grundlegender Eigenschaften angegeben: das Vorhandensein bzw. Nichtvorhandensein einer Lizenz sowie die Möglichkeit eines Downloads der Daten. CKAN stellt eine Lese- und Schreib-API bereit und ist in der Talis Connected Commons Platform als RDF verfügbar.

    Leigh Dodds: Web Integrated Data
    Leigh Dodds (Talis) machte deutlich, dass es bei Linked Open Data vor allem darum geht, den Nutzen bestehender strukturierter Daten zu maximieren. Der Weg zu dieser maximalen (Nach-)Nutzbarkeit erfolge in drei Schritten:
    1. Rohdaten veröffentlichen: Rohdaten heißt, die Daten werden unbearbeitet in Formaten wie CSV, XLS, PDF usw. publiziert. Sie sollten aber möglichst mit Metadaten, einer Dokumentation und Lizenz versehen werden.
    2. Webzugriff ermöglichen: Durch die Nutzung offener Webformate (XML, JSON etc.) und die Bereitstellung einer API wird ein direkter Webzugriff auf die Daten möglich.
    3. Vollständige Webintegration: Die Integration mit dem Web geschieht durch die Bereitstellung der Daten in RDF, einem webnativen Datenmodell. Dazu müssen Entitäten und Verknüpfungen zwischen diesen mittels URIs identifiziert werden.
    Nach der Veröffentlichung heißt es: "Wait for great things to happen." Daten werden nachgenutzt und verlinkt und im Ergebnis entsteht das Linked-Data-Netz, ein menschen- und maschinenlesbares "Web of data".

    Jordan Hatcher: Legal tools for Open Data
    Die Techniker auf dem Workshop waren sich einig: Juristische Aspekte von Open Data sind langweilig aber leider sehr wichtig. Jordan Hatcher übernahm die Aufgabe, Probleme und Möglichkeiten der Lizenzierung von Daten kurz darzustellen.

    Bis vor einiger Zeit gab es noch keine Lizenzen für Daten/Datenbanken. Für Software (Open Source) und intellektuelle Werke (Creative Commons) gibt es zwar schon länger Lösungen, diese lassen sich aber aufgrund der unterschiedlichen Rechtslage für Daten wie Datenbanken nicht übertragen.
    Mittlerweile gibt es aber auch drei Lizenzen für Daten und Datenbanken:
    Die Open Database License (ODbL) und die Public Domain Dedication and Licence (PDDL) sind auf Initiative des OKFN-Projekts Open Data Commons entstanden. Außerdem gibt es noch die mit der PDDL interoperable CC-0/CC-Zero (für die es allerdings noch keine deutsche Version gibt).
    Während die OdBL Linzenzeinschränkungen wie Attribution und Share-alike erlaubt, ist es Ziel einer PDDL- oder CC-0-Lizenzierung, sämtliche Urheberrechtsansprüche (Vervielfältigungs-, Verwertungs- und Vertriebsrecht) aufzugeben und die Daten(bank) in die Public Domain zu stellen. ("Public Domain" ist kein deutscher Rechtsbegriff. Es ist vielleicht am ehesten mit Gemeinfreiheit gleichzusetzen.)

    Jenni Tennison: Provenance in RDF
    Jenni Tennison referierte über eine Kernfrage im Umgang mit Daten, die natürlich auch auf Linked Data zutrifft: "How do you know whether you can trust a piece of information?" (http://www.jenitennison.com/blog/node/133)

    Klar ist, dass das Vertrauen in Daten umso gefestigter ist, je tiefer der Einblick in ihre Herkunft ist. Es geht also darum, eine Nachvollziehbarkeit der Entstehungsgeschichte von Daten herzustellen, um Vertrauen in diese Daten zu ermöglichen. Die Entstehung von Daten lässt sich beschreiben als das u.U. mehrmalige transformieren von Ausgangs- bzw. Rohdaten durch Prozesse, welche von Akteuren gesteuert werden.

    Es gilt also, die Daten und die auf sie einwirkenden Prozesse transparent zu gestalten; dies wird durch "Open Data" und "Open SourceSoftware" gewährleistet. Tennison stellte zwei bestehende Ansätze vor, die dazu dienen, Provinienz-Information für RDF-Daten strukturiert (und ihrerseits in Form von RDF-Daten) formulieren zu können: Das Open Provenance Model und das Provenance Vocabulary. Sie machte deutlich, dass ersteres vereinfacht und das zweite (weil noch unfertig) mitentwickelt werden müsse, um für Linked-Data-Zwecke Anwendung zu finden.

    Zuletzt verwies Tennison auf ein Ungleichgewicht, das man als "Linked-Data-Paradox" bezeichnen könnte: Linked-Data baut darauf auf, das alles einen Namen (in Form einer URI) hat. RDF-Tripel sind allerdings von Grund auf anonym und können momentan nur durch einen etwas schwergewichtigen Vorgang namens Reification (das heißt soviel wie "Verdinglichung", weil eine Aussage zu einer Entität ernannt wird (was sie eigentlich von vornherein sein sollte)) als Ressourcen referenzierbar gemacht werden. Da die Grundeinheit von RDF-Daten die einzelne Aussage ist, spielen auch Provenienz-Informationen auf dieser Ebene eine wichtige Rolle, sind aber momentan nicht bequem anzubringen.

    Hugh Glaser: sameAs.org
    Hugh Glaser stellte die von ihm ins Leben gerufene Webseite/Datenbank sameAs.org vor. Da Linked Data de facto das RDF-Datenmodell zu Grunde liegt, werden Entitäten ("Dinge in der echten Welt") über URIs referenziert. Da es (zum Glück) keine zentrale Vergabestelle für diese URIs gibt, ist es unvermeidbar, dass die selbe Entität von zwei (und meist noch viel mehr) verschiedenen URIs referenziert wird. Um das Zusammenführen von Beschreibungen eines Gegenstandes mit verschiedenen URIs zu ermöglichen, gibt es das OWL-Prädikat sameas, mit dem eben die Gleichheit der durch verschiedene URIs referenzierten Entität behauptet wird. Da dies eine sehr starke Behauptung ist, kann es zu unangenehmen Nebenwirkungen kommen. So hat etwa die New York Times beim Publizieren von RDF-Daten per owl:sameas auf URIs in DbPedia verwiesen und dadurch aus Versehen ihre Copyright-Bestimmungen auch auf die dort vorhandenen Daten ausgedehnt.

    Um solche Probleme im Keim zu ersticken, ist Glasers Ansatz, die Aussagen über die Gleichheit der Referenz von URIs von den Aussagen über das Referenzierte zu trennen. Dafür hat er sameas.org implementiert, eine Datenbank, die ausschließlich Aussagen zur Kongruenz von URIs beinhaltet. Es wird damit möglich, auf diese Datenbank zu verweisen, anstatt Identitätsaussagen in den eigenen Daten treffen zu müssen. Dies hat auch den angenehmen Nebeneffekt, dass die Menge an Verweisen immer weiter wachsen kann, ohne dass das die eigenen Daten permanent aktualisiert werden müssen. sameAs.org unterscheidet sich von Diensten wie Okkam und Subj3ct, die dem Auffinden existierender URIs für bestimmte Entitäten dienen, eben genau darin, dass diese nicht dem Verweisen auf andere URIs dienen.

    Eine Frage die sich aus der Perspektive der Bibliothekswelt aufdrängt, ist die, warum die URIs des VIAF bislang keine Berücksichtigung in der sameAs.org Datenbank gefunden haben. Dies mag daran liegen, dass der Nutzen von viaf.org bislang nahezu ausschließlich in der Bereitstellung von URIs für Personen liegt. (Zumindest waren wir bislang nicht in der Lage, dort Daten in irgendeiner RDF-Serialisierung zu finden). Sobald die URIs jedoch mit RDF beschrieben werden, könnten sie sich als enorm wertvoll herausstellen.

    Lightning Talks

    Hier ein kleiner Überblick über die gehaltenen Lightning Talks mit ein paar Links.

    Mark Birbeck: RDFa & Government Data
    Mit einem Ausschnitt aus dieser Präsentation bestritt Mark Birbeck seinen Lightning Talk über RDFa. Er exemplifizierte die Vorteile von RDFa am Beispiel der Anreicherung bestehender Webseiten mit Stellenangeboten in der öffentlichen Verwaltung, um diese harvesten zu können. Ohne die Publikationsworkflowa zu vereinheitlichen lassen sich verschiedene bestehende HTML-Webangebote mit einem einheitlichen Vokabular anreichern. Darauf aufbauend ist es schließlich ein Leichtes, zentralisierte Webangebote mit den gesammelten Stellenanzeigen bereitzustellen.

    Rufus Pollock über CKAN
    Rufus Pollock ging nochmal auf CKAN (s.o.) ein.

    Jeni Tennison zu data.gov.uk
    Jeni Tennison gab einen kurzen Einblick in die Baustelle data.gov.uk. Das britische Pendant zum US-amerikanischen data.gov hat ja mit Tim Berners-Lee den Erfinder des Semantic Web im Boot. Man darf gespannt sein, was dabei rauskommt, die öffentliche Beta-Phase soll im Dezember beginnen.

    Ian Davis zum Data Incubator
    Ian Davis (Talis) stellte das Freizeitprojekt einiger Talis-Mitarbeiter, den Data Incubator, vor. Dieser dient dem Zweck, Linked-Data-Praktiker zusammenzuführen, um große offene Datensätze in RDF zu konvertieren und diese Prozesse zu dokumentieren, indem etwa die verwendeten Programmcodes offen gelegt werden. Um diese Ziele zu erreichen wird ein Diskussionsforum bereitgestellt, Speicherkapazität in der Talis Platform sowie ein Google-Code-Repository.

    Axel Rauschmayer: Social and Personal Linked Data
    Axel Rauschmayer (LMU München) stellte sein Projekt Hyena vor, eine Mischung aus Wiki und Datenbank basierend auf RDF. Hyena kann sowohl offline, d.h. desktopbasiert, als auch webbasiert benutzt werden und verfügt über eine Synchronisierungsfunktion zwischen Web- und Desktopanwendung.

    John Goodwin über Linked Data at Ordnance Survey
    John Goodwin stellte die Ordnance-Survey-Linked-Data-Seite vor. Ordnance Survey ist die für Kartographierung zuständige britische Verwaltungsagentur. Die bisher vorhandenen Daten sind schon sehr informativ. Sie enthalten etwa Angaben über Regierungs- und Wahlbezirke und in welchem Verhältnis diese zueinander stehen. Genauere Geodaten über Grenzverläufe sind noch nicht vorhanden, weil ein Mapping in RDF offensichtlich nicht sehr leicht ist. Für mehr Informationen siehe einen Blogbeitrag zum Thema von John Goodwin.
    Ordnance Survey war in den letzten Tagen im Gespräch, z.B. in den Medien und auf Twitter, weil es nun auch seine Karten online zur freien Verfügung gestellt hat.

    Yves Raimond: BBC Linked Data
    Sehr ansehnlich sind die Linked-Data-Seiten der BBC, die Yves Raimond präsentiert hat. Diese Seiten erhalten Unmengen an Daten über sämtliche Radio- und TV-Sendungen der BBC samt aller gespielten Lieder mit den entsprechenden Metadaten, Sendezeiten und und und. Wir empfehlen, darin einfach mal ein bisschen zu browsen. Wann wohl der WDR oder die ARD so etwas auf die Beine stellen werden? Die Daten sind ja da...

    Chris Wallace: Model induction for RDF comprehension and browsing
    Chris Wallace stellte eine Art Ontologie-Generator vor, auf den wir hier nicht näher eingehen, weil wir ihn schlicht in den fünf Minuten nicht genug erfasst haben. Es geht offensichtlich darum, eine Art Ontologie aus einer Menge von RDF-Tripeln induktiv herzuleiten.

    Mark Birbeck: Where next for RDFa?
    Mark Birbeck stellte die Frage über die Zukunft von RDFa und blieb eine Antwort schuldig. Vielleicht haben wir aber auch gerade nicht aufgepasst.

    Richard Light: Museum Linked Data
    Unseren Notizen nach zu urteilen, ist hiervon nicht viel hängengeblieben. Der Lightning Talk basierte auf diesen Folien oder sehr ähnlichen.

    Rob McKinnon: Making Data Open
    Rob McKinnons unterhaltsamer Vortrag stellte das Projekt Companies Open House vor, das aus Frustration am und Alternative zum öffentlichen Angebot (keine permanenten, weil Session-URLs) an einem Tag zusammengehackt wurde und Informationen zu UK-basierten Unternehmen unter stabilen URLs liefert.
    Die Aufzeichnung eines (noch kürzeren Vortrag) von McKinnon zum Thema kann hier angeschaut werden.

    Georgi Kobilarov: uberblic.org
    Georgi Kobilarov (Berlin), der die DBpedia an der FU Berlin mitentwickelt hat, stellte sein neues Projekt uberblic.org vor. Es dient der Integration verschiedener Ontologien in einer Über-Ontologie, die in einem kollaborativen Prozess entstehen soll. Das Ganze sah ziemlich interessant aus, ist derzeit aber noch nicht offen zugänglich. Man darf gespannt sein...

    John Goodwin: Genealogy and Linked Data
    John Goodwin gab einen Überblick über seine Anwendung von Linked-Data auf das Feld der Genealogie.

    Kristof Van Tomme: Drupal and the semantic web
    Kristof Van Tomme (Pronovix) eräzhlte etwas über die RDFa-Integration in der kommenden siebten Version des Content-Management-Systems Drupal.

    Linked Data Clinic - Fragen an die ExpertInnen

    Zum Abschluß des Workshops wurden in der "Linked Data Clinic" von den anwesenden Experten einige grundlegende Fragen diskutiert, aber - und das war auch nicht Sinn der Übung - keineswegs abschließend beantwortet.

    Bestehende URIs wiederverwenden oder neue prägen?
    Anknüpfend an die Problematik der owl:samewas-Relationen (s.o.) ging es zunächst darum, welcher Ansatz grundsätzlich zu bevorzugen ist: Beim Publizieren von Linked Data auf bestehende URIs zurückzugreifen oder eigene URIs zu prägen, welche dann mit den bestehenden verknüpft werden. Hier gab es keine eindeutige Präferenz.

    Versionierung und Beschreibung von RDF-Daten
    Ein weiteres wichtiges Feld, dessen Wichtigkeit allgemein anerkannt wurde, ist das der Metadaten zu Linked Data. Wie können Standards geschaffen werden, um RDF-Daten zu beschreiben? Welche Ansätze gibt es, RDF-Daten zu versionieren? Beiden Fragen liegt wieder das Reifikations-Problem zu Grunde, also die Beschreibung von RDF-Aussagen durch RDF-Aussagen. [Anmerkung: es besteht, wie bereits erwähnt, durchaus die Möglichkeit, RDF-Aussagen zu eigenständigen Ressourcen zu erheben. Aber diese birgt so einige Folgeprobleme, so dass die Frage erlaubt sein muss, ob im RDF-Modell nicht schlicht etwas vergessen wurde: nämlich die Berücksichtung dessen, dass auch Aussagen Ressourcen sind - und sogar sehr wichtige.]

    RDF-Modellierung: Agile Entwicklung oder Wasserfall?
    Weiter ging es mit der die Anwendungsentwicklung betreffenden Frage, inwiefern Änderungen in einem RDF-basierten Datenschema ad-hoc möglich sind, ob also das RDF-Modell mit der agilen Softwareentwicklung kompatibel ist. Hier herrschte weitgehend der Tenor, dass das Erweitern des Schemas deutlich schmerzfreier ist, als in einem relationalen Datenmodell, da das zugrundeliegende Datenbankschema - so denn ein Triple Store eingesetzt wird - nicht geändert werden muss.

    Google-RDF: Was wären die Folgen
    Zuletzt wurde ergebnisoffen die Frage diskutiert ob RDF auch dann eine zukunftsträchtige Basis für Linked Data bleibt, wenn ein "Big Player" wie Google auf die Idee kommen sollte, auf einen anderen Standard zu setzen.

    Abschlussfrage
    Die Abschlussfrage an die Experten lautete: Was sind die Herausforderungen für (1) die Linked-Data-Gemeinschaft bzw. (2) für Linked-Data-Anfänger?

    Jeni Tennison wies noch einmal darauf hin, dass mit der Verbreitung von Linked Data auch verstärkt die Frage der Provinienzdokumentation und Versionierung aufkommen wird, und man wohl daran täte, die oben bereits angedeuteten Probleme offensiv anzugehen.
    Steve Harris und Hugh Glaser betonten, das bei aller Umwandlung von bestehenden Daten in das Linked-Data-Modell die Entwicklung von (Endnutzer-)Anwendungen, die auf diesen Daten operieren, nicht vergessen werden darf.
    Georgi Kobilarov deutete an, dass ein Problem für Einsteiger - vor allem in die technischen Aspekte von Linked Data - weniger die Komplexität der Materie als vielmehr das Finden der richtigen Tutorials und Dokumentationen im Web ist.

    Auch wir meinen: Linked Data ist von Natur her dezentral, und so sollte daran gelegen sein, dass sich die Auseinandersetzung mit der Materie nicht auf einen elitären Zirkel beschränkt. (Hmm, leider ist dies hier auch nicht gerade zu einem Einführungstext geraten. Vielleicht ein andernmal...)