Übertext: Blog: 2010

2010-10-19

Open Bibliographic Data in 2010. Ein vorläufiger Überblick

In den letzten Monaten hatte ich leider keine Zeit, den Übertext: Blog zu füttern. Eine Urlaubswoche gibt mir nun die Möglichkeit, dies zu ändern. Da sich eine Menge ereignet hat, ergreife ich diese Gelegenheit, um einen Überblick über die diesjährigen Entwicklungen im Bereich Open Bibliographic Data im allgemeinen und Open Library Data im Speziellen zu geben.[1]

Open Bibliographic Data vor 2010

2010 ist allerdings nicht das Jahr, in dem Aktivitäten und Entwicklungen rund um Open Bibliographic Data ihren Ursprung haben, weshalb ich einen kleinen Rückblick voranstellen möchte. In der Bibliothekswelt wurde Open Data bereits 2007 Thema zum einen mit dem Start der Open Library und zum anderen mit dem Berichtsentwurf Future of Bibliographic Control der Library of Congress (LoC), der kritisiert wurde, weil er das Thema "Lizenzierung von Bibliotheksdaten" außen vor ließ und sich somit auch nicht für Open Data aussprach.

Bis 2010 hat sich nicht sonderlich viel in Sachen Open Bibliographic Data getan, erwähnenswert ist allerdings noch der "Authorities & Vocabularies"-Dienst der Library of Congress, in dessen Rahmen seit April 2009 die Library of Congress Subject Headings als Linked Open Data zur Verfügung gestellt werden.

In Jahr 2010 hat sich nun schon derart viel ereignet, dass ich es für sinnvoll halte einen Überblick zusammenzustellen. Und das Jahr ist noch nicht zu Ende, ich bin sicher, dass uns noch weitere wichtige Ereignisse bevorstehen!

Freie Katalogdaten von Bibliotheken und Verbünden

2010 ist das Jahr, in dem einige Bibliotheken und Verbünde begonnen haben, ihre Katalogdaten unter einer offenen Lizenz freizugeben. Den Beginn machte im Januar die CERN Library. Es folgte die Universitätsbibliothek Gent im Februar und im März die bisher umfangreichste Datenfreigabe durch Kölner Bibliotheken, das Landesbibliothekszentrum Rheinland-Pfalz und das Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz).

Seitdem haben sich noch einige Bibliotheken dieser Initiative angeschlossen[2]:

Die Zentralbibliothek der Sportwissenschaften hat am 12. April 2010 beschlossen, ihre Daten unter einer Public-Domain-Lizenz zur Verfügung zu stellen.
Seit dem 21.6.2010 stellt die Hochschulbibliothek der RWTH Aachen ihre Daten der Öffentlichkeit uneingeschränkt zur Verfügung.
Anfang Oktober hat die Cambridge University Library eine größere Menge Katalogdaten unter einer Public-Domain-Lizenz (in diesem Fall die mit der CC0 kompatible Public Domain Dedication and License) veröffentlicht.
Im Oktober haben nun haben auch die Universitätesbibliotheken in Konstanz und Tübingen ihre Daten mit einer CC0-Lizenz versehen.[3]

Darüber hinaus sind sowohl im Südwestdeutschen Bibliotheksverbund als auch im hbz-Verbund weitere Datenfreigaben in Vorbereitung. Wie es in anderen Verbünden konkret aussieht ist unklar. Ich habe allerdings letzte Woche mit Vertretern des Kooperativen Bibliotheksverbundes Berlin-Brandenburg (KOBV) und des Bayerischen Bibliotheksverbundes (BVB) über Linked Open Data in der Bibliothekswelt gesprochen. Auch in diesen Verbünden besteht Interesse an dem Thema und die Resonanz schien mir sehr positiv zu sein. Wie es im GBV, der ja schon im letzten Jahr eine offene Lizenzierung in seinem Strategiepapier (das wohl leider aus dem Web genommen wurde) angekündigt hatte, gerade konkret aussieht, weiß ich nicht. Die Deutsche Nationalbibliothek konnte sich bisher noch nicht durchringen, eine offene Lizenz zu wählen und setzt - nach einigem Hin und Her - weiterhin auf eine Non-Commercial-Lizenzierung, siehe meinen Kommentar beim CKAN-Eintrag der GND-Daten.

Die OKFN Working Group on Open Bibliographic Data

Katalogdaten bilden allerdings nur eine Untermenge aller bibliographischen Daten, insbesondere Artikel aus wissenschaftlichen Zeitschriften werden in den meisten Bibliothekskatalogen nicht hinreichend erfasst. Eine große Menge anderer Akteure beschreibt bibliographische Ressourcen und erstellt Sammlungen bibliographischer Daten. Zu diesen Akteuren gehören:

Verlage,
Buchhändler,
Wissenschaftler,
Online Buch-Communities wie Library Thing
Online-Plattformen zur Quellenverwaltung für Wissenschaftler wie CiteULike, Mendeley, BibSonomy etc.

Die Forderung nach Open Bibliographic Data und Aktivitäten zur Öffnung bibliographischer Daten dürfen sich demnach nicht auf Bibliotheken und Verbünde konzentrieren. Im Februar hat die Open Knowledge Foundation und insbesondere Jonathan Gray die Entstehung einer internationalen Working Group on Open Bibliographic Data angestoßen, die sich für Open Bibliographic Data im allgemeinen einsetzt. Ziel ist es, die offene Lizenzierung Veröffentlichung bibliographischer Daten im Netz - ähnlich wie Open Access und Open Source - als Standard zu etablieren. Diese Initiative stieß auf reges Interesse und es finden sich Menschen aus verschiedenen Ländern - Wissenschaftler, Bibliothekare, Open-Data-Aktivisten, etc.- zusammen. Im Juni habe ich die Koordinierung dieser Arbeitsgruppe übernommen. Es kommt zu regem Austausch auf der Mailingliste der Gruppe und neben dem gemeinsamen Verfassen eines Flyer-Textes zu freien Katalogdaten wurde gerade ein erster Entwurf von Principles on Open Bibliographic Data veröffentlicht, für den wir gerne Rückmeldung, Kommentare und Kritik erhalten.

Darüber hinaus sind Mitglieder der Gruppe an verschiedenen interessanten Open-Bibliographic-Data-Projekten beteiligt. Ich zähle hier jene auf, die mir derzeit bekannt sind [4]:

Peter Murray-Rust, Rufus Pollock (OKFN) und Ben 'O Steen arbeiten in einem vom britischen Joint Informations Systems Committee (JISC) geförderten Projekt namens JISC Open Bibliography.
Thomas Krichel arbeitet an 3lib, einer Sammlung bibliographischer Daten aus verschiedenen Quellen, die dem Dienst AuthorClaim die Datenbasis liefert, der darüberhinaus auf ARIW, eine offene Sammlung internationaler Forschungsinstitutionen, zurückgreift.
Jim Pitman (Berkeley) arbeitet am Projekt Bibliographic Knowledge Network.
Paul Miller und Owen Stephens haben einen sehr interessanten Dienst geschaffen: den Open Bibliographic Data Guide. (Eine deutsche Übersetzung dieses Dienstes wäre sicher eine gute Sache.)
David Shotton - bekannt für seine Arbeiten zum Thema Semantic Publishing - arbeitet an einem weiteren JISC Projekt JISC Open Citations, in dessen Rahmen vor kurzem die SPAR Ontologien für "Semantic Publishing and Referencing" veröffentlicht wurden.
Felix Ostrowski und ich sind gemeinsam mit Anette Seiler für die Linked-Open-Data-Aktivitäten am hbz zuständig.
Verschiedene Mitglieder der Gruppe (Karen Coyle, William Waites, Ross Singer, Ed Summers) sind zudem aktiv in der Linked Library Incubator Group des W3C.

Das war erst der Anfang!

Es ist unschwer zu erkennen, dass das Jahr 2010 ein wichtiges Jahr für Freie Katalogdaten und Open Bibliographic Data im allgemeinen ist. Und wie gesagt: Das war erst der Anfang! Noch in diesem Jahr und in der Zeit danach werden weitere Bibliotheken ihre Daten freigeben und - so ist zu hoffen - auch erste Verlage ihre bibliographischen Daten offen lizenzieren.

Auf die Projekte im Bereich Linked Open Bibliographic Data bin ich in diesem Beitrag nicht eingegangen, wenn auch die Überführung der Daten in webkonforme Standards und die Schaffung erster Endnutzeranwendungen eine wichtige Aufgabe ist, an der in verschiedenen Projekte gearbeitet wird. Schließlich gehört zu Open Data die Publikation der Daten in einem offenen, leicht konsumierbaren Format. Ob MARC und MAB dazu zählen ist sehr zweifelhaft...

Jetzt werden die rechtlichen wie technischen Grundlagen für die zukünftige wissenschaftliche Kommunikationsinfrastruktur im Web gelegt. Wissenschaftliche Bibliotheken und Verbünde in Deutschland und anderswo sollten sich damit auseinandersetzen und diese Entwicklung mit vorantreiben!

[1] Für Einführungstexte in Open Data und Linked Data siehe http://www.uebertext.org/2010/08/drei-artikel-zu-linked-open-data-und.html.

[2] Ein Großteil der freigegeben Katalogdaten ist in CKAN verzeichnet und in der CKAN-Gruppe "Bibliographic Data" gesammelt. Allerdings fehlen noch die Daten aus Konstanz und Tübingen. Falls dies hier jemand aus diesen Institutionen liest, dann hole er/sie das doch bitte nach. Ich kann den Eintrag dann zu der Gruppe hinzufügen. Für einen Überblick siehe auch http://demonstrators.ostephens.com/obd/examples, wo allerdings auch Projekte aufgezählt werden, die (noch) keine offene Lizenz gewählt haben.

[3] Die ursprüngliche Lizenzierung mit einer nicht-offenen Non-Commercial-Lizenz wurde nach kritischen Rückmeldungen in eine Public-Domain-Lizenz umgewandelt.

[4] Siehe auch den zweiten Teil dieses Blogbeitrags von Peter Murray-Rust, in dem er auf einige der Projekte bezugnimmt.

2010-08-24

ZEIT-Artikel zur Akzeptanz von Open Data in Deutschland

Auf ZEIT online ist letzte Woche ein Artikel zu einer forsa‑Umfrage über die gesellschaftliche Akzeptanz von Open Data erschienen. Darin heißt es u.a.:

"Die Ergebnisse dürften die Befürworter zunächst freuen: Insgesamt sprechen sich 68 Prozent der Befragten für eine regelmäßige Veröffentlichung amtlicher und nicht‑personenbezogener Daten durch die Behörden aus. Nur 28 Prozent sind dagegen."

Open Government Data scheint immer mehr auch in Deutschland ein Thema zu werden. (Die USA und Großbritannien sind Deutschland in diesem Bereich einige Jahre voraus.) Der Großteil bibliothekarischer Einrichtungen ist Teil der öffentlichen Verwaltung und sollte sich ‑ auch aus diesem Grund ‑ einmal über Open Data Gedanken machen.

Bei Open Government Data geht es eigentlich in erster Linie um nicht‑personenbezogene Daten, die das Verwaltungshandeln dokumentieren. Ziel ist es, Verwaltung und Regierung transparenter zu machen. Allerdings wurden bisher im Rahmen von Open Government Data nicht nur Daten freigegeben, die das Regierungshandeln transparenter machen, sondern auch nichtadministrative Daten über andere Bereiche, die von öffentlichen Institutionen erstellt werden. In Großbritannien und den USA wurden zum Beispiel topographische Karten und Geodaten über Regierungsbezirke in die Public Domain gestellt, die von entsprechenden Behörden erstellt worden sind, siehe http://www.ordnancesurvey.co.uk/oswebsite/opendata/ und http://www.census.gov/geo/www/tiger/tgrshp2009/tgrshp2009.html. Hier besteht m.E. eine deutliche Parallele zu Katalogdaten, die als
"Landkarten der Literatur" von im öffentlichen Dienst tätigen Bibliothekarinnen und Bibliothekaren erstellt werden. Deshalb könnte man die freigegebenen Bibliothekskatalogdaten zu Recht als erste Welle von Open Government Data in Deutschland bezeichnen...

(Zeit‑Artikel via Netzpolitik. Dies ist der leicht abgewandelte Text einer E-Mail an die Inetbib-Liste.)

2010-08-11

Drei Artikel zu Linked/Open Data und Bibliotheken

In Juli habe ich eine Artikelreihe bestehend aus drei Artikeln zu den Themen Linked Data und Open Data verfasst. Zwei Artikel entstanden in Zusammenarbeit mit Felix Ostrowski. Alle drei Artikel werden im Herbst als Druckfassungen publiziert, die Preprints sind bereits sowohl auf den hbz-Webseiten, als auch bei scribd und E-LIS veröffentlicht.

Hier der Text zur Reihe:

Mit dem Internet und – als dessen wichtigstem Bestandteil – dem World Wide Web formt sich seit einigen Jahrzehnten eine umfassende Publikations- und Kommunikationsplattform aus, auf der zukünftig der Großteil aller Publikation und Kommunikation stattfinden wird. Als eine Erweiterung des bestehenden Webs lässt sich Linked Open Data verstehen. Mit Linked Open Data werden zwei Standards bezeichnet, die die Funktionalität eines Netzes von Daten sichern sollen, indem sie die rechtliche und technische Kompatibilität von Daten im Web garantieren:

Open-Data-Standards sorgen für die rechtliche Basis der Nutzung und Kombination verteilter Daten im Netz.

Linked-Data-Standards sorgen für die technische Kompatibilität zwischen verteilt vorliegenden Daten.

In einer dreiteiligen Artikelreihe über Linked-Open-Data-Aktivitäten am Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz) sollen die rechtliche wie technische Dimension von Linked Open Data erläutert werden und die Notwendigkeit, die Ziele und der Nutzen von Linked Open Bibliographic Data dargelegt werden. Im ersten Teil dieser Reihe über das Was, Warum und Wie von Linked-Open-Data-Aktivitäten am hbz sollen einige Fragen zu Open Data geklärt werden. Er erscheint gedruckt in ProLibris 3/2010. Der zweite Teil – gemeinsam verfasst von Felix Ostrowski und Adrian Pohl – mit dem Schwerpunkt Linked Data erscheint gedruckt in B.I.T. online 3/2010 und der dritte, in dem sich ebenfalls Felix Ostrowski und Adrian Pohl mit der Konzeption und Implementierung einer Open-Data-Infrastruktur befassen, wird gedruckt im Tagungsband der DGI-Konferenz Semantic Web & Linked Data Elemente zukünftiger Informationsinfrastrukturen publiziert.

Die ersten beiden Texte bieten in erster Linie eine deutschsprachige Einführung in die Themen Open Data und Linked Data. Ich hoffe, sie dienen als ein guter Einstieg in diese Thematik.

Im dritten Artikel geht es um die Konzeptionierung einer Infrastruktur für die Publikation, Beschreibung, Aktualisierung und Versionierung von Open Data in der Bibliothekswelt. Der Text stellt vor allem die grundlegenden Fragen heraus, die sich jedeR vor der Implementierung einer solchen Infrastruktur stellen sollte und deutet auch zwei, drei vielversprechende Ansätze an.

Es tut sich ja einiges in Bezug auf Linked Data in der deutschen Bibliothekswelt, wie etwa der kürzlich publizierte Linked-Data-Service der UB Mannheim zeigt. Bleibt zu hoffen, dass allerorten an der Freigabe der Bibliotheksdaten ebenso eifrig gearbeitet wird wie daran, der Welt Linked Data zu präsentieren.

2010-05-30

Fachkommunizieren - aber wie?

Seit Christian Hauschke vor einiger Zeit auf Infobib einen Beitrag zur bibliothekarischen Fachkommunikation veröffentlichte, wird in den Kommentaren und auch im Netbib-Blog von vielen Leuten fleißig diskutiert. In der Diskussion geht es um verschiedene Aspekte der Fachkommunikation, vor allem aber um die Frage:

Wie bekommen wir die Offliner dazu, an der bibliothekarischen Online-Diskussion (in Blogs etc.) teilzunehmen bzw. sie überhaupt erst wahrzunehmen?

Für die, die nicht alles lesen wollen, hat Lambert Heller in einem Kommentar mal die im Hinblick auf diese Frage genannten wichtigsten möglichen Aufgaben und Handlungsbereiche zusammengefasst. Ich stelle diese Ansätze hier nochmals verkürzt dar:

Interessante Online-Texte in die bibliothekarischen Printmedien tragen, um die Online-Welt sichtbarer zu machen und neue Besucher und Mitdiskutierer zu locken.
Online-Artikel (als RSS-Feed) aggregieren, um so einen schnelleren Überblick über die bibliotheksrelevanten Online-Publikationen zu ermöglichen.
Aufbau eines "Overlay-Journals", in dem interessante Veröffentlichungen zu bestimmten Themen ausgesucht und gesammelt werden. Diese Vorauswahl soll den Online-Faulen den Zugriff auf relevante Web-Publikationen erleichtern. Dass ein Overlay-Journal auch gedruckt erscheinen sollte, wird in der Diskussion allerdings von vielen abgelehnt.

Zwar ging die Diskussion hauptsächlich um die oben genannte Frage, allerdings war diese nicht das einzige Thema. Christian Hauschke etwa hatte schon in dem Blogbeitrag, der die ganze Diskussion auslöste, ein grundlegendes Problem beschrieben:

"Egal, wie kommuniziert wird, es sollte diskutiert und nicht nur verkündet werden. Festzustellen ist dazu, dass zu wenig und fast ausschließlich ritualisiert kommuniziert wird. Projektberichte sind ... meist offene Briefe an die Projektgeber ohne größeren Mehrwert für die Fachöffentlichkeit. Die Bibliothekswesen haben immer noch keinen Blog auf offene Kommunikation."

Wann ist Fachkommunikation?

Ich verfolge diese Diskussion, weil auch ich mir eine Fachkommunikation über alle Aspekte der Bibliotheksarbeit wünsche, die den gemeinsamen Lern- und Bildungsprozess bestmöglich vorantreibt und dafür sorgt, dass die Arbeit von Bibliothekarinnen und Bibliothekaren, von Bibliotheken und Verbünden sich sehen lassen kann. [1] Ich möchte hier zunächst versuchen, das Ganze nochmal von der grundlegenden theoretischen Frage aufzurollen: Was macht überhaupt eine gute Fachkommunikation aus?

Auch ich beschränke mich hier - wie die gesamte bisherige Diskussion - auf die öffentlich dokumentierte Kommunikation, d.h. auf veröffentlichte schriftliche Fachtexte. [2] Die mündliche Fachkommunikation wird hier also ausgeklammert, so interessant und relevant sie auch ist. [3]

Ich sehe zwei notwendige Bedingungen erfolgreicher schriftlicher Fachkommunikation:

Zugang zur Fachliteratur
Kritischer Anschluss an bestehende Texte

Zugang

Damit Fachkommunikation stattfinden kann, müssen alle an ihr Beteiligten Zugriff auf die Fachveröffentlichungen haben. (Ich hatte diese Notwendigkeit auch mal in einen Aphorismus gefasst.) Um diesen Zugriff zu garantieren, sollte es keine Preisbarrieren oder technischen Schranken geben, die einen Zugriff durch Interessierte erschweren oder gar verunmöglichen. Kurz: Fachtexte sollten Open Access publiziert werden. Der Ruf nach Open Access ist nichts Neues und wurde auch von verschiedenen Personen in der Diskussion getätigt, weshalb ich das Thema hier nicht weiter auswalzen möchte.

Wichtig ist hier zu erwähnen, dass der Zugang über einen langen Zeitraum hinweg ermöglicht werden muss, denn Fachkommunikation findet u.U. über Jahrzehnte oder gar Jahrhunderte statt. Der Erfolg und Misserfolg onlinebasierter Fachkommunikation ist naturgemäß stark an die Frage nach funktionierenden Mechanismen der Langzeitarchivierung gekoppelt.

Es bleibt nur zu fordern: Öffnet die Postillen und macht sie zu Publikationen, die wirklich frei öffentlich zugänglich sind und zwar für alle und nicht nur für jene, die das nötige Geld oder einen Bibliotheksausweis haben!

Kritischer Anschluss

Ein wesentlicher Bestandteil von Fachkommunikation ist der kritische Anschluss an bestehende Texte. [4] Dies schließt unter anderen folgende Handlungen ein: gründliches Lesen, um einen Text hinreichend zu verstehen; Kommentieren, um die eigene Perspektive ins Spiel zu bringen; Paraphrasieren, um zu zeigen, ob und wie man etwas verstanden hat; Kritisieren, indem man Widersprüche aufweist und Unterscheidungen als nutz-, sinnlos oder diskriminierend herausstellt; zustimmend Verweisen und zusammenfassen, um an bestehende Texte anzuknüpfen und und und.

Was Fachkommunikation nicht ist: ein bloßes Verkünden und Anpreisen der eigenen Erfahrungen, Produkte und Projekte, möglichst allgemein gehalten, um keine Reibungsfläche für kritische Anknüpfungen zu bieten; oder das Zitieren aus anderen Texten, ohne diese gründlich gelesen zu haben. Fachkommunikation heißt auch nicht rechthaberisch oder verächtlich auf andere Texte zu reagieren, sondern den Mitdiskutanten den nötigen Respekt zu zollen.

Es folgt das Desideratum: Knüpft kritisch an Fachtexte an, seien dies Zeitschriftenartikel, Bücher, Blogposts, Mailinglistenbeiträge etc.

Anforderungen an Zeitschriften

Jakob Voß hat im Laufe der Diskussion fünf Forderungen für Fachzeitschriften aufgestellt, die Christian Hauschke um eine weitere wichtige Forderung ergänzte. Ich gebe diese sechs Forderungen hier wieder, weil auch ich sie in diesem Zusammenhang für wesentlich halte und uneingeschränkt unterstütze:

Open Access (d.h. bei gedruckten Artikeln, dass sie zeitgleich online verfügbar sein müssen)

Verlinkbarkeit einzelner Artikel

Archivierung in einem Repository.

RSS-Feed über die einzelnen Artikel und Ausgaben und

Kommentarfunktion (bei Bedarf moderiert).

Möglichst (auch) als HTML veröffentlicht.

Der zweite Punkt - die Forderung nach Verlinkbarkeit - ist in diesem Zusammenhang hervorzuheben, weil Verlinkbarkeit und damit Adressierbarkeit eben notwendige Bedingung ist, um explizit an einen Text anzuknüpfen. Würden sich sämtliche bibliothekarische Fachpublikationen an diese sechs Regeln halten, so hätten wir für die Fachkommunikation zumindest schon mal eine optimale Infrastruktur, die die Forderungen nach Open Access und dauerhafter Anschließbarkeit erfüllt.
Zwar ist die funktionierende technische Infrastruktur notwendige Bedingung von Fachkommunikation, viel wichtiger aber ist eine "Kultur des kritischen Anschlusses". So wie ich das bisher wahrgenommen habe, stehen viele bibliothekatrische "Fach"-Texte nur für sich allein da (sie "verkünden") und beziehen sich allenfalls oberflächlich auf andere Texte. So etwas ist eher als Simulation von Fachkommunikation zu bezeichnen, als dass wirklich fachkommuniziert wird.

Dass eine fruchtbare Kommunikationskultur entsteht, gefördert und gepflegt wird, dafür muss letztlich jede Profession selbst sorgen...

[1] Im Übrigen finde ich es sehr interessant, dass auf einmal in bibliothekarischen Kreisen über Fachkommunikation gesprochen wird, sobald es um das eigene Fach geht. Ansonsten wird ja eher über Fachinformation gesprochen, die (z.B. in Fachzeitschriften) einfach vorhanden ist und nur gesammelt, erschlossen und zugänglich gemacht werden muss. Zur - hier nicht thematisierten - Rolle der Bibliothek als Ermöglicherin von Kommunikation hoffentlich irgendwann mehr...

[2] Ein Fachtext wird nicht durch seinen Publikationsort definiert, d.h. ein Text wird nicht dadurch zum Fachtext, weil er in einer "Fach"zeitschrift erscheint (und in der Tat gibt es in solchen Zeitschriften viele Texte, die ich nicht als Fachtexte bezeichnen würde). Meines Erachtens definiert sich ein Fachtext über seinen Inhalt und seine Form sowie über seine öffentliche Zugänglichkeit und Adressierbarkeit. Es gibt eine Menge Blog- wie Mailinglistenbeiträge, die ich als Fachtexte klassifizieren würde.

[3] Ich möchte nur einmal ausdrücklich das BibCamp loben, dass - im Vergleich zu den klassisch durchorganisierten formellen Tagungen mit ihren so langen wie langweiligen Frontalveranstaltungen - in meinen Augen eine ideale informelle Plattform für eine spannende und fruchtbare mündliche Fachkommunikation darstellt. Am Beispiel des BibCamps müssen sich andere Versuche organisierter persönlicher Fachkommunikation messen lassen.

[4] Da es sich um Fachkommunikation handelt, sollten diese Anschlüsse natürlich durch entsprechende Verweise explizit gemacht werden, was ja online der Hyperlink erleichtert, während man offline noch die gute alte Fußnote setzen muss. Und damit diese Links auch in Zukunft verfolgt werden können, ist es wichtig, dass die Adressen der referenzierten Texte stabil sind.

2010-04-30

Datendefinition die Dritte

Dann antworte ich endlich mal auf Jakobs Replik. Erstmal schönen Dank für diese schnelle Antwort, die vielen Verweise und Informationen.

Der Absatz "Daten als Strukturen" in Jakobs Text scheint mir ganz gut das wiederzugeben, was mir in dieser Diskussion wichtig ist und er zeigt, dass wir womöglich wirklich gar nicht so weit auseinanderliegen. In dieser Diskussion geht es ja wohlgemerkt nicht um unseren alltäglichen Gebrauch des Ausdrucks 'Daten', sondern darum, ein theoretisches Konzept in Abgrenzung etwa zum Informationsbegriff zu fassen. [1] Ich gehe hier nun eher indirekt auf Jakobs Replik ein, indem ich versuche, meine Grundgedanken klarer zu fassen.

Daten: Speicherbar und allographisch

Zwei grundlegende Eigenschaften von Daten, die es Wert sind hervorgehoben zu werden, sind:

Daten können gespeichert werden, d.h. sie existieren in einem persistenten Medium.
Daten können kopiert, vervielfältigt werden, wobei sich "Original" und Kopien nicht voneinander unterscheiden. Diese Eigenschaft wird von Nelson Goodman in Sprachen der Kunst als allographisch - im Unterschied zu autographisch - bezeichnet. [2]

Wenn wir übereinstimmen, dass dies notwendige Bedingungen von Daten sind, ergibt sich schon eine Menge daraus. Mit dem ersten Punkt werden etwa die orale Sprache oder die vorgetragene Musik als Träger von Daten ausgeschlossen, denn es handelt sich bei beiden um vorübergehende, verschwindende Medien. Mit der zweiten Bedingung fallen auch Gemälde oder Schallplatten als Träger von Daten aus.
Der grundlegende Punkt, bei dem eher Differenzen entstehen können, ist folgender: Verstehen wir diese zwei Eigenschaften auch als hinreichende Bedingungen von Daten, so hat die An- oder Abwesenheit von Information keinen Einfluss auf ihren Status als Daten. Wir haben es folgerichtig mit Daten auch dann zu tun, wenn sie falsche oder gar keine Information speichern. [3]

Ich würde allerdings nicht behaupten, dass nicht speicher-bare oder nicht-allographische Medien wie die gesprochene Sprache oder die Malerei keine Information enthalten können, wie es Jakob mit der Aussage "Ohne Daten kann es keine Informationen geben" tut. Information kann es sehr wohl ohne Daten in dem hier verstandenen Sinn geben.

Daten-Business oder Content-Business?

Der Unterschied zwischen Daten als syntaktisch geordneter Menge und der Interpretation von Daten (die sicher auch "Information" ins Spiel bringt) wird vielleicht mit diesen zwei Beispielen klar:

1. Der Autor arbeitet auf der semantischen Ebene, er schreibt Worte, Texte. Der Drucker ist im Datengeschäft, er druckt Buchstaben, Wörter, die Textur, er druckt Bücher, Broschüren usw.

2. Solange ich mit dem Computer speichere, konvertiere, etwas in ein Diagramm überführe etc. operiere ich auf der Datenebene. Sobald ich anfange Dubletten zu bereinigen, Falschangaben zu korrigieren, Daten zu ergänzen bin ich auf der semantischen Ebene und befasse mich mit Zeichen (im Sinne eines "zweiseitigen" Zeichenbegriffes).

Beispiel RDF

RDF-Daten ist erstmal alles, was der abstrakten RDF-Syntax folgt, völlig unabhängig davon, dass die URIs womöglich auf irgendwelche realen Entitäten referenzieren und unabhängig davon, ob Literale als Text von Menschen gelesen werden können.
Dass wir mit realen RDF-Daten etwas tun, sie zu bestimmten oder weniger bestimmten Zwecken erschaffen, sie gebrauchen ist natürlich klar. Diese Schnittstelle zwischen Daten, Syntax und Bedeutung scheint ja dein Dissertationsthema (oder nur ein Teil davon?) zu sein, Jakob. Da wird es sicher erst richtig spannend und zweifellos spielen Formate und Modelle hier eine große Rolle (und im Bereich Linked Data die Weltmodelle, die wir Ontologien nennen). Auf der Ebene der Daten wird aber eben von dieser Bedeutungsebene abstrahiert, folgt man den oben genannten zwei Bedingungen für Daten. Die Bedeutung eines Zeichens hingegen ist an seinen Gebrauch gekoppelt und somit eine Analyse der "Beziehung zwischen Daten, Wohlgeformtkeit [sic] und Bedeutung in der Praxis" an eine Untersuchung eben dieser Praktiken. Es müsste also geschaut werden, welche menschlichen Handlungen mit diesen Daten verbunden sind.

Vielen Dank an Felix, mit dem ich (wie sonst auch) viel über die Problematik diskutiert habe. Er hat zwar keine Tasten getippt und Daten produziert aber viel zum Verständnisfortschritt in dem Bereich beigetragen.

[1] Alltagssprachlich haben wir einen viel weiteren Datenbegriff als ich hier beschreibe. Wir reden zum Beispiel von "hochwertigen" und "schlechten" Daten und meinen meistens den Informationsgehalt.

[2] Vgl. Sprachen der Kunst, S. 113. Siehe auch eine alte Hausarbeit von mir, S.17. (Ich werde die bei Gelegenheit nochmal auf scribd hochladen, weil GRIN Geld für einen PDF-Download verlangt. Update: Habe dies nun hier getan.)

[3] Ein Beispiel mag hier erhellend sein: Man wusste zwar lange, dass die ägyptischen Hieroglyphen einst als Zeichen gebraucht wurden, also Bedeutung trugen, konnte aber zunächst nicht viel mehr als auf Datenebene mit ihnen operieren, d.h. den Zeichenvorrat, die Menge der Typen extrahieren, gewisse Regelmäßigkeiten erkennen etc. Erst der Stein von Rosetta ermöglichte es, sich auf die semantische Ebene der Hieroglyphen zu begeben.

2010-04-19

Von der Motivation im öffentlichen Dienst

Im Management-Modul beim MALIS-Studium habe ich im Februar einen 6-seitigenText zum Thema Motivation verfasst, den ich soeben hier hochgeladen habe.

Er lehnt sich stark an das im Januar erschienene und sehr empfehlenswerte Buch "Drive. The Surprising Truth About What Motivates Us" von Daniel Pink an und fasst die wichtigsten Gedanken daraus zusammen. Zur Appetitanregung, hier zwei Zitate aus Pinks Buch:

"Too many organizations – not just companies, but governments and nonprofits as well – still operate from assumptions about human potential and individual performance that are outdated, unexamined, and rooted more in folklore than in science."
- Drive, S. 9.

"In short, management isn't the solution; it's the problem. (...) This era doesn't call for better management. It calls for a renaissance of selfdirection."
- Drive, S. 92.

Wann sind Daten?

Jakob Voß hat eine sehr schöne, dichte Präsentation mit dem Titel "Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte" auf Slideshare veröffentlicht. Bei Jakobs Vortrag wurde dem Auditorium sicher nicht langweilig. Das Reinschauen lohnt sich.

Jakobs Datenbegriff

Mich hat besonders Jakobs Definition von "Daten" (auf den Folien 5 und 9) zum Nachdenken gebracht:

"Daten: Strukturen aus unterscheidbare[n] Zeichen, die aufgrund von Vereinbarungen Informationen darstellen"

Da keine Referenz angegeben ist, denke ich dass diese Definition in dieser Form von Jakob selbst stammt. Da ich mich desöfteren frage, wie sich der Datenbegriff am besten fassen lässt [1], nehme ich das gerne zum Anlass, hier meinen Gedanken freien Lauf zu lassen.

Offensichtlich benutzt Jakob hier "Zeichen" im Sinne von "Zeichenkörper", denn Information und damit bedeutungstragend werden die Zeichen ja erst "aufgrund von Vereinbarungen". Das lässt sich dann so umformulieren:

Daten sind Strukturen aus unterscheidbaren Zeichenkörpern,
die "aufgrund von Vereinbarungen Informationen darstellen".

Kritik

Hier vier Aspekte der Definition, mit denen ich Probleme habe:

Es ist nicht klar, worauf sich das Relativpronomen 'die' bezieht: auf 'Strukturen' oder auf 'Zeichen(körpern)'.
Der zweite Teilsatz ist mir einfach zu unklar. Mir erscheint der Informationsbegriff im Alltagsgebrauch klarer als in den Bibliotheks- und Informationswissenschaften (Zumindest kommt man im Alltag mit einem unklaren Konzept klar, während so etwas der wissenschaftlichen Arbeit nicht gut tut.) Aber auch, was sich hinter "Vereinbarungen" verbirgt, ist alles andere als klar.
Nach meinem Dafürhalten - und darauf werde ich unten näher eingehen -, stellen Daten keine Information dar, wenn sie auch gespeicherte Information sein mögen. Sprechen wir von Daten, so ist sozusagen die Bedeutung weggekürzt und wir befinden uns allein auf der syntaktischen Ebene. Folgerichtig würde ich den zweiten Spiegelstrich bei einer Definition von "Daten" erstmal einfach wegstreichen um der Sache näher zu kommen.
Mir scheint außerdem - aus Punkt drei folgend - der Ausdruck 'Zeichen'/'Zeichenkörper' hier nicht der passende zu sein. Ein Zeichenkörper ist die materielle Seite des Zeichens. Ein Zeichen hat Bedeutung, weshalb Buchstaben keine Zeichenkörper haben/sind, weil wir - in der Regel - nur Folgen von Buchstaben,nämlich Wörtern und Phrasen, Bedeutung zuweisen und nicht einzelnen Buchstaben. Buchstaben befinden sich eben auf der subsemantischen Ebene. Da ich aber denke, dass sich der Datenbegriff allein auf die syntaktische Ebene bezieht, sollte von den atomaren Einheiten der Syntax , sprich: Buchstaben und Zahlen oder im Bitzeitalter: Bits, gesprochen werden. Diese sind nun eben keine Zeichenkörper, sondern eher als Token oder Inskriptionen o.ä. zu bezeichnen.

Ein rein syntaktischer Ansatz

Daten sind für mich in erster Linie eine Menge unterschiedener und unterscheidbarer, syntaktisch strukturierter Token, die gespeichert sind und transportiert und kopiert werden können. Syntax in diesem Sinne setzt Digitalität (d.h. eine endliche Menge klar abgegrenzter Typen) voraus und damit ist Digitalität auch Voraussetzung für Daten. Es folgt, dass neben elektronisch vorliegenden Daten, Tabellen usw. auch geschriebene Bücher und Partituren Daten sind. Aber Gemälde oder aufgeführte Musikstücke zählen demnach nicht dazu
Oder: Digitale Medien, allen voran die Schrift, ermöglichen erst die Existenz von Daten. Denn erst die Schrift ermöglicht überhaupt eine Unterscheidung zwischen Zeicheninhalt und Zeichenkörper und ist somit notwendige Bedingung zur Unterscheidung von Syntax und Semantik.

Text : Textur = Information : Daten

Diese - zugegebenermaßen rudimentär dargelegte - Sicht auf Daten unterschlägt vollständig die Koppelung von Daten an eine Bedeutung, an den Gebrauch, den wir von ihnen machen. Diese Verbindung ist es, die Jakob im zweiten Teilsatz seiner Definition anspricht, denn Daten entstehen ja für bestimmte Zwecke und somit nicht im bedeutungsleeren Raum. Im Folgenden versuche ich, diese Bedeutungsdimension mit ins Spiel zu bringen, ohne die dargelegte syntaxzentrierte Sicht aufzuweichen.

Ich denke, Daten und Information lassen sich mit Gewinn in Analogie zu Christian Stetters Unterscheidung von Text und Textur (im Sinne von Oberflächenbeschaffenheit) differenzieren. [2] Stetter schreibt in "Schrift und Sprache" auf S. 294:

"Text ist dasjenige, was geschrieben und verstanden wird, die Textur das, was geschrieben ist und gelesen wird."

Und weiter heißt es: "Zwar verstehen wir 'normalerweise' unter Lesen einen Vorgang, der das Verstehen des Gelesenen impliziert, aber man kann durchaus etwas lesen, ohne es zu verstehen." Und ist es nicht genau das, was Computer machen: lesen ohne zu verstehen, über der Textur operieren, ohne den Text, die Semantik auch nur zu berühren? [3]

Hier mein Versuch, Daten und Information analog zu Text und Textur zu unterscheiden:

Information ist, was gespeichert und aufgenommen wird, Daten, was gespeichert ist und ausgelesen wird.

"Aufnehmen" hier im Sinne von "erfassen" oder "einordnen" stellt eine genuin menschliche Handlung dar. Speichern geschieht auf Trägermedien (Festplatte, Papier) und Auslesen mittels Maschinen bzw. auch durch Menschen, die "etwas lesen, ohne es zu verstehen."

Um auf Jakobs Definition zurückzukommen; diese würde dementsprechend etwa folgendermaßen umformuliert werden:

"Daten: Syntaktisch geordnete Mengen von Token, in denen Information gespeichert ist"

Digitalität und Information

So betrachtet basieren Daten auf Information, sie sind Ergebnis der Speicherung von Information in digitalen Medien. Damit ist für den Informationsbegriff freilich wenig gewonnen. Denn Information ist nicht auf das beschränkt, was in einem digitalen Medium gespeichert wird. Gemälde, Piktogramme, die Wahrnehmung oder selbst die gesprochene Sprache können nach allgemeiner Auffassung auch Information beinhalten, dies gilt nicht nur für digitale Medien wie Bits und Bytes, die Schrift oder Notationssysteme.

[1] So wie mich auch der Wissens- und der Informationsbegriff nicht loslassen.

[2] So wie ich ganz allgemein denke, dass die Arbeiten von Stetter mit großem Gewinn für Überlegungen zur Zukunft der Wissenschaften, der Bibliotheken und des Internet gelesen werden können. Der Aachener Linguistik-Professor Christian Stetter, bei dem ich in meinem Erststudium viel studiert habe, ist nicht nur eine Kapazität was Schriftphilosophie und die Grundlagen der Linguistik angeht, sondern übrigens auch einer der Gründer und Geschäftsführer von semantics, die mit der Visual Library Software für die die Erschließung von Digitalisaten und deren Präsentation im Internet anbieten. Verschiedene Projekte nutzen diese Software, z.B die Digitalisierungsprojekte an der Universität Halle. Kay Heiligenhaus, ebenfalls ein ehemaliger Student Stetters und Mitbegründer von semantics, ist wohl eher für das operative Geschäft zuständig. Er beteiligt sich desöfteren an Diskussionen auf Inetbib und hat einen meiner Inetbib-Favorites geschrieben.

[3] Aus diesem Grund ist auch der Ausdruck "Semantic Web" so irreführend, denn auch im Semantic Web "verstehen" Maschinen nichts.

2010-04-15

OCLCs Policy und die Public Domain

Vor gut einer Woche hat OCLC den erneuten Versuch gestartet, eine Policy für die WorldCat-Daten zustande zu kriegen. Beim ersten Mal (ab Ende 2008) versuchte OCLC, eine restriktive Policy ohne Beteiligung der OCLC-Mitglieder durchzukriegen, was an der massiven Kritik aus der Bibliothekswelt gescheitert ist. (Zum ersten Anlauf siehe meinen Artikel im Bibliotheksdienst und die umfangreiche Quellensammlung im code4lib-Wiki.)

Nun läuft das Ganze transparenter ab, der derzeitige Entwurf ist klar als Draft for Community Review gekennzeichnet, es gibt ein Community Forum, auf dem der für die Policy zuständige "Record Use Policy Council" aufkommende Fragen zur Policy beantwortet und eine stetig aktualisierte FAQ-Seite wurde eingerichtet. [1] Bis Ende Mai nimmt OCLC Feedback zum Entwurf entgegen, das dann in den endgültigen Entwurf einfließen soll.

Unterschiede zum ersten Anlauf

Zunächst sollen hier die wichtigsten inhaltlichen Unterschiede zum ersten Policy-Entwurf erläutert werden.

Ausklammern der Frage des Besitzes einzelner Datensätze
Während der erste Policy-Angang noch den Verusch unternahm, möglichst jede Nutzung auch einzelner Datensätze zu regeln. hat sich OCLC nun der Realität des Urheberrechts (dass man eben nur auf ganze "Datenbanken" oder substanzielle Teile davon ein Urheberrecht haben kann) angepasst und erhebt allein Anspruch auf die gesamte Datenbank:

"OCLC does claim copyright rights in WorldCat as a compilation. In accordance with US copyright law, those rights are based on OCLC's substantial intellectual contribution to WorldCat as a whole, including OCLC’s selection, arrangement, and coordination of the material in WorldCat".
- Aus einem Kommentar des Record Use Policy Counsel

Kein rechtliches Dokument
Während der erste Policy-Entwurf noch den Anschein machte, Teil eines privatrechtlichen Vertrages und somit rechlich durchsetzbar zu sein, ist der aktuelle Entwurf eher eine Richtlinie oder wie Jennifer Younger sagt: "It's very much a proposal for a code of good practice".

Mitglieder, die sich WorldCat-Daten auf eine Art und Weise nutzen wollen, die nicht der Policy entspricht, erwarten also keine juristischen Konsequenzen. Nichtsdestotrotz müssen sie sich mit OCLC auseinandersetzen und wir wissen ja, dass OCLC noch vor kurzem bereit war, auf ein langjähriges Mitglied erheblichen Druck auszuüben. Im Policy-Entwurf heißt es:

"If a particular use is determined to not be covered, OCLC and the member will seek a mutually agreeable resolution of the matter. If, after six months, no such resolution has been reached, OCLC will refer the matter to the OCLC Global Council for prompt advice on how to proceed."
Draft-Policy, Abschnitt 5

Rechte und Pflichten statt klare Nutzungsvorgaben
Josh Hadro schreibt im LibraryJournal:

"The new document delineates the record use rights and responsibilities of OCLC contributing members, in contrast to the previous version’s more abstract focus on the details of use and transfer of WorldCat records."

Dies ist im Grunde die Konsequenz aus den ersten beiden genannten Unterschieden: Es geht nicht mehr um klare, juristische Vorgaben für die Nutzung auch kleiner Teile der WorldCat-Datenbank. Vielmehr werden allgemeiner die Rechte und Pflichten der OCLC-Mitglieder abgesteckt, wenn es um den Umgang mit größeren Teilen der Datenbank geht.

Kein Open Data mit OCLC

OCLC hat sich in dem Policy-Entwurf klar dagegen ausgesprochen die WorldCat-Daten als öffentliches Gut zu betrachten und die Daten in die Public Domain zu geben. Die Frage, ob OCLC die Daten als öffentliches Gut oder vielmehr als Klubgut betrachtet, beantwortet der Record Use Policy Council eindeutig: WorldCat sei ein Klubgut. Der Council argumentiert gegen die Übertragung des WorldCat in die Public Domain und Argumente wie "Was öffentlich finanziert wurde, sollte ein öffentliches Gut sein." mit dem Trittbrettfahrerargument:

"[W]e have determined that WorldCat should not be “a public good” in the economic sense.
“Public goods” have the characteristic that once provided for some, they can be fully enjoyed by all (think of the highways). This characteristic gives rise to what is known in economics as the “free rider problem.” Once a public good is made available, there is no feasible way to exclude anyone from receiving its benefits, and because of this the incentive to contribute toward the cost of providing the good declines, and there is a strong incentive to “free ride” on the benefits conferred on all."

Kurz: Wenn der WorldCat freigegeben würde, würden aus zahlenden Mitgliedern plötzlich parasitäre Nicht-Mitglieder werden. Dann werden düstere Szenarien beschworen, was passieren würde, wenn der WorldCat in die Public Domain gestellt würde:

"Consider what would happen if WorldCat (or a significant portion of it) were released into the public domain: in transferring large swathes of WorldCat records to non-member organizations, members in effect would be transferring the cooperative’s chief asset to organizations with no obligation to invest in it. Our analysis suggests that this would increase free riding, diminish the incentive to be a member, and eventually compromise the economic viability of the cooperative. The utility of the database would also be compromised as WorldCat fragments, resulting in a less comprehensive record supply, scattering efforts at collaborative knowledge organization, raising the costs of resource sharing, and reducing the global discoverability and visibility of members’ collections. "
- Aus einem Kommentar des Record Use Policy Counsel

Ich möchte die Argumente hier einmal im einzelnen anschauen.

In transferring large swathes of WorldCat records to non-member organizations, members in effect would be transferring the cooperative’s chief asset to organizations with no obligation to invest in it. Diese Aussage mag zutreffen, wenn Investieren allein als eine monetäre Handlung verstanden wird. Wahrscheinlicher ist, dass diese Organisationen eher eine Menge Arbeit in die Aufwertung der Daten durch Korrekturen und Ergänzung investieren. Die Ergebnisse dieser Arbeit können dann in den WorldCat zurückfließen und voilà: Der WorldCat gewinnt durch Open Data(wie jede andere bibliothekarische Einrichtung auch), wenn auch das Unternehmen OCLC kein Geld damit verdient. (Absurderweise müssen bisher Bibliotheken zahlen, wenn sie den WorldCat vergrößern und ihre Daten hochladen.)
Our analysis suggests that this would increase free riding, diminish the incentive to be a member, and eventually compromise the economic viability of the cooperative. Dem mag ich nicht widersprechen. Die Kooperative mag darunter leiden, wenn OCLC nicht beginnt, ihre Existenz durch andere nützliche Dienste zu rechtfertigen. Das könnten etwa Forschungsarbeit oder auf den freien Daten aufbauende Dienstleistungen (z.B. cloudbasierte Bibliothekssysteme) sein. Allerdings heißt die Schwächung der Kooperative noch lange nicht, dass der WorldCat und die darin enthaltenen Daten darunter leiden würden, auch wenn "the economic viability of the cooperative" in Gefahr geriete. Worum geht es also: Um WorldCat oder um das Wirtschaftsunternehmen OCLC?
The utility of the database would also be compromised as WorldCat fragments, resulting in a less comprehensive record supply, scattering efforts at collaborative knowledge organization, raising the costs of resource sharing, and reducing the global discoverability and visibility of members’ collections. Die Damen und Herren bei OCLC haben doch sicher auch schon von Linked Open Data gehört. Eine Zukunft mit Linked Open Data könnte eben eine dezentrale Pflege bibliographischer Daten ermöglichen, die gleichzeitig den Aufbau zentralen Recherchedatenbanken und eine globale Recherche erleichtert. Think future, OCLC! Ich dachte, du seist innovativ, dann entwickle doch mal diese völlig neue Zukunft mit. Ich verstehe ja, dass es schwierig ist auf Linked Open Data zu setzen, wenn man mit restricted data einen Großteil seiner Einnahmen macht. Zu viel Beharrungsvermögen wird sich aber langfristig sicher nicht auszahlen...

Konsequenterweise hat der Record Use Policy Council auf eine Anfrage von mir wie folgt geantwortet:

"We feel that re-licensing a member library catalog containing records extracted from WorldCat (as Adrian suggests in his comment to our blog) under a Public Domain and Dedication License (http://www.opendatacommons.org/licenses/pddl/1.0/ would violate the intent of the draft policy, because by definition such a step makes that portion of WorldCat a “public good.” The Creative Commons Zero license (http://creativecommons.org/publicdomain/zero/1.0/) would have the same effect. In both cases, subsequent users and transferors of the data would have no restrictions or requirements whatever. For the reasons stated in our long comments above, if enough members did this, it would diminish the long-term viability and utility of WorldCat to the OCLC cooperative."
- Aus einem anderen Kommentar des Record Use Policy Counsel

Ob eine Open-Data-Praxis "would diminish the long-term viability and utility of WorldCat to the OCLC cooperative" habe ich oben schon bezweifelt. Die Mitglieder würden m.E. von einer solchen Praxis profitieren, allein das Unternehmen OCLC müsste sich ein neues Geschäftsmodell überlegen.
Mir stellt sich in diesem Zusammenhang allerdings die Frage, ob OCLCs Ächtung einer Datenfreigabe durch Mitgliedsbibliotheken rechtlich haltbar ist. Machen einzelne Bibliotheken mit ihren lokalen Katalogen nicht das gleiche wie OCLC mit dem WorldCat, gibt es nicht auch eine "substantial intellectual contribution" zur lokalen Datenbank als ganzer, "including [the library's] selection, arrangement, and coordination of the material in [its local catalog]"? Und ergibt sich daraus nicht ein Urheberrechtsanspruch der Mitglieder auf ihre lokalen Datenbanken, so dass sie damit tun und lassen können, was sie wollen? Kurz: Es spricht einiges dafür, dass genauso wie OCLC ein Urheberrecht auf den WorldCat als Gesamtheit hat, jede Mitgliedsbibliothek ein Urheberrecht auf ihre lokalen Datenbanken hat.

Zwei grundlegende Widersprüche

Josh Hadro benennt im LibraryJournal einen Wiederspruch:

"The policy's stated intent describes two linked but separate goals, which some critics say are in tension with each other: 'to encourage the widespread use of WorldCat bibliographic data while also supporting the ongoing and long-term viability and utility of WorldCat and WorldCat-based services such as resource sharing, cataloging, and discovery.'"

Mir scheint, es gibt zwei weitere erklärte Ziele OCLCs, die sich nicht unter einen Hut bringen lassen: OCLC möchte sowohl dem Wohl der einzelnen Mitglieder als auch dem Wohl der Kooperative, zu der das Unternehmen OCLC gehört (siehe das Glossar), dienen:

“It is the members of the cooperative who finally support the cooperative,” she said. “We need to look at their interest first, because they’re the long term caretakers. We want any use made of WorldCat data to benefit that cooperative.”
- Karen Calhoun im Library-Journal-Artikel

Es scheint, als würden derzeit OCLCs wirtschaftliche Ziele mit den bibliothekarischen Zielen der Mitgliedsinstitutionen im Widerspruch stehen. Dieser Widerspruch muss aufgelöst werden und ich hoffe, am Ende wird die Public Domain und die Bibliothekswelt als Ganzes davon profitieren und nicht ein Unternehmen sein Monopol gesichert haben.

[1] Leider verweisen unheimlich viele "Antworten" auf der FAQ-Seite darauf, dass bestimmte Nutzungen der Daten "consistent with OCLC member community norms, OCLC’s public purpose and this policy’s intent" sein sollten. Das nennt man dann wohl eine Zirkeldefinition, wenn ein Dokument, das ein anderes erklären soll, sich wiederum auf das zu erklärende Dokument stützt. Der Nutzen ist auf jeden Fall zweifelhaft.

2010-03-25

Dimensionen von Open Bibliographic Data

Seit der gemeinsamen Publikation von Katalogrohdaten duch Kölner Bibliotheken, das Landesbibliothekszentrum Rheinland-Pfalz und das hbz mache ich mir Gedanken darüber, welche Implikationen dieser Schritt für die zukünftige Arbeit von Verbünden und Bibliotheken mit sich bringen könnte.

Natürlich war uns im hbz der Hintergrund und der vornehmliche Zweck einer Datenfreigabe klar: Ziel war und ist es, die Sichtbarkeit und den Nutzen von Katalogdaten im Internet zu maximieren, indem wir die Daten in das Linked-Data-Netz migrieren [1]. Uns wurde bei der Beschäftigung mit Linked Data schnell deutlich, dass der erste notwendige Schritt, um dieses Ziel zu erreichen ein politisch-rechtlicher ist, dass wir eben zunächst die Daten gemeinfrei machen sollten. [2] Open Data ist eine wichtige Voraussetzung, um Linked Data praktikabel und erfolgreich umsetzen zu können.

Die Reaktionen auf diese Open-Data-Initiative, die vielen Gespräche auf dem Bibliothekskongress mit geschätzten Kolleginnen und Kollegen sowie der Kontakt mit Journalist/innen haben mir mehr und mehr die vielschichtigen Implikationen einer konsequenten und verbreiteten Freigabe von Katalogdaten vor Augen geführt, die ich hier erläutern möchte.

Vier Dimensionen einer Open-Data-Praxis

Ich werde im Folgenden vier Dimensionen von Linked-Open-Bibliographic-Data unterscheiden, vier Bereiche der Arbeit von Bibliotheken und Verbünden, die mit einer breiten Annahme der Open-Data-Praxis einigen Veränderungen unterliegen werden. Wie das bei einer solchen Kategorisierung so ist, überschneiden sich die Dimensionen und gehen in einander über. Ich würde mich über Kommentare und Ergänzungen freuen.

1. Die interne Dimension: Konsequenzen für die Bibliothekswelt

Für Bibliotheken, Verbünde und alle anderen Organisationen, die Metadaten produzieren, nutzen, kaufen, verkaufen oder aggregieren bringt die weite Verbreitung einer Open-Data-Praxis weitreichende Konsequenzen mit sich. Auf der Basis freier Katalogdaten könnten Bibliotheken eine Umwelt erschaffen, in der die relativ einfache Nachnutzung großer Mengen von Daten (z.B. bei der Katalogisierung aber auch bei der Anreicherung eines Katalogs mit Schlagwörtern und externen Verweisen) ohne Kosten für die Daten selbst kein Problem wäre.

Für die etablierten Fremddatenlieferanten, die bislang mit Datendiensten Gewinne erwirtschaften, verlangt eine solche Praxis natürlich, ihr somit brüchig werdendes Geschäftsmodell grundlegend zu überdenken und vorausschauend neue Dienste zu entwickeln. Die Deutsche Nationalbibliothek (DNB) ist hier sehr fortschrittlich und hat die Zeichen der Zeit erkannt. In Kürze soll die Personennamendatei (hoffentlich mit einer Public-Domain-Lizenz versehen) als Linked-Open-Data veröffentlicht werden und auch die anderen Normdateien sowie die Titeldaten sollen folgen. Dies bedeutet, dass die DNB mittel- bis langfristig über kostenpflichtige Datendienste keine Gelder mehr erwirtschaften wird und sich die somit fehlenden Einnahmen anderswo holen muss. [3] Man darf gespannt sein, wie die DNB ihr Geschäftsmodell anpassen wird. Auch darf man hoffen, dass andere Fremddatenanbieter diesem Beispiel folgen werden, indem auch sie ihre Geschäftsmodelle überdenken und sich der Open-Data-Bewegung nicht verschließen oder sie gar bekämpfen.

2. Die externe Dimension: Der Nutzen freier Katalogdaten außerhalb der Bibliothekswelt

Auch außerhalb der traditionellen Grenzen der Bibliothekswelt wird eine Open-Data-Praxis einiges verändern. Die deutschen Wikipedianer sind hocherfreut über diesen ersten Schritt zur Öffnung der Bibliothekskataloge. Sie haben am Freitag direkt begonnen, die freien Rohdaten in ihre Dienste zu integrieren. Weitere Dienste wie die Open Library können die Daten genauso nachnutzen.

Einen großen Nutzen von freien bibliographischen Daten sehe ich auch für Wissenschaftler aus verschiedenen Bereichen, seien es Literatur-, Medienwissenschaftler oder Wissenschaftshistoriker. Ein großer, frei zu bearbeitender Korpus von bibliographischen Daten ermöglicht etwa Forschungsprojekte über das Publikationsverhalten, die Publikationsformen und die Inhalte verschiedener Bereiche von Wissenschaft und Literatur. Bibliographische Daten würden dadurch gewissermaßen ihres ursprünglichen Zwecks entfremdet als Forschungsdaten einer neuen Bestimmung zugeführt.

Darüber hinaus gibt es sicher unzählige andere nützliche Dinge, die mit bibliographischen Daten gemacht werden können, die wir uns jetzt aber noch gar nicht vorstellen können.

3. Die systemische Dimension: Öffnung des Bibliothekssystems

Es zeigt sich, dass eine Öffnung der Katalogdaten gleichzeitig eine Öffnung des Bibliothekssystems mit sich bringt. Spätestens sobald andere Organisationen wie die Wikipedia oder das Internet Archive beginnen Katalogdaten nachzunutzen und anzureichern, entsteht fast automatisch eine Kooperation mit diesen Gruppen. Denn will man die Nachnutzung der Daten maximieren, so bleibt ein Austausch über Formate und Katalogisierungspraktiken nicht aus. Auch könnten und sollten Bibliotheken und Verbünde die Ergänzungen und Korrekturen, die beispielsweise von Wikipedianern gemacht werden, in ihre Kataloge zurückfließen lassen. Es lassen sich auch gemeinsame neue Projekte auf Basis der Daten vorstellen. Die Nabelschau des Bibliothekswesens wird also endlich ihrem Ende entgegengehen.

Mit anderen Worten: Die Abgrenzung zwischen einer Bibliothekswelt und dieser Welt externen Organisationen, die ich in den ersten beiden Punkten vollzogen habe, wird mit der Verbreitung einer Open-Data-Praxis in der Bibliothekswelt hinfällig werden bzw. die Bibliothekswelt wird um einige neue Bereiche vergrößern.

4. Die technologische Dimension: Am Semantic Web mitweben

Open Data dient als bestmögliche rechtliche Grundlage dafür, Daten im Linked-Data-Netz zu verweben. Die Daten in unseren Katalogen basieren auf Standards für die Speicherung von Daten aus den 1970er Jahren (MAB in Deutschland und MARC im internationalen Kontext). Damals wurden die Daten noch auf Magnetbändern gespeichert. Diese Standards sind nur für wenige Menschen innerhalb der Bibliothekswelt vollkommen verständlich und somit von anderen nichtbibliothekarischen Organisationen nur sehr schwierig nachnutzbar. Zudem sind komplexe Abfragen über diese Daten nicht möglich. Struktur und Inhalt einiger MAB-Felder ähneln oft eher einem Prosatext als wohlstrukturierten Daten. Sobald man sich näher mit der Materie auseinandersetzt wird klar, dass wir die Arbeit auf uns nehmen müssen, die Inhalte der Kataloge in wohl strukturierte, standardisierte und somit durch andere auch außerhalb der Bibliotheskwelt nachnutzbare Formate zu migrieren.

Eben eine solche Anstrengung wird gerade in vielen anderen Bereichen unternommen [4], wo Daten auf Vokabulare gemappt werden, die die Überführung der Daten in das Datenmodell RDF (Resource Description Framework) erlauben. [5] Bibliotheken und Bibliotheksverbünde sollten mit ihren Daten ebenso verfahren. Dies ist ein vielversprechender Weg, um mit unseren Daten endlich ein Teil des Webs zu werden, indem die Daten mit Daten aus anderen Bereichen verlinkt werden. Nutzen und Wert unserer Katalogdaten, die Produkte jahrzehntelanger Katalogisierungsanstrengungen sind, würden somit maximiert.

Vier Motive, gegen Open Data zu sein

Im Umkehrschluss lassen sich aus diesen vier Dimensionen einer Open-Data-Praxis mindestens folgende vier Motive ableiten, gegen freie Katalogdaten zu sein und die Etablierung einer Open-Data-Praxis womöglich sogar verhindern zu wollen:

Man verdient sein Geld mit dem Verkauf von bibliographischen Daten und hat nicht vor das eigene Geschäftsmodell den Entwicklungen im Internetzeitalter anzupassen bzw. man ist eine Bibliothek oder ein Verbund und möchte lieber bis in alle Zukunft für Metadaten Geld bezahlen.
Man möchte nicht, dass die Katalogdaten außerhalb des OPACs irgendjemandem einen zusätzlichen Nutzen bringen und möchte die völlige Kontrolle und den alleinigen Besitz der Daten bei bibliothekarischen Organisationen wissen.
Man möchte nicht mit Leuten oder Organisationen zusammen arbeiten, die nicht aus der Bibliothekswelt kommen und womöglich keine bibliothelkarische Ausbildung haben.
Man möchte die Katalogdaten nicht in eine Form bringen, dass sie endlich "im Netz wohnen" (Danke, Anne), sondern will lieber die altertümlichen Formate beibehalten und die Inhalte der Bibliothekskataloge im Deep Web verstecken.

Regelmäßige Übertext-Leser/innen werden sich denken können, dass der Autor dieses Beitrags keines dieser Motive in irgendeiner Form billigt. Ganz im Gegenteil, ich begrüße alle vier oben ausgearbeiteten Dimensionen einer Open-Bibliographic-Data-Praxis und wünsche mir, dass ihre Entwicklung zügig voranschreiten möge.
Mehr freie bibliographische Daten jetzt!

[1] Eine gute Einführung in Linked Data bieten die zwei TED-Talks des Web-Erfinders Tim Berners-Lee. Von Ian Davis und Tom Heath gibt es auch einen "30 Minute Guide to RDF and Linked Data". Deutschsprachige Einführungen sind meines Wissens bisher kaum existent. Kürzlich hat Angelo Veltens etwas zum Thema auf Deutsch publiziert: "Warum wir Daten verlinken müssen".

[2] Für mehr Informationen zu Open Data und der damit verbundenen Lizenzierung von Datenmengen siehe den einführenden Text im hbz-Opendata-Wiki auf deutsch: "Open Data und Lizenzierungsfragen". [Update: Dieser Text ist online nicht mehr erreichbar. Siehe stattdessen meinen Artikel "Open Data im hbz-Verbund".]

[3] Zu den Veränderungen im Geschäftsmodell der DNB siehe Folie 9 von Jürgen Ketts Vortrag auf der SWIB09 (PDF) oder aktueller den Beitrag von Ute Schwens (PDF), in dem es auch heißt: "Insgesamt geht die DNB mit der Veränderung ihres Geschäftsmodells einen Weg, der letztendlich zu intensiveren Kooperationen und einer größeren Präsenz bibliothekarischer Informationen im Internet der Daten führt – und hofft auf breite Akzeptanz und Unterstützung durch die bibliothekarischen Kolleginnen und Kollegen."

[4] Hier sei nur auf die Open-Government-Initiative in Großbritannien, die Projekte der BBC oder der New York Times verwiesen.

[5] Genau gesprochen, können Daten nur in eine oder mehrere RDF-Serialisierungen übertragen werden. Bei RDF handelt es sich eben um ein Modell, dessen Realisierung eine von vielen verschiedenen Formen (RDF/XML, Turtle, N-Triples, Notation 3 etc.) annehmen muss. RDF ist somit gewissermaßen die Summe seiner Realisierungsmöglichkeiten.

2010-03-11

Die Zeit ist reif, wir müssen sie nur pflücken

Die Zeit ist reif. Geben wir der Öffentlichkeit, was der Öffentlichkeit gehört: die bibliographischen Daten der Bibliotheks- und Verbundkataloge.

Seit mehr als hundert Jahren wird die Erstellung und Pflege der Bibliothekskataloge öffentlicher und wissenschaftlicher Bibliotheken durch öffentliche Gelder (Steuergelder) finanziert. Es wird Zeit, diese Daten nicht nur frei zugänglich in Webkatalogen für Recherchezwecke zu Verfügung zu stellen, sondern sie vollumfänglich zu öffnen: Freie bibliographische Daten jetzt!

"Sind Katalogdaten nicht schon offen?"

Nun mögen manche BibliothekarInnen einwenden: "Unsere Daten sind doch bereits offen über das Web, über Z39.50-Schnittstellen usw. zugänglich." Frei zugänglich heißt aber nicht notwendigerweise offen. Orientierung gibt hier die Open Definition der Open Knowledge Foundation. Die Kurzform dieser Definition von "offen" besagt:

"A piece of knowledge is open if you are free to use, reuse, and redistribute it."

Die vollständige Definition spezifiziert die Zugangsbedingungen zu offenem Wissen wie folgt:

"The work shall be available as a whole and at no more than a reasonable reproduction cost, preferably downloading via the Internet without charge."

Dabei gilt: "'As a whole' prevents the limitation of access by indirect means, for example by only allowing access to a few items of a database at a time." Es ist klar, dass Bibliotheks- und Verbundkataloge noch nicht offen in diesem Sinne sind.

"Warum sollen wir unsere Daten verschenken?"

Diesem Einwand gegen Open Bibliographic Data begegnet man häufiger. Zunächst einmal: Es geht eben nicht darum unsere Daten zu verschenken. In dieser Aussage stecken zwei Fehler. Wie oben erläutert, gehören die Daten nicht uns, Bibliotheken oder Verbünden. Die Daten sind öffentlich, sie befinden sich gewissermaßen bereits in der Public Domain. Wir geben also der Öffentlichkeit nur das, was ihr ohnehin gehört.

Und von 'verschenken' kann hier auch nicht die Rede sein. Der Gebrauch des Ausdrucks 'Geschenk' heißt, 'das Eigentum an einer Sache oder an einem Recht freiwillig an einen anderen zu übertragen' (Quelle: Wikipedia). Und 'übertragen' ~~im Sinne~~ beinhaltet, dass nach Übertragung der Sache, des Verwertungsrecht usw. an einen anderen ich selbst nicht mehr über diese Sache verfügen kann. Dieses Moment der Aufgabe einer Sache oder eines Rechts gilt eben nicht für eine Übertragung von elektronischen Daten in die Public Domain, weil sich diese ganz simpel und beliebig oft reproduzieren lassen. Mein Recht, über die Daten zu verfügen besteht ja nach der Öffnung der Daten im selben Maße wie vorher, nur hat nun auch jede andere Person und Institution das Recht, die Daten zu benutzen wie ihr beliebt.

"Aber welchen Nutzen bringen freie bibliographische Daten?"

Die Frage welchen Nutzen die Freigabe bibliographischer Daten in die Public Domain mit sich bringt, ist damit allerdings immer noch nicht beantwortet. Und sie lässt sich auch nicht konkret beantworten, weil sich der Nutzen erst nach der Freigabe zeigen wird. Mein Verdacht ist allerdings, dass sich hinter der häufig geäußerten Frage "Welchen Nutzen bringen freie bibliographische Daten?" die weniger altruistische Frage verbirgt: "Welchen Nutzen bringen freie bibliographische Daten uns, den Bibliotheken und Verbünden?"

Die Freigabe von Daten führt zu ungeahnten kreativen Formen der Nutzung dieser Daten. Patrick Danowski verwies auf die erste nicht-intendierte Nutzung der vor einiger Zeit in die Public Domain entlassenen Daten der CERN Library. Dieser konkrete Fall ist sogar von unmittelbarem Gewinn für die Bibliothek.

Andere Nutzungen mögen in erster Linie der literaturwissenschaftlichen oder anderer Forschung dienen oder die Recherchemöglichkeiten nach Büchern bei Google verbessern. Dies ist aber kein Hindernis, sondern ein Grund zur Freigabe der Daten. Ich kann mir darüber hinaus eine ganze Menge nützlicher Webanwendungen vorstellen, die auf bibliographischen Daten von Bibliotheken aufbauen oder zu diesen Daten verlinken...

Ein konkreter Nutzen von Open Bibliographic Data wurde im letzten Übertext-Beitrag deutlich gemacht: Geben Bibliotheken im großen Maßstab ihre Daten frei, so würde es unmöglich, ein Dienstleistungsmonopol auf der Basis der weltweit größten bibliographischen Datenbank aufrechtzuerhalten. Eine große Menge an Bibliotheken würde profitieren, indem sie dieselben Dienste zu deutlich verringerten Kosten nutzen könnten. Dies würde bedeuten, dass OCLC sein Geschäftsmodell grundlegend überdenken müsste, um sich an eine solche Entwicklung anzupassen.

Datenpflege crowdsourcen

In Zeiten sinkender Budgets für Bibliotheken und andere öffentliche Einrichtungen ist die Pflege immer größerer Datenmengen allein durch Bibliothekare nicht mehr zu leisten. Wieso also nicht die Basis der Mit"arbeiter" um eine theoretisch unbegrenzte Menge Freiwilliger erweitern, indem die Daten(bank)pflege crowdgesourct wird? Firefox, Wikipedia und andere offene Projekte haben vorgemacht, dass dies funktioniert und Allen zugute kommt.

Bibliotheken werden mit der Freigabe ihrer Daten die alleinige Kontrolle (welche sie ohnehin nicht mehr besitzen) über die Welt der bibliographischen Daten abgeben. Aber dafür wird die Öffentlichkeit (das ist die Menge der in der Bibliothekswelt allgegenwärtigen "Nutzer") Nützlicheres, Vielfältigeres und Schöneres bekommen als wir uns jetzt vorstellen können.
Die Zeit ist reif.

2010-03-09

OCLCs Lock-In-Strategie

OCLC macht wieder von sich reden - mit einer Unternehmensstrategie, die man sonst eher von Herstellern proprietärer Software kennt: dem Lock-In-Effekt.

SkyRiver & die Bibliothek der Michigan State University

Aber beginnen wir am Anfang. (Die Zahlen aus dem folgenden Text stützen sich auf einen Artikel im Library Journal und einen Blogbeitrag von Karen Coyle.)

Im Oktober startete SkyRiver "a new bibliographic utility that offers a low cost alternative for cooperative cataloging". Gegründet hatte es Jerry Kline, dem Mitgründer und Chef von Innovative Interfaces. SkyRiver wurde vom Library Journal sogleich als ernstzunehmender Konkurrent zu OCLCs WorldCat im Bereich Fremddatenübernahme gehandelt.

Die Bibliothek der Michigan State University (MSU) rechnete sich nicht unerhebliche Einsparungen aus und beschloss - nach 40 Jahren Nutzung des OCLC-Fremddatenangebots - seine Fremddaten zukünftig von SkyRiver zu beziehen. Die Bibliothek hatte allerdings nicht vor, OCLC vollständig den Rücken zu kehren, sondern wollte weiterhin seine Bestandsangaben in den WorldCat laden, um seine Bestände anderen Bibliotheken weiterhin für die Inter Library Loan - das angelsächsische Pendant zuer Fernleihe - anzubieten. Die MSU-Bibliothek machte seine Berechnungen mit dem Preis von 0,23 US-$ für das Hochladen eines Titels. Daraus ergabn Kosten von etwa 6000 $ jährlich für das Hochladen von etwa 26 000 Titeln pro Jahr. (Es ist doch bemerkenswert, dass Bibliotheken von sich aus diese - zugegebenermaßen geringen - Kosten auf sich nehmen, damit andere Zugriff auf ihre Bestände haben. Vgl. hierzu auch einen Blogbeitrag von Jonathan Rochkind.) Für die Teilnahme an der Fernleihe via OCLCs WorldCat zahlt die Bibliothek übrigens zusätzliche 88,500 $.

OCLC forderte schließlich aber einen ganz anderen Preis für diese - eigentlich in einer Preisliste festgelegte - Dienstleistung: Statt 0,23 $ pro Titel sollte das Ganze auf einmal 2,85 $ pro Titel kosten. Das ist mehr als das Zwölffache! Dieser enorme Preis für das Hochladen von Titeln in den WorldCat würde sämtliche finanziellen Vorteile, die die Bibliothek sich durch den Wechsel versprochen hat, nivellieren, so dass die MSU-Bibliothek auf eine Aktualisierung ihrer Bestandsangaben im WorldCat in Zukunft verzichten wird.

OCLCs Rhetorik

OCLCs Umgang mit dem Thema ist geprägt von einer einfachen Rhetorik. Bibliotheken, die den WorldCat nur für Fremdleihzwecke nutzen, nicht aber an dessen Aufbau und Pflege mitarbeiten wollen, wird parasitäres Verhalten vorgeworfen. Im Januar ließ Larry Alford, Vorsitzender des OCLC Board of Trustees, anklingen, dass sich Bibliotheken wie die der MSU eben nur die Rosinen rauspicken wollen: "In some ways, I believe this is the equivalent of 'skimming the cream off the top without buying the whole bottle of milk.'" (Seine faktenlose und rhetorikgetränkte Rede ist seit Kurzem online verfügbar.) OCLC verkauft sich als der selbstlose Ermöglicher und Hüter bibliothekarischer Kooperation, deren Hauptziele eben Aufbau und Pfelge des WorldCat seien. Sämtliche Bibliotheken, die nicht bereit sind horrende Preise für die auf der weltweit größten bibliographischen Datenbank basierenden Dienste zu zahlen und die sich von OCLC abwenden möchten, trügen zum Untergang des WorldCat bei. Larry Alford:

"To be very frank, if enough libraries—not a lot, but enough—choose to consume more value from the cooperative than they return to the cooperative, then we risk losing WorldCat ... Decisions for short-term benefit or economic relief can be very harmful in the long term to our commons." (S.3 des Redetexts)

Ich weiß nicht, ob diese Rhetorik auch nur annähernd ihren Zweck erreicht. Meinem persönlichen Eindruck nach hat OCLC sich mittlerweile ziemlich in die Scheiße geritten und trägt mit seinem Verhalten zum Erstarken und Aufbegehren der Mitgliedsinstitutionen und zur Entstehung neuer konkurrierender Angebote bei.

Schwung für die Open-Data-Bewegung

Ich habe bisher auf Mailinglisten und in Blogposts keine Stimmen vernommen, die sich hinter OCLC stellen und sein Verhalten rechtfertigen. (Siehe etwa die Sammlung von Reaktionen hier sowie den Diskussionstrang zum Thema in der Mailingliste NGC4LIB, der hier startet.) Das war letztes Jahr bei OCLCs Versuch eine restriktive Metadaten-Policy durch die Hintertür einzuführen noch anders.

Ganz im Gegenteil scheint OCLC mit seinem krampfhaften Versuch, das eigene Monopol im angelsächsischen Raum zu erhalten, dazu beizutragen, dass sich immer mehr BibliothekarInnen mit einem Open-Data-Ansatz anfreunden. Auf NGC4LIB jedenfalls wurden entsprechende Forderungen, Katalogdaten auf einem Server abzulegen und über OAI-PMH bereitzustellen von verschiedenen Leuten unterstützt. Aus dieser Perspektive kann ich nur sagen: "Weiter so, OCLC!"

2010-02-10

Partizipativer Katalog, Intertextualität und Linked Data

Lambert Heller hat mich vor einiger Zeit in einer kleinen Twitter-Konversation (die hier ihren Ausgang nahm) auf den Aufsatz “Participatory Networks: The Library as Conversation” hingewiesen. Mittlerweile habe ich mal ein wenig in den Text reingeschaut, und ich stimme völlig mit dem Grundgedanken überein, dass Bibliotheken den NutzerInnen "constructive means ... to improve or shape the conversation" (S.5) geben müssen. Für wissenschaftlliche Bibliotheken heißt das, die Konversation der WissenschaftlerInnen durch das bereitstellen einer entsprechenden Infrastruktur zu unterstützen. (Nichts Anderes war und ist die Aufgabe wissenschaftlicher Bibliotheken.) [1]

Ich will hier nicht näher auf den Aufsatz eingehen, vielleicht ein andernmal. Allerdings spukt ein konkreter und m.E. vielversprechender Ansatz der Nutzerpartizipation schon länger in meinem Kopf herum. Dieser illustriert auch sehr schön, welche Möglichkeiten die Migration bibliographischer Daten in das Semantic Web bietet. Es geht um die kollaborative Vernetzung der katalogisierten Ressourcen mittels typisierter Links, mit anderen Worten darum, die NutzerInnen bibliographischer Daten Linked Data produzieren zu lassen.

Literatur heißt Verwobensein, verknüpfen heißt verstehen

Zunächst ein ganz bisschen Intertextualitäts- und Erkenntnistheorie. Ich habe bereits im Blogbeitrag Der Text der Zukunft I: Die Vergangenheit auf den Charakter des Verwobenseins von Texten, der Intertextualität von Literatur, hingewiesen. Weil ich es gerade nicht besser hinbekomme, zitiere ich einfach aus diesem Blogbeitrag. Zum einen heißt es dort (inklusive Grammatikfehler):

"[Es] hat sich bereits im Papierzeitalter gezeigt, dass jeder Begriff von Textidentität, der sich auf dem Paradigma der Druckpublikationen gründet, ein stark verkürzter ist und unsere Auffassung davon, was ein Text ist, in die Irre führt. Die bis in die 60er Jahre zurückgehende Intertextualitätsforschung baut auf der Vorstellung auf, dass ein Text seine Identität nicht aus sich selbst heraus, sondern vielmehr durch die Stellung, die er in der Literatur einnimmt, erhält. (...) Jeder Text erhält seine Bedeutung und seinen Wert durch seine Relationen zu anderen Texten – seien dies Texte, an die er (explizit oder implizit) anknüpft, auf die er verweist oder Texte, die ihrerseits an ihn anknüpfen. Augenfällig wird die Intertextualität etwa in Zitaten und Verweisen, ein großer Teil der Verknüpfungen zwischen Texten bleibt aber implizit."

Ein Text erhält seine Bedeutung und Identität also nicht aus sich selbst heraus, weshalb etwa ein Abstract nur sehr wenig über einen Text aussagt, wenn es seine Beziehungen zu anderen Texten, zur ähnlichen Forschungsprojekten, zu Forschungstraditionen und Schulen usw. nicht aufzeigt.

Zum anderen heißt es im erwähnten Blogbeitrag:

"Jede Verknüpfung schafft Erkenntnis. Die Intertextualitätsforschung stimmt mit Theoretikern wie Nelson Goodman, Jacques Derrida oder Ludwig Jäger in der Annahme überein, dass sich sämtliche Erkenntnis immer in der Verknüpfung mit und Verformung von Bestehendem vollzieht und somit alles Wissen je Produkt von Anknüpfungs- und Transformationshandlungen ist.
Ein Merkmal des Papierzeitalters ist, dass ein großer Teil dieser Verknüpfungs- und somit Erkenntnisarbeit privat und weitestgehend unerkannt stattfindet. Ich spreche von Prozessen, die beim Lesen von Texten stattfinden. Ich spreche von der Produktivität des Rezipienten, die sich in Handlungen wie dem Unterstreichen, dem Verweisen auf Bekanntes, dem Hervorheben relevanter neuer Anknüpfungspunkte zeigt. Diese produktiven Prozesse gehen meist in den Notizen des Lesers oder am Rande der Buchseiten verloren."

Hier wird deutlich gemacht, dass Bedeutung und Verstehen durch Vernetzung entstehen, durch In-Beziehung-Setzen, durch Vergleichen, Abgrenzen und ähnlichen Handlungen. Darüber hinaus wird darauf hingewiesen, dass im Papierzeitalter ein großer Teil unserer Arbeit mit Texten im Privaten stattfindet und dadurch für die direkte Kommunikation zwischen Menschen verloren ist. [2] Eine wichtige Frage im Hinblick auf die Zukunft bibliographischer Datenbanken und von eBook-Readern ist, wie diese bisher privaten Daten in maschinenlesbarer Form gespeichert, mit anderen geteilt und nachgenutzt werden können.

Möglichkeiten eines partizipativen Katalogs

Dann will ich endlich mal auf meinen Vorschlag für einen partizipativen Katalog zurückkommen, der wahrscheinlich recht leicht umzusetzen wäre, sobald die bibliographischen Daten als Linked Data vorliegen.

Wieso geben wir nicht den Leuten, die wirklich Ahnung von jenen Dingen, d.h. Texten haben, die in Bibliothekskatalogen verzeichnet sind, die Möglichkeit, ihr Wissen, ihre Vermutungen und Annahmen über bestimmte Zusammenhänge dort hineinzulegen? Der "Katalog 2.0", mit Social Tagging, Listenfunktionen und ähnlichem ist sicher als ein Schritt in die richtige Richtung zu begrüßen. Allerdings sind die Handlungen des Taggens und der Gruppierung in Listen noch sehr ähnlich der traditionellen Klassifizierung. Mir geht es hier aber um eine etwas andere Form der Anreicherung von Quellendaten, um eine andere, direktere Form des In-Beziehung-Setzens von Texten. [3]

Es ist integraler Bestandteil jeder Wissenschaft, jedes wissenschaftlichen Textes, Bezugnahmen zu anderen Texten explizit zu machen. Dies geschieht über die Fußnote, das Literaturverzeichnis und ähnliche Mittel. Allerdings sagt ein Literaturverzeichnis nur aus, dass der dazugehörige Text auf die dort aufgelisteten Quellen bezugnimmt aber nicht in welcher Weise dies geschieht, d.h.welchen Charakter die Bezugnahme hat. Wird der referenzierte Text kritisiert, wird auf den dort kommunizierten Erkenntnissen aufgebaut, wird dem Text widersporchen, er gar widerlegt oder dient er als Teil eines Korpus für linguistische Untersuchungen wissenschaftlicher Literatur?

Typisierte Verlinkungen ermöglichen

Auch diese Überlegungen sind alles andere als neu, ganz im Gegenteil, Wissenschaftler (nicht Bibliothekare) experimentieren schon mit der Umsetzung. Es gibt bereits zwei OWL-Ontologien (man könnte auch von "Link-Klassifikationen" sprechen), die ein Vokabular zur Verknüpfung wissenschaftlicher Texte zur Verfügung stellen.

Die erste Ontologie ist die Scientific Discourse Relationships Ontology Specification. Sie wurde entwickelt von Do-it-yourself-Wissenschaftlern aus der biomedizinischen Alzheimerforschung im Kontext des SWAN-Projekts Semantic Web Applications in Neuromedicine, "a project to develop knowledge bases for the neurodegenerative disease research communities, using the energy and self-organization of that community enabled by Semantic Web technology". Diese Ontologie ist sehr übersichtlich und umfasst bisher nur die folgenden dreizehn Eigenschaften von Referenzen:

Interessant ist, dass allein die weiter untergliederte Eigenschaft "refers to" der Klassifizierung expliziter Bezugnahmen dient, d.h. der Klassifizierung von Referenzen in Fußnoten oder Literaturverzeichnissen. Die nicht weiter untergliederten Eigenschaften "inconsistentWith", "consistentWith", "relevantTo" und "alternativeTo" können auch zwischen nicht explizit verknüpften Texten bestehen und sie können vor allem allein durch Fachleute expliziert werden.

Die zweite, detailliertere Ontologie ist CiTO, die Citation Typing Ontology. Sie konzentriert sich bei der Verknüpfung von Texten allerdings allein auf die Spezifizierung bereits deklarierter Beziehungen, das heißt auf die Klassifizierung der Verweise in einem Literaturverzeichnis. Im Abstract eines Artikels von David Sutton (pdf) über CiTO heißt es:

"CiTO, the Citation Typing Ontology, is an ontology for describing the nature of reference citations in scientific research articles and other scholarly works, and for publishing these descriptions on the Semantic Web. Citation are described in terms of the factual and rhetorical relationships between citing publication and cited publication, the in-text and global citation frequencies of each cited work, and the nature of the cited work itself, including its peer review status."

Die CiTO geht also über die Typisierung von Bezügen zwischen Texten noch hinaus, indem sie etwa auch eine Klassifikation wissenschaftlicher Quellen versucht und etwas über den Peer-Review-Status und die Anzahl der Anführungen referenzierter Texte aussagen lässt. Darüberhinaus versucht CiTO, die Functional Requirements for Bibliographic Records (FRBR) umzusetzen.

Der sehr lesenswerte Artikel Adventurs in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article zeigt unter anderem den Nutzen mit CiTO annotierter Referenzlisten auf, geht aber auch auf weitere Aspekte des "Semantic Publishing" ein und exemplifiziert das Ganze mit der semantischen Anreicherung eines Zeitschriftenartikels (Anschauen und Rumprobieren lohnen sich). Semantic Publishing definieren die AutorInnen wie folgt:

"We define the term semantic publication to include anything that enhances the meaning of a published journal article, facilitates its automated discovery, enables its linking to semantically related articles, provides access to data within the article in actionable form, or facilitates integration of data between articles."

Ich habe keine Ahnung, inwiefern dieser Ansatz (der Artikel wurde im April 2009 publiziert) Anklang gefunden hat und ob bereits Verlage an einer Umsetzung des Konzepts arbeiten.

Beide hier vorgestellten Ontologien sind eher für den SMT-Bereich (Science, Medicine, Technology) der Wissenschaften geschaffen und dort vor allem für die Annotierung von Beziehungen zwischen Zeitschriftenartikeln zu den in ihnen erwähnten Quellen. Es geht in erster Linie darum, bereits explizit gemachte Verknüpfungen zu spezifizieren. Zudem soll diese Spezifikation - zumindest mit der CiTO - bereits vor der Publikation durch die Autoren eines Texts durchgeführt werden, weshalb auch von "Semantic Publishing" gesprochen wird. Selbstverständlich eignen sich diese Link-Klassifikationen aber auch für die nachträgliche Verknüpfung von Texten in Semantic-Web-Katalogen durch die Benutzer der Daten.

Ontologien für implizite Textbeziehungen

Zum einen ist es nötig, die Anwendung und Weiterentwicklung bestehender Referenz-Typologien zu unterstützen. [4] Es sollten aber auch Ontologien entwickelt werden, die ein Vokabular bereitstellen, um implizite Beziehungen zwischen Texten explizit zu machen. In James Joyces Ulysses gibt es etwa nirgendwo einen Verweis zu Homers Odyssee, nichtsdestotrotz nimmt das Werk bezug auf den antiken Klassiker. Es wäre ein enormer Fortschritt, wenn jedeR die Möglichkeit hätte,diese impliziten Beziehungen durch die Vergabe maschinenlesbarer, typisierter Links explizit zu machen.

Literaturwissenschaftler könnten zum Beispiel eine Menge dazu beitragen, nicht augenfällige Beziehungen zwischen Werken der Weltliteratur explizit zu machen. In der Tat wurde und wird schon viel Arbeit von LiteraturwissenschaftlerInnen geleistet, die sich ausgiebig mit den Beziehungen zwischen Werken der Weltliteratur befassen. Leider taten und tun sie dies in Prosatexten und produzieren somit keine maschinenlesbaren Daten. Bestimmt wären auch eine Menge nichtinstutionalisierte Wissenschaffer dabei, wenn es um die Verlinkung literarischer Werke geht. Die LibraryThing-Community hätte zum Beispiel sicher ihre wahre Freude daran.

Eine Genette-Ontologie?

Der französische Literaturwissenschaftler Gérard Genette hat in seinem Werk Palimpseste. Die Literatur auf zweiter Stufe eine Terminologie für die Bezugnahmeformen zwischen literarischen Werken herausgearbeitet. Neben der Typisierung hypertextueller (ja, so nennt er das) Bezugnahmeformen in der Literatur (er unterscheidet zum Beispiel Anspielungen, Plagiate, Parodien, Hommagen) beinhaltet das Buch noch einen weitaus größeren Teil, der diese Beziehungen an Beispielen aus der Weltliteratur aufzeigt. Es dürfte ein interessantes Projekt sein, seine Klassifizierung in eine OWL-Ontologie zu überführen und seine Beispiele in RDF-Tripel zu übersetzen. [5] So könnten die Erkenntnisse des Prosatexts Palimpseste - wie auch die Arbeiten vieler anderer Literaturwissenschaftler - unter großem Gewinn in maschinenlesbare Aussagen "übersetzt" werden. Dadurch würden sich für Literaturwissenschaftler ungeheure neue Möglichkeiten der Forschung und Erkenntnisgewinnung ergeben. Und auch die Möglichkeiten der Literaturrecherche könnten dadurch eine neue Dimension gewinnen.

Im Rahmen eines MALIS-Projekts habe ich vor, eben eine solche Genette-Ontologie zu basteln, die LiteraturwissenschaftlerInnen als Mittel dienen kann, ihr Wissen und ihre Vermutungen über die Beziehungen zwischen literarischen Werken in maschinenlesbarer Form zu repräsentieren. Dazu bei Gelegenheit mehr...

[1] In dem Aufsatz wird dabei immer von Katalogen gesprochen, die partizipativ gestaltet werden müssten. M.E. werden wir uns in Zukunft von dem Konzept eines Katalogs, der ja irgendwie immer auch ein Datensilo ist, verabschieden und dabei auch unsere Terminologie einmal überdenken. Aber die Diskussion über den Terminus "Katalog" gibt es ja schon länger...

[2] Dave Lankes, der den oben erwähnten Artikel "Participatory Networks: The Library as Conversation" mitverfasst hat, machte vor einigen Tagen in seinem Blog seinem Unmut über das iPad Luft, weil es eben die Möglichkeiten elektronischer Medien nicht ausschöpfe, diese bisher rein privaten Anmerkungen zu teilen oder über Textstellen direkt mit anderen zu kommunizieren. Als Read-Only-Medium unterstützt das iPad statt eines aktiven und kommunizierenden Leser allein das passive, konsumierende Lesen.

[3] Tagging setzt unzweifelhaft auch Werke in Beziehung, tut dies aber indirekt, über den Umweg eines gemeinsamen Etiketts, des Tags.

[4] Zwischen Blogs und anderen Webseiten gibt es auch unzählige Verknüpfungen, die nicht näher spezifiziert sind. Ich wundere mich, dass es bis heute keine Linkklassifikation gibt, mit der Hyperlinks mittels RDFa annotiert werden können, um den Charakter der jeweiligen Verlinkung zu spezifizieren. Oder gibt es so etwas und ich kenne es einfach nicht?

[5] Leider fehlen zur gelungenen Umsetzung eines solchen Projekts noch FRBR-Werk-URIs, um die Beziehungen zu repräsentieren. Ein Grund, unsere Kataloge durch Nutzung von RDA-Vokabulare in das Linked-Data-Web zu migrieren.