2011-01-31

Linked Open Data vs. WorldCat, oder: Eine Alternative, die keine ist

Der Wissenschaftsrat hat heute einige Papiere veröffentlicht:
  • Empfehlungen zu wissenschaftlichen Sammlungen als Forschungsinfrastrukturen (Pressemitteilung, PDF)
  • Empfehlungen zu Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften (Pressemitteilung, PDF)
  • Übergreifende Empfehlungen zu Informationsinfrastrukturen (Pressemitteilung, PDF)
Bisher habe ich diese Papiere nicht genauer in Augenschein nehmen können. Ein viertes Papier Empfehlungen zur Zukunft des bibliothekarischen Verbundsystems in Deutschland steht auch noch aus und wird am 3. Februar nachgereicht (Update 3.2.2011: siehe hier). Wie es scheint, gibt diese zentrale Aussage in den Übergreifenden Empfehlungen zu Informationsinfrastrukturen (S. 54) aber schon einen Vorgeschmack auf das Papier:
"Die Integration von Katalogdaten in Metadatenbanken setzt international gültige Standards voraus. Im Bibliotheksbereich werden derzeit zwei verschiedene, nicht kompatible Ansätze praktiziert: die Zusammenführung von Katalogdaten in einer bibliographischen Datenbank, z. B. WorldCat, welche die Kataloge mehrerer tausend, auch deutscher OCLC-Mitgliedsbibliotheken umfasst, sowie die Bereitstellung von Katalogdaten in Form in das offene Web integrierter Linked Open Data. Der Wissenschaftsrat bekräftigt seine Empfehlung, dass die bibliothekarischen Verbünde im Interesse der Wissenschaft sowie ihrer eigenen Zukunftsfähigkeit rasch zu einer abgestimmten strategischen Entscheidung für einen der beiden Ansätze finden müssen. Dabei muss sicher gestellt werden, dass die Verfügbarkeit und Weiterentwicklung entsprechender Dienste nicht monopolisiert wird."
Zunächst einmal: Den impliziten Befund, dass OCLCs WorldCat und Linked Open Data inkompatibel sind, kann ich bestätigen, OCLC hat dies selbst unmissverständlich klar gemacht (siehe hier). Wie soll man diesen Abschnitt nun desweiteren interpretieren? Offensichtlich macht der Wissenschaftsrat hier erst eine vermeintliche Wahlmöglichkeit "WorldCat oder Linked Open Data"[1] auf und empfiehlt, dass die Bibliotheksverbünde sich gemeinsam entscheiden, in Zukunft ausschließlich auf eine dieser Lösungen zu setzen. Allerdings wird mit dem letzten Satz dieses Zitats die eine Möglichkeit (WorldCat) direkt wieder ausgeschlossen, denn: Es kann eigentlich niemand ernsthaft auf WorldCat setzen, der eine Monopolisierung von Diensten ausschließen möchte, die über bibliographische Daten angeboten werden. Jedenfalls nicht, wenn er die Entwicklungen der letzten Jahre verfolgt hat. (Siehe dazu etwa hier, hier und hier.)

In der dem Papier zugehörigen Pressemitteilung heißt es auch:
"Der Wissenschaftsrat empfiehlt ferner eine enge Vernetzung von Informationsinfra­strukturen mit der aktuellen Forschung." 
Diese Empfehlung kann ich nur unterstützen und gleichzeitig feststellen: Die bestmögliche Erleichterung der Integration bibliographischer Daten in wissenschaftliche Forschungsumgebungen ist eines der Argumente für Open Linked Data. Denn wenn bibliographische Daten und andere Informationen offen lizenziert und unter Nutzung allgemeiner Standards im Web publiziert sind, ist sichergestellt, dass sie naht- und problemlos in wissenschaftliche Forschungs- und Textproduktionsumgebungen integriert werden können und dass dieser Integration auch in Zukunft nichts im Weg steht.

Es scheint also, als sei Open Linked Data die einzige Möglichkeit, den Anforderungen des Wissenschaftsrats gerecht zu werden. Unter diesen Vorzeichen könnte man sich ja zurücklehnen und sich auf den Auf-/Umbau der zukünftigen deutschen Informationsinfrastruktur unter Anwendung von Linked-Open-Data-Standards freuen. Allerdings glaube ich nicht, dass man sich auf diese optimistische Einschätzung verlassen kann...


[1] Ich bin mir nicht sicher, wie klar der Begriff des Wissenschaftsrats von Linked Open Data ist. Ich richte mich hier wie anderswo nach der Open Definition und bezeichne allein jene Daten als offen, die mit einer offenen Lizenz im Sinne dieser Definition lizenziert sind, siehe auch das Linked Open Data star scheme by example.

2011-01-18

Launch der Principles on Open Bibliographic Data

Ich freue mich, die offizielle Veröffentlichung der Principles on Open Bibliographic Data verkünden zu können. Die Prinzipien wurden gestern auf dem Peter-Murray-Rust-Symposium “Visions of a (Semantic) Molecular Future” gelauncht[1]. Die Prinzipien sollen als allgemeine Richtschnur bei einer Freigabe bibliographischer Daten dienen. Sie eignen sie sich zudem gut für die Überzeugungsarbeit im Umgang mit Produzenten bibliographischer Daten, wozu ja auch Bibliotheken gehören.

Kernaussagen

Die Hauptempfehlungen der Prinzipien lauten wie folgt:
  1. When publishing bibliographic data make an explicit and robust license statement.
  2. Use a recognized waiver or license that is appropriate for data.
  3. If you want your data to be effectively used and added to by others it should be open as defined by the Open Definition – in particular non-commercial and other restrictive clauses should not be used.
  4. Where possible, we recommend explicitly placing bibliographic data in the Public Domain via PDDL or CC0.
Unterstützung gesucht für deutsche Übersetzung

Eine vorläufige deutsche Übersetzung der Prinzipien findet sich hier. Ich würde mich über Rückmeldungen und Verbesserungen freuen, damit auch eine deutsche Fassung bald offiziell veröffentlicht werden kann. (Einfach editieren oder Kommentare hinterlassen, das Dokument kann von allen bearbeitet werden.)

Entstehung

Die Idee zu den Prinzipien hat ihren Ursprung in einer Diskussion auf der Mailingliste des deutschen Zweigs der Open Knowledge Foundation im Mai 2010. In dem damaligen Zusammenhang ging es insbesondere um Europeana-Metadaten und um die Daten der Europeana-Zulieferer. Ich habe den Vorschlag dann in die OKFN Working Group on Open Bibliographic Data getragen. Die Panton Principles for Open Data in Science wurden schließlich für die Formulierung der Prinzipien als Vorlage genommen

Mit der Zeit weiteten wir den Adressatenkreis der Prinzipien von den Bibliotheken auf die breite Gruppe der Produzenten bibliographischer Daten aus, wozu auch Verlage, Wissenschaftler, Online-Communities für Buchliebhaber (wie LibraryThing) oder soziale Literaturverwaltungssysteme (wie BiSonomy oder citeulike) gehören. Auf Anregung Peter Murray-Rusts ergänzten wir die Prinzipien um eine Definition bibliographischer Daten, wodurch der Geltungsbereich der Prinzipien klar eingegrenzt wurde.

Der gesamte Entstehungsprozess und die damit verbundenen Diskussionen waren sehr anregend, nicht zuletzt, weil eben auch theoretische Fragen - etwa nach dem Begriff bibliographischer Daten - diskutiert wurden und weil in der Gruppe Wissenschaftler, Techniker und Personen aus der Bibliothekswelt zusammenkamen und somit naturgemäß über den Tellerrand der Bibliothekswelt hinausgeschaut wurde.

Weiter geht's!

Die Principles on Open Bibliographic Data sind ein weiterer Schritt in Richtung einer Zukunft, in der bibliographische Daten frei fließen und dezentral aber kooperativ von verschiedensten Akteuren angereichert und verbessert werden. Die Veröffentlichung der Prinzipien markiert einen guten Start in das Jahr 2011. Bereits 2010 hat die Bewegung für freie bibliographische Daten einige Fortschritte machen und Erfolge feiern können wie kürzlich etwa auch Peter Suber in seiner Open-Access-Übersicht für 2010 dargestellt hat. Hoffen wir, dass es 2011 so ereignis- und erfolgreich weitergeht - etwa mit weiteren Datenfreigaben in Deutschland und ersten innovativen Linked-Data-Anwendungen auf Basis der offenen Daten!

[1] Siehe auch die Mitteilung im Blog der Open Knowledge Foundation.

2011-01-17

Schriftrolle - Kodex - Buch - ?

Auf arte.tv nimmt Robert Darnton unter anderem zur Frage nach der Verdrängung des Buchdrucks durch elektronische Medien Stellung.


Darnton sagt in dem Beitrag:
"Das Radio hat die Zeitung nicht verdrängt, der Fernseher hat das Radio nicht verdrängt und das Internet hat den Fernseher nicht verdrängt. Ebensowenig werden elektronische Bücher das gedruckte Buch verdrängen."
Ist "Zeitung - Radio - Fernsehen - Internet" wirklich die passende historische Entwicklungslinie, an der man sich in dieser Frage orientieren sollte? Handelt es sich bei den aufgezählten Medien nicht um gänzlich verschiedene? Die Zeitung ist ein starres visuelles Medium ähnlich dem Buch. Im Falle von Radio, Fernsehen und Internet haben wir es aber mit Medien zu tun, die aufgrund der Möglichkeit auditiver und/oder visueller Bewegtheit gänzlich anderer Natur sind. Deshalb ist es auch nicht verwunderlich, wenn diese Medien sich nicht gegenseitig verdrängen, sondern nebeneinander existieren und sich dabei vielmehr ergänzen.[1]

Man sollte folglich eher die Entwicklung der Speicher- und/oder Präsentationsmedien[2] von Schrift betrachten. Eine Entwicklungslinie der Präsentationsmedien könnte etwa so aussehen:

Schriftrolle - Codex - Buch - Display

Man könnte auch noch weiter zurück in die Zeit von Wachs- und Tonplatten oder in Stein gemeißelter Schrift gehen. In jedem Fall kann man die tatsächliche Verdrängung einiger Präsentations- und Speichermedien von Schrift durch neuere nicht leugnen. Ob das etwas an Darnton's Behauptung ändert, das Buch würde nicht durch das elektronische Buch verdrängt werden, ist eine andere Frage. Allerdings räume ich ebenfalls dem eBook (was auch immer das ist/sein wird) keine großen Chancen im Verdrängungskampf ein, solange es nicht das offene Web als Plattform benutzt... Aber wäre es dann noch ein Buch?

[1] Empfohlen sei in diesem Zusammenhang Paul Fords Text "The Web is a Customer Service Medium", in dem er die Eigentümlichkeit des Webs im Vergleich zu anderen Medien - allerdings von einer gänzlich anderen Perspektive als hier - ausarbeitet.

[2] Bis vor nicht allzulanger Zeit fielen Speicher- und Präsentationsmedium von Schrift zusammen, d.h. diese Unterscheidung war schlicht unnötig. Papier, ein Buch, eine Schriftrolle etc. sind gleichzeitig Speicher- und Präsentationsmedium von Schrift. Erst mit der Elektrifizierung, der Binärisierung von Schrift wurde diese Differenz überhaupt sinnvoll, denn die menschenlesbare Darstellung gespeicherter binärer Schrift bedarf eines Mediums neben dem eigentlichen Speichermedium.


[via blog.sub.uni-hamburg.de]

2011-01-05

OCLC membership: in search of criteria or a members list

Background: There have been several discussions going on at Karen Coyle's blog recently, one on a blog post by Karen about OCLC's motion to dismiss in the anti-trust lawsuit by SkyRiver against OCLC. In this discussion Karen referred to the questions I posed last year in the OCLC community forum discussion about the proposed policy (for background information see my blog post in German from April 2010 on OCLC and the Public Domain.) There also was an interesting discussion on another post and in its course Karen's assumption was challenged that Linked (Open) Data innovations in the library world would only come from institutions not bound by the OCLC policy.
As my text got to long for posting it as a comment on Karen's blog I am posting it here (simultaneously being my first post on this blog in English).

First: It was me that asked the questions under the name "Adrian" in the OCLC community forum concerning member libraries opening up their data under a public domain licence. And I definitely agree with Karen saying that the Record Use Policy Committee or any other body representing OCLC has not (yet?) answered my last question in this forum from April 16th 2010. The Committee rather postponed an answer and said that my question would be adressed by a reworking of section 5 of the policy. Albeit, since then this section hasn't changed a bit.

I haven't read the OCLC Motion and so I won't and can't go deeper into this discussion. But it is interesting that somehow related questions popped up in the debate about Karen's assumption that all libraries which do Linked/Open Data aren't bound by the OCLC policy. (See the comments on this post by Karen). I think the commenters attack the wrong person when they accuse Karen of making a statement that isn't fact-based. Maybe one should pose the question why it is so hard to find out the facts about who actually is an OCLC member and thus bound by the policy. In this post, I'll first try by myself to figure out what constitutes an OCLC membership.

Searching for criteria of OCLC membership

At first glance, it seems to be easy to find out the answer to the question who is actually bound by the policy. The policy itself makes clear at the beginning that it refers to the "OCLC cooperative":
"The policy is intended for the OCLC cooperative, which refers collectively to OCLC members, the OCLC governance structure (Board of Trustees and Global and Regional Councils), and the non-profit OCLC corporation."
Since July 2009 an OCLC member is defined as follows:
"Institutions worldwide become members of OCLC by contractually agreeing to contribute intellectual content or share resources."
Therefore, I might possibly assume that contributing data to WorldCat is a sufficient condition for being an OCLC member. But the membership definition also states:
"OCLC services and products qualifying for membership status are identified annually. These services and products are proposed by OCLC staff, reviewed by the Membership Committee, and any changes are approved by the Global Council and the Board of Trustees."
 As I understand it, the group of libraries which are OCLC members might change each year with the publication of a list of products and services qualifying for membership status. That seems to me quite strange in itself. Furthermore, the quoted sentence isn't linked to the current list of products and services qualifying for membership status - if such a list really exists. (Anyone?) Batch uploading might - as Karen shows in the case of the British Library which as per OCLC's annual report 2009/2010 (p.15) was the biggest batchloader to WorldCat - not necessarily constitute membership although OCLC's batch processing product page lists the point "Participate as fully as possible in the worldwide OCLC library community" which couldn't sound more like membership to me.

It seems that clear criteria for identifying OCLC members don't exist first and foremost the mentioned list of "services and products qualifying for membership status" doesn't exist openly accessible online. I can't easily find out who's an OCLC member and who's not simply by looking at the services and products they buy from OCLC.[1]

A list of OCLC members?

I might assume that all organizations listed in the search for OCLC libraries are OCLC members and thus are bound by the policy. If this was the case then the British Library would be an OCLC member as it is listed in this index together with Konstanz University Library, the Tübingen University Library and the BSZ (the library service center of the SWB library network both libraries belong to) who also have already opened up their data.[2]

To be clear: I am looking for clarity about OCLC membership, be it clear criteria that have to be met to be a member or a simple index of OCLC members. Contrary to Karen, I would not be the least bit surprised if there actually were OCLC members which are bound by the policy among the libraries doing Open (Linked) Data. It even is most probably the case that Konstanz University Library, Tübingen University Library as well as all other libraries in the SWB library network are OCLC members because the BSZ not only batchloads the union catalog data into WorldCat but they even copy catalog from WorldCat.[3] The BSZ might simply have bargained a contract with OCLC which permits them to do what they want with their data while also being an OCLC member, which would be a very sensible move. (I'd be very happy if somebody from the BSZ might leave a comment here concerning this.)

It's worth to consider that the OCLC corporation might not be the powerful player on the European market as it is in the US and that because of this presumed weaker bargaining position of OCLC in Europe contracts in Europe and the US might differ significantly...

Uncertainty & doubt

The underlying general problem is illustrated very well when Karen says:  "I don't think we have a way to know, with one quick search, who is and isn't covered by the agreement". If there exist clear criteria for OCLC membership or a database or list of OCLC member institutions these aren't publicly accessible.  In my view, it shouldn't be the case that you have to do weeks-long research and interview several people to get answers to these questions. One might think that a cooperative in the domain of public memory institutions has an open and up-to-date list of its members...

To sum it up: We have some understanding of the policy's intention, what it allows, proscribes and demands. And it is clear that the OCLC policy refers to "OCLC members"  but
a) we often don't really know whether an institution is an OCLC member or not or whether it has another relation to OCLC and
b) we don't know how a breach of the policy by one of the members might be sanctioned. There's no document saying what will happen. (But we know what OCLC did to a long-term member which decided to change the record supplier for copy cataloging...)

So, there's some uncertainty and doubt to be dealt with. Hopefully OCLC (members) will work on removing it by providing the relevant information...


[1] This thread on NGC4LIB about OCLC members and participants displays the same uncertainty about this question.

[2] A consistent definition of "open" in "Open Data", "Open Content" etc. is the Open Knowledge Definition. I stick to this definition when talking about Open Data which implies that German and French national libraries' data isn't (yet) open. And furthermore - following the Open Knowledge Definition - Linked Data isn't necessarily Open Data while Open Data mustn't be Linked Data, see Linked Open Data star scheme by example for more clarity on this.

[3] See https://wiki.bsz-bw.de/doku.php?id=v-team:katalogisierung:worldcat.