2011-02-03

Prinzipien zu offenen bibliographischen Daten jetzt auch auf Deutsch

Wie bereits angedeutet gibt es nun eine offizielle deutsche Übersetzung der Principles on Open Bibliographic Data. Die englische Originalfassung wurde bereits Mitte Januar 2011 von der Working Group on Open Bibliographic Data der Open Knowledge Foundation veröffentlicht.

Mein Dank geht an Doreen Thiede und Felix Ostrowski für Korrekturen und Verbesserungsvorschläge.

Unterzeichnen!

Die Prinzipien können unter dieser URL unterzeichnet werden: http://openbiblio.net/principles/endorse/. Ich fordere alle dazu auf, von dieser Möglichkeit Gebrauch zu machen und natürlich können auch Institutionen diese Prinzipien unterzeichnen.

Gerade im Kontext einer langfristigen Umstrukturierung der wissenschaftlichen Informationsinfrastruktur und der Reformierung der bibliothekarischen Verbundsysteme in Deutschland aber auch im Hinblick auf Projekte wie Europeana oder die Deutsche Digitale Bibliothek (DDB) liegen die Vorteile offener bibliographischer Daten auf der Hand: Mit einer breiten Praxis der Publikation bibliographischer Daten unter Nutzung offener Lizenzen wird eine große Zahl rechtlicher Entwicklungsverzögerer hinfällig. Solche rechtlichen Stolpersteine können etwa sein langwierige Vertragsverhandlungen von Infrastrukturprojekten wie Europeana und der DDB mit den verschiedenen Metadatenlieferanten oder Einigungen über die Nutzung großer Mengen bibliographischer Daten in Forschungskontexten usw. Bereits das vascoda-Rechercheportal hat nicht wenig darunter gelitten, dass es keinen unkomplizierten Zugriff auf die Gesamtheit der zu aggregierenden Metadaten gab (siehe dazu meinen Kommentar hier).

Mit Open Data können sich die Bemühungen aller Beteiligten auf die eigentliche Aufgabe konzentrieren: die Schaffung besserer technischer Infrastrukturen für Wissenschaft und Kultur. Deshalb fordere ich auf, ein Zeichen zu setzen für Open Data durch das Unterzeichnen der Prinzipien! (Es ist übrigens ein Jammer, dass - soweit ich dies nach kursorischer Lektüre beurteilen kann - die offene Lizensierung von Wissen in den kürzlich veröffentlichten Papieren des Wissenschaftsrats keine Berücksichtigung findet, wo doch diese rechtlichen Aspekte eine fundamentale Rolle bei der Entwicklung einer zukünftigen Informationsinfrastruktur spielen. Dazu bei Gelegenheit hier sicher mehr...)

Es folgt der Wortlaut der Prinzipien zu offenen bibliographischen Daten:


Prinzipien zu offenen bibliographischen Daten



Einleitung


Produzenten bibliographischer Daten wie Bibliotheken, Verlage, Universitäten, Wissenschaftler oder soziale, webbasierte Literaturverwaltungsplattformen spielen eine wichtige Rolle bei der Entwicklung menschlichen Wissens. Damit ihre Arbeit der Gesellschaft in vollem Umfang zugutekommt, ist es zwingend erforderlich, bibliographische Daten zu öffnen, das heißt für alle zur beliebigen Nutzung frei verfügbar zu machen.

Bibliographische Daten

Um den Geltungsbereich der Prinzipien festzulegen, wird in diesem ersten Teil der zugrundeliegende Begriff bibliographischer Daten erläutert.

Kerndaten

Bibliographische Daten bestehen aus bibliographischen Beschreibungen. Eine bibliographische Beschreibung beschreibt eine bibliographische Ressource (Artikel, Monographie etc. – ob gedruckt oder elektronisch) zum Zwecke
  1. der Identifikation der beschriebenen Ressource, d.h. des Zeigens auf eine bestimmte Ressource in der Gesamtheit aller bibliographischer Ressourcen und
  2. der Lokalisierung der beschriebenen Ressource, d.h. eines Hinweises, wo die beschriebene Ressource aufzufinden ist.
Traditionellerweise erfüllte eine Beschreibung beide Zwecke gleichzeitig, indem sie Information lieferte über: Autor(en) und Herausgeber, Titel, Verlag, Veröffentlichungsdatum und -ort, Identifizierung des übergeordneten Werks (z.B. einer Zeitschrift), Seitenangaben.
Im Web findet Identifikation statt mittels Uniform Resource Identifiers (URIs) wie z.B. URNs oder DOIs. Lokalisierung wird ermöglicht durch HTTP-URIs, die auch als Uniform Resource Locators (URLs) bezeichnet werden. Alle URIs für bibliographische Ressourcen fallen folglich unter den engen Begriff bibliographischer Daten.

Sekundäre Daten

Eine bibliographische Beschreibung kann andere Informationen enthalten, die unter den Begriff bibliographischer Daten fallen, beispielsweise Nicht-Web-Identifikatoren (ISBN, LCCN, OCLC etc.), Angaben zum Urheberrechtsstatus, administrative Daten und mehr; diese Daten können von Bibliotheken, Verlagen, Wissenschaftlern, Online-Communities für Buchliebhaber, sozialen Literaturverwaltungssystemen und Anderen produziert sein.
Darüber hinaus produzieren Bibliotheken und verwandte Institutionen kontrollierte Vokabulare zum Zwecke der bibliographischen Beschreibung wie z. B. Personen- und Schlagwortnormdateien, Klassifikationen etc., die ebenfalls unter den Begriff bibliographischer Daten fallen.

Vier Prinzipien

Wir empfehlen ausdrücklich die Übernahme und Umsetzung der folgenden Prinzipien:
  1. Wenn bibliographische Daten oder Sammlungen bibliographischer Daten veröffentlicht werden, sind die Wünsche und Erwartungen des Herausgebers im Hinblick auf Fragen der Nachnutzung und Wiederverwendung einzelner bibliographischer Beschreibungen, der gesamten Sammlung sowie Teilmengen der Sammlung klar und explizit anzugeben. Diese Angabe sollte präzise und unwiderruflich sein sowie auf einer angemessenen und anerkannten rechtlichen Erklärung in der Form eines „Waivers“ (Verzichtserklärung) oder einer Lizenz basieren.
    Die Veröffentlichung bibliographischer Daten erfolge mit einer expliziten und tragfähigen rechtlichen Erklärung.
  2. Viele weithin anerkannte Lizenzen sind weder bestimmt noch geeignet für bibliographische Daten oder Sammlungen bibliographischer Daten. Eine Auswahl von „Waivern“ und Lizenzen, die für die Anwendung auf Daten konzipiert und geeignet sind, ist beschrieben unter http://opendefinition.org/licenses/#Data. Creative-Commons-Lizenzen (mit Ausnahme der CC0), GFDL, GPL, BSD etc. sind NICHT geeignet für Daten und von ihrer Nutzung wird DRINGEND abgeraten.
    Benutze eine für Daten geeignete anerkannte Lizenz oder einen Waiver.
  3. Von der Benutzung von Lizenzen, die eine kommerzielle Nachnutzung verhindern oder eine Produktion derivativer Werke beschränken, indem die Nutzung für bestimmte Zwecke oder durch bestimmte Personen oder Organisationen ausgeschlossen wird, wird DRINGEND abgeraten. Solche Lizenzen machen es unmöglich, Datenbestände effektiv zu integrieren und nachzunutzen. Außerdem verhindern sie die Entstehung kommerzieller Dienste, die eine Aufwertung der Daten leisten sowie kommerzieller Aktivitäten, die zur Erhaltung der Datenmengen beitragen können.
    Um eine effektive Nutzung und Verbesserung der Daten durch andere zu erreichen, sollten die Daten offen im Sinne der Open Definition (http://opendefinition.org/) sein – insbesondere der Ausschluss kommerzieller Nutzung sowie andere einschränkende Klauseln sollten unterlassen werden.
  4. Darüber hinaus empfehlen wir – insbesondere öffentlich finanzierte – bibliographische Daten und Sammlungen bibliographischer Daten explizit in die Public Domain zu geben durch die Nutzung der Public Domain Dedication and Licence oder des Creative Commons Zero Waivers. Dadurch werden die Nachnutzungsmöglichkeiten maximiert, ganz im Sinne des allgemeinen Ethos des Teilens im Bereich öffentlich geförderter Gedächtnisinstitutionen.
    Wo möglich, empfehlen wir, bibliographische Daten mittels PDDL oder CC0 explizit in die Public Domain zu geben.
Beitragende: Karen Coyle, Mark MacGillivray, Peter Murray-Rust, Ben O’ Steen, Jim Pitman, Adrian Pohl, Rufus Pollock, William Waites

Addendum

Eine unvollständige Liste bibliographischer Daten.
Kerndaten: Namen und Identifikatoren von Autor(en) und Herausgeber(n), Titel, Verlagsinformation, Veröffentlichungsdatum und -ort, Identifizierung des übergeordneten Werks (z.B. einer Zeitschrift), Seitenangaben, URIs
Sekundäre Daten: Formatangaben, Nicht-Web-Identifikatoren (ISBN, LCCN, OCLC-Nummer etc.), Angaben zu Urheber- und Lizenzstatus, Angaben finanzieller Förderer, Angaben zum Trägermedium, Umfang- und Größenangaben, administrative Daten (letzte Änderung des Datensatzes etc.), relevante Links (zu Wikipedia, Google Books, Amazon etc.), Inhaltsverzeichnis, Links zu digitalisierten Auszügen eines Textes (Inhaltsverzeichnis, Register, Literaturverzeichnis etc.), Adresse und andere Kontaktdetails zum Autor/den Autoren, Coverabbildungen, Abstracts, Rezensionen, Zusammenfassungen, Schlagwörter, Stichwörter, Notationen, nutzergenerierte Tags, Exemplardaten (Signatur etc.),…
Übersetzung der englischen Originalfassung durch Adrian Pohl.

2011-01-31

Linked Open Data vs. WorldCat, oder: Eine Alternative, die keine ist

Der Wissenschaftsrat hat heute einige Papiere veröffentlicht:
  • Empfehlungen zu wissenschaftlichen Sammlungen als Forschungsinfrastrukturen (Pressemitteilung, PDF)
  • Empfehlungen zu Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften (Pressemitteilung, PDF)
  • Übergreifende Empfehlungen zu Informationsinfrastrukturen (Pressemitteilung, PDF)
Bisher habe ich diese Papiere nicht genauer in Augenschein nehmen können. Ein viertes Papier Empfehlungen zur Zukunft des bibliothekarischen Verbundsystems in Deutschland steht auch noch aus und wird am 3. Februar nachgereicht (Update 3.2.2011: siehe hier). Wie es scheint, gibt diese zentrale Aussage in den Übergreifenden Empfehlungen zu Informationsinfrastrukturen (S. 54) aber schon einen Vorgeschmack auf das Papier:
"Die Integration von Katalogdaten in Metadatenbanken setzt international gültige Standards voraus. Im Bibliotheksbereich werden derzeit zwei verschiedene, nicht kompatible Ansätze praktiziert: die Zusammenführung von Katalogdaten in einer bibliographischen Datenbank, z. B. WorldCat, welche die Kataloge mehrerer tausend, auch deutscher OCLC-Mitgliedsbibliotheken umfasst, sowie die Bereitstellung von Katalogdaten in Form in das offene Web integrierter Linked Open Data. Der Wissenschaftsrat bekräftigt seine Empfehlung, dass die bibliothekarischen Verbünde im Interesse der Wissenschaft sowie ihrer eigenen Zukunftsfähigkeit rasch zu einer abgestimmten strategischen Entscheidung für einen der beiden Ansätze finden müssen. Dabei muss sicher gestellt werden, dass die Verfügbarkeit und Weiterentwicklung entsprechender Dienste nicht monopolisiert wird."
Zunächst einmal: Den impliziten Befund, dass OCLCs WorldCat und Linked Open Data inkompatibel sind, kann ich bestätigen, OCLC hat dies selbst unmissverständlich klar gemacht (siehe hier). Wie soll man diesen Abschnitt nun desweiteren interpretieren? Offensichtlich macht der Wissenschaftsrat hier erst eine vermeintliche Wahlmöglichkeit "WorldCat oder Linked Open Data"[1] auf und empfiehlt, dass die Bibliotheksverbünde sich gemeinsam entscheiden, in Zukunft ausschließlich auf eine dieser Lösungen zu setzen. Allerdings wird mit dem letzten Satz dieses Zitats die eine Möglichkeit (WorldCat) direkt wieder ausgeschlossen, denn: Es kann eigentlich niemand ernsthaft auf WorldCat setzen, der eine Monopolisierung von Diensten ausschließen möchte, die über bibliographische Daten angeboten werden. Jedenfalls nicht, wenn er die Entwicklungen der letzten Jahre verfolgt hat. (Siehe dazu etwa hier, hier und hier.)

In der dem Papier zugehörigen Pressemitteilung heißt es auch:
"Der Wissenschaftsrat empfiehlt ferner eine enge Vernetzung von Informationsinfra­strukturen mit der aktuellen Forschung." 
Diese Empfehlung kann ich nur unterstützen und gleichzeitig feststellen: Die bestmögliche Erleichterung der Integration bibliographischer Daten in wissenschaftliche Forschungsumgebungen ist eines der Argumente für Open Linked Data. Denn wenn bibliographische Daten und andere Informationen offen lizenziert und unter Nutzung allgemeiner Standards im Web publiziert sind, ist sichergestellt, dass sie naht- und problemlos in wissenschaftliche Forschungs- und Textproduktionsumgebungen integriert werden können und dass dieser Integration auch in Zukunft nichts im Weg steht.

Es scheint also, als sei Open Linked Data die einzige Möglichkeit, den Anforderungen des Wissenschaftsrats gerecht zu werden. Unter diesen Vorzeichen könnte man sich ja zurücklehnen und sich auf den Auf-/Umbau der zukünftigen deutschen Informationsinfrastruktur unter Anwendung von Linked-Open-Data-Standards freuen. Allerdings glaube ich nicht, dass man sich auf diese optimistische Einschätzung verlassen kann...


[1] Ich bin mir nicht sicher, wie klar der Begriff des Wissenschaftsrats von Linked Open Data ist. Ich richte mich hier wie anderswo nach der Open Definition und bezeichne allein jene Daten als offen, die mit einer offenen Lizenz im Sinne dieser Definition lizenziert sind, siehe auch das Linked Open Data star scheme by example.

2011-01-18

Launch der Principles on Open Bibliographic Data

Ich freue mich, die offizielle Veröffentlichung der Principles on Open Bibliographic Data verkünden zu können. Die Prinzipien wurden gestern auf dem Peter-Murray-Rust-Symposium “Visions of a (Semantic) Molecular Future” gelauncht[1]. Die Prinzipien sollen als allgemeine Richtschnur bei einer Freigabe bibliographischer Daten dienen. Sie eignen sie sich zudem gut für die Überzeugungsarbeit im Umgang mit Produzenten bibliographischer Daten, wozu ja auch Bibliotheken gehören.

Kernaussagen

Die Hauptempfehlungen der Prinzipien lauten wie folgt:
  1. When publishing bibliographic data make an explicit and robust license statement.
  2. Use a recognized waiver or license that is appropriate for data.
  3. If you want your data to be effectively used and added to by others it should be open as defined by the Open Definition – in particular non-commercial and other restrictive clauses should not be used.
  4. Where possible, we recommend explicitly placing bibliographic data in the Public Domain via PDDL or CC0.
Unterstützung gesucht für deutsche Übersetzung

Eine vorläufige deutsche Übersetzung der Prinzipien findet sich hier. Ich würde mich über Rückmeldungen und Verbesserungen freuen, damit auch eine deutsche Fassung bald offiziell veröffentlicht werden kann. (Einfach editieren oder Kommentare hinterlassen, das Dokument kann von allen bearbeitet werden.)

Entstehung

Die Idee zu den Prinzipien hat ihren Ursprung in einer Diskussion auf der Mailingliste des deutschen Zweigs der Open Knowledge Foundation im Mai 2010. In dem damaligen Zusammenhang ging es insbesondere um Europeana-Metadaten und um die Daten der Europeana-Zulieferer. Ich habe den Vorschlag dann in die OKFN Working Group on Open Bibliographic Data getragen. Die Panton Principles for Open Data in Science wurden schließlich für die Formulierung der Prinzipien als Vorlage genommen

Mit der Zeit weiteten wir den Adressatenkreis der Prinzipien von den Bibliotheken auf die breite Gruppe der Produzenten bibliographischer Daten aus, wozu auch Verlage, Wissenschaftler, Online-Communities für Buchliebhaber (wie LibraryThing) oder soziale Literaturverwaltungssysteme (wie BiSonomy oder citeulike) gehören. Auf Anregung Peter Murray-Rusts ergänzten wir die Prinzipien um eine Definition bibliographischer Daten, wodurch der Geltungsbereich der Prinzipien klar eingegrenzt wurde.

Der gesamte Entstehungsprozess und die damit verbundenen Diskussionen waren sehr anregend, nicht zuletzt, weil eben auch theoretische Fragen - etwa nach dem Begriff bibliographischer Daten - diskutiert wurden und weil in der Gruppe Wissenschaftler, Techniker und Personen aus der Bibliothekswelt zusammenkamen und somit naturgemäß über den Tellerrand der Bibliothekswelt hinausgeschaut wurde.

Weiter geht's!

Die Principles on Open Bibliographic Data sind ein weiterer Schritt in Richtung einer Zukunft, in der bibliographische Daten frei fließen und dezentral aber kooperativ von verschiedensten Akteuren angereichert und verbessert werden. Die Veröffentlichung der Prinzipien markiert einen guten Start in das Jahr 2011. Bereits 2010 hat die Bewegung für freie bibliographische Daten einige Fortschritte machen und Erfolge feiern können wie kürzlich etwa auch Peter Suber in seiner Open-Access-Übersicht für 2010 dargestellt hat. Hoffen wir, dass es 2011 so ereignis- und erfolgreich weitergeht - etwa mit weiteren Datenfreigaben in Deutschland und ersten innovativen Linked-Data-Anwendungen auf Basis der offenen Daten!

[1] Siehe auch die Mitteilung im Blog der Open Knowledge Foundation.

2011-01-17

Schriftrolle - Kodex - Buch - ?

Auf arte.tv nimmt Robert Darnton unter anderem zur Frage nach der Verdrängung des Buchdrucks durch elektronische Medien Stellung.


Darnton sagt in dem Beitrag:
"Das Radio hat die Zeitung nicht verdrängt, der Fernseher hat das Radio nicht verdrängt und das Internet hat den Fernseher nicht verdrängt. Ebensowenig werden elektronische Bücher das gedruckte Buch verdrängen."
Ist "Zeitung - Radio - Fernsehen - Internet" wirklich die passende historische Entwicklungslinie, an der man sich in dieser Frage orientieren sollte? Handelt es sich bei den aufgezählten Medien nicht um gänzlich verschiedene? Die Zeitung ist ein starres visuelles Medium ähnlich dem Buch. Im Falle von Radio, Fernsehen und Internet haben wir es aber mit Medien zu tun, die aufgrund der Möglichkeit auditiver und/oder visueller Bewegtheit gänzlich anderer Natur sind. Deshalb ist es auch nicht verwunderlich, wenn diese Medien sich nicht gegenseitig verdrängen, sondern nebeneinander existieren und sich dabei vielmehr ergänzen.[1]

Man sollte folglich eher die Entwicklung der Speicher- und/oder Präsentationsmedien[2] von Schrift betrachten. Eine Entwicklungslinie der Präsentationsmedien könnte etwa so aussehen:

Schriftrolle - Codex - Buch - Display

Man könnte auch noch weiter zurück in die Zeit von Wachs- und Tonplatten oder in Stein gemeißelter Schrift gehen. In jedem Fall kann man die tatsächliche Verdrängung einiger Präsentations- und Speichermedien von Schrift durch neuere nicht leugnen. Ob das etwas an Darnton's Behauptung ändert, das Buch würde nicht durch das elektronische Buch verdrängt werden, ist eine andere Frage. Allerdings räume ich ebenfalls dem eBook (was auch immer das ist/sein wird) keine großen Chancen im Verdrängungskampf ein, solange es nicht das offene Web als Plattform benutzt... Aber wäre es dann noch ein Buch?

[1] Empfohlen sei in diesem Zusammenhang Paul Fords Text "The Web is a Customer Service Medium", in dem er die Eigentümlichkeit des Webs im Vergleich zu anderen Medien - allerdings von einer gänzlich anderen Perspektive als hier - ausarbeitet.

[2] Bis vor nicht allzulanger Zeit fielen Speicher- und Präsentationsmedium von Schrift zusammen, d.h. diese Unterscheidung war schlicht unnötig. Papier, ein Buch, eine Schriftrolle etc. sind gleichzeitig Speicher- und Präsentationsmedium von Schrift. Erst mit der Elektrifizierung, der Binärisierung von Schrift wurde diese Differenz überhaupt sinnvoll, denn die menschenlesbare Darstellung gespeicherter binärer Schrift bedarf eines Mediums neben dem eigentlichen Speichermedium.


[via blog.sub.uni-hamburg.de]

2011-01-05

OCLC membership: in search of criteria or a members list

Background: There have been several discussions going on at Karen Coyle's blog recently, one on a blog post by Karen about OCLC's motion to dismiss in the anti-trust lawsuit by SkyRiver against OCLC. In this discussion Karen referred to the questions I posed last year in the OCLC community forum discussion about the proposed policy (for background information see my blog post in German from April 2010 on OCLC and the Public Domain.) There also was an interesting discussion on another post and in its course Karen's assumption was challenged that Linked (Open) Data innovations in the library world would only come from institutions not bound by the OCLC policy.
As my text got to long for posting it as a comment on Karen's blog I am posting it here (simultaneously being my first post on this blog in English).

First: It was me that asked the questions under the name "Adrian" in the OCLC community forum concerning member libraries opening up their data under a public domain licence. And I definitely agree with Karen saying that the Record Use Policy Committee or any other body representing OCLC has not (yet?) answered my last question in this forum from April 16th 2010. The Committee rather postponed an answer and said that my question would be adressed by a reworking of section 5 of the policy. Albeit, since then this section hasn't changed a bit.

I haven't read the OCLC Motion and so I won't and can't go deeper into this discussion. But it is interesting that somehow related questions popped up in the debate about Karen's assumption that all libraries which do Linked/Open Data aren't bound by the OCLC policy. (See the comments on this post by Karen). I think the commenters attack the wrong person when they accuse Karen of making a statement that isn't fact-based. Maybe one should pose the question why it is so hard to find out the facts about who actually is an OCLC member and thus bound by the policy. In this post, I'll first try by myself to figure out what constitutes an OCLC membership.

Searching for criteria of OCLC membership

At first glance, it seems to be easy to find out the answer to the question who is actually bound by the policy. The policy itself makes clear at the beginning that it refers to the "OCLC cooperative":
"The policy is intended for the OCLC cooperative, which refers collectively to OCLC members, the OCLC governance structure (Board of Trustees and Global and Regional Councils), and the non-profit OCLC corporation."
Since July 2009 an OCLC member is defined as follows:
"Institutions worldwide become members of OCLC by contractually agreeing to contribute intellectual content or share resources."
Therefore, I might possibly assume that contributing data to WorldCat is a sufficient condition for being an OCLC member. But the membership definition also states:
"OCLC services and products qualifying for membership status are identified annually. These services and products are proposed by OCLC staff, reviewed by the Membership Committee, and any changes are approved by the Global Council and the Board of Trustees."
 As I understand it, the group of libraries which are OCLC members might change each year with the publication of a list of products and services qualifying for membership status. That seems to me quite strange in itself. Furthermore, the quoted sentence isn't linked to the current list of products and services qualifying for membership status - if such a list really exists. (Anyone?) Batch uploading might - as Karen shows in the case of the British Library which as per OCLC's annual report 2009/2010 (p.15) was the biggest batchloader to WorldCat - not necessarily constitute membership although OCLC's batch processing product page lists the point "Participate as fully as possible in the worldwide OCLC library community" which couldn't sound more like membership to me.

It seems that clear criteria for identifying OCLC members don't exist first and foremost the mentioned list of "services and products qualifying for membership status" doesn't exist openly accessible online. I can't easily find out who's an OCLC member and who's not simply by looking at the services and products they buy from OCLC.[1]

A list of OCLC members?

I might assume that all organizations listed in the search for OCLC libraries are OCLC members and thus are bound by the policy. If this was the case then the British Library would be an OCLC member as it is listed in this index together with Konstanz University Library, the Tübingen University Library and the BSZ (the library service center of the SWB library network both libraries belong to) who also have already opened up their data.[2]

To be clear: I am looking for clarity about OCLC membership, be it clear criteria that have to be met to be a member or a simple index of OCLC members. Contrary to Karen, I would not be the least bit surprised if there actually were OCLC members which are bound by the policy among the libraries doing Open (Linked) Data. It even is most probably the case that Konstanz University Library, Tübingen University Library as well as all other libraries in the SWB library network are OCLC members because the BSZ not only batchloads the union catalog data into WorldCat but they even copy catalog from WorldCat.[3] The BSZ might simply have bargained a contract with OCLC which permits them to do what they want with their data while also being an OCLC member, which would be a very sensible move. (I'd be very happy if somebody from the BSZ might leave a comment here concerning this.)

It's worth to consider that the OCLC corporation might not be the powerful player on the European market as it is in the US and that because of this presumed weaker bargaining position of OCLC in Europe contracts in Europe and the US might differ significantly...

Uncertainty & doubt

The underlying general problem is illustrated very well when Karen says:  "I don't think we have a way to know, with one quick search, who is and isn't covered by the agreement". If there exist clear criteria for OCLC membership or a database or list of OCLC member institutions these aren't publicly accessible.  In my view, it shouldn't be the case that you have to do weeks-long research and interview several people to get answers to these questions. One might think that a cooperative in the domain of public memory institutions has an open and up-to-date list of its members...

To sum it up: We have some understanding of the policy's intention, what it allows, proscribes and demands. And it is clear that the OCLC policy refers to "OCLC members"  but
a) we often don't really know whether an institution is an OCLC member or not or whether it has another relation to OCLC and
b) we don't know how a breach of the policy by one of the members might be sanctioned. There's no document saying what will happen. (But we know what OCLC did to a long-term member which decided to change the record supplier for copy cataloging...)

So, there's some uncertainty and doubt to be dealt with. Hopefully OCLC (members) will work on removing it by providing the relevant information...


[1] This thread on NGC4LIB about OCLC members and participants displays the same uncertainty about this question.

[2] A consistent definition of "open" in "Open Data", "Open Content" etc. is the Open Knowledge Definition. I stick to this definition when talking about Open Data which implies that German and French national libraries' data isn't (yet) open. And furthermore - following the Open Knowledge Definition - Linked Data isn't necessarily Open Data while Open Data mustn't be Linked Data, see Linked Open Data star scheme by example for more clarity on this.

[3] See https://wiki.bsz-bw.de/doku.php?id=v-team:katalogisierung:worldcat.

2010-10-19

Open Bibliographic Data in 2010. Ein vorläufiger Überblick

In den letzten Monaten hatte ich leider keine Zeit, den Übertext: Blog zu füttern. Eine Urlaubswoche gibt mir nun die Möglichkeit, dies zu ändern. Da sich eine Menge ereignet hat, ergreife ich diese Gelegenheit, um einen Überblick über die diesjährigen Entwicklungen im Bereich Open Bibliographic Data im allgemeinen und Open Library Data im Speziellen zu geben.[1]

Open Bibliographic Data vor 2010

2010 ist allerdings nicht das Jahr, in dem Aktivitäten und Entwicklungen rund um Open Bibliographic Data ihren Ursprung haben, weshalb ich einen kleinen Rückblick voranstellen möchte. In der Bibliothekswelt wurde Open Data bereits 2007 Thema zum einen mit dem Start der Open Library und zum anderen mit dem Berichtsentwurf Future of Bibliographic Control der Library of Congress (LoC), der kritisiert wurde, weil er das Thema "Lizenzierung von Bibliotheksdaten" außen vor ließ und sich somit auch nicht für Open Data aussprach.

Bis 2010 hat sich nicht sonderlich viel in Sachen Open Bibliographic Data getan, erwähnenswert ist allerdings noch der "Authorities & Vocabularies"-Dienst der Library of Congress, in dessen Rahmen seit April 2009 die Library of Congress Subject Headings als Linked Open Data zur Verfügung gestellt werden.

In Jahr 2010 hat sich nun schon derart viel ereignet, dass ich es für sinnvoll halte einen Überblick zusammenzustellen. Und das Jahr ist noch nicht zu Ende, ich bin sicher, dass uns noch weitere wichtige Ereignisse bevorstehen!

Freie Katalogdaten von Bibliotheken und Verbünden

2010 ist das Jahr, in dem einige Bibliotheken und Verbünde begonnen haben, ihre Katalogdaten unter einer offenen Lizenz freizugeben. Den Beginn machte im Januar die CERN Library. Es folgte die Universitätsbibliothek Gent im Februar und im März die bisher umfangreichste Datenfreigabe durch Kölner Bibliotheken, das Landesbibliothekszentrum Rheinland-Pfalz und das Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz).

Seitdem haben sich noch einige Bibliotheken dieser Initiative angeschlossen[2]:
Darüber hinaus sind sowohl im Südwestdeutschen Bibliotheksverbund als auch im hbz-Verbund weitere Datenfreigaben in Vorbereitung. Wie es in anderen Verbünden konkret aussieht ist unklar. Ich habe allerdings letzte Woche mit Vertretern des Kooperativen Bibliotheksverbundes Berlin-Brandenburg (KOBV) und des Bayerischen Bibliotheksverbundes (BVB) über Linked Open Data in der Bibliothekswelt gesprochen. Auch in diesen Verbünden besteht Interesse an dem Thema und die Resonanz schien mir sehr positiv zu sein. Wie es im GBV, der ja schon im letzten Jahr eine offene Lizenzierung in seinem Strategiepapier (das wohl leider aus dem Web genommen wurde) angekündigt hatte, gerade konkret aussieht, weiß ich nicht. Die Deutsche Nationalbibliothek konnte sich bisher noch nicht durchringen, eine offene Lizenz zu wählen und setzt - nach einigem Hin und Her - weiterhin auf eine Non-Commercial-Lizenzierung, siehe meinen Kommentar beim CKAN-Eintrag der GND-Daten.

Die OKFN Working Group on Open Bibliographic Data

Katalogdaten bilden allerdings nur eine Untermenge aller bibliographischen Daten, insbesondere Artikel aus wissenschaftlichen Zeitschriften werden in den meisten Bibliothekskatalogen nicht hinreichend erfasst. Eine große Menge anderer Akteure beschreibt bibliographische Ressourcen und erstellt Sammlungen bibliographischer Daten. Zu diesen Akteuren gehören:
Die Forderung nach Open Bibliographic Data und Aktivitäten zur Öffnung bibliographischer Daten dürfen sich demnach nicht auf Bibliotheken und Verbünde konzentrieren. Im Februar hat die Open Knowledge Foundation und insbesondere Jonathan Gray die Entstehung einer internationalen Working Group on Open Bibliographic Data angestoßen, die sich für Open Bibliographic Data im allgemeinen einsetzt. Ziel ist es, die offene Lizenzierung Veröffentlichung bibliographischer Daten im Netz - ähnlich wie Open Access und Open Source - als Standard zu etablieren. Diese Initiative stieß auf reges Interesse und es finden sich Menschen aus verschiedenen Ländern - Wissenschaftler, Bibliothekare, Open-Data-Aktivisten, etc.- zusammen. Im Juni habe ich die Koordinierung dieser Arbeitsgruppe übernommen. Es kommt zu regem Austausch auf der Mailingliste der Gruppe und neben dem gemeinsamen Verfassen eines Flyer-Textes zu freien Katalogdaten wurde gerade ein erster Entwurf von Principles on Open Bibliographic Data veröffentlicht, für den wir gerne Rückmeldung, Kommentare und Kritik erhalten.

Darüber hinaus sind Mitglieder der Gruppe an verschiedenen interessanten Open-Bibliographic-Data-Projekten beteiligt. Ich zähle hier jene auf, die mir derzeit bekannt sind [4]:

Das war erst der Anfang!

Es ist unschwer zu erkennen, dass das Jahr 2010 ein wichtiges Jahr für Freie Katalogdaten und Open Bibliographic Data im allgemeinen ist. Und wie gesagt: Das war erst der Anfang! Noch in diesem Jahr und in der Zeit danach werden weitere Bibliotheken ihre Daten freigeben und - so ist zu hoffen - auch erste Verlage ihre bibliographischen Daten offen lizenzieren.

Auf die Projekte im Bereich Linked Open Bibliographic Data bin ich in diesem Beitrag nicht eingegangen, wenn auch die Überführung der Daten in webkonforme Standards und die Schaffung erster Endnutzeranwendungen eine wichtige Aufgabe ist, an der in verschiedenen Projekte gearbeitet wird. Schließlich gehört zu Open Data die Publikation der Daten in einem offenen, leicht konsumierbaren Format. Ob MARC und MAB dazu zählen ist sehr zweifelhaft...

Jetzt werden die rechtlichen wie technischen Grundlagen für die zukünftige wissenschaftliche Kommunikationsinfrastruktur im Web gelegt. Wissenschaftliche Bibliotheken und Verbünde in Deutschland und anderswo sollten sich damit auseinandersetzen und diese Entwicklung mit vorantreiben!


[1] Für Einführungstexte in Open Data und Linked Data siehe http://www.uebertext.org/2010/08/drei-artikel-zu-linked-open-data-und.html.

[2] Ein Großteil der freigegeben Katalogdaten ist in CKAN verzeichnet und in der CKAN-Gruppe "Bibliographic Data" gesammelt. Allerdings fehlen noch die Daten aus Konstanz und Tübingen. Falls dies hier jemand aus diesen Institutionen liest, dann hole er/sie das doch bitte nach. Ich kann den Eintrag dann zu der Gruppe hinzufügen. Für einen Überblick siehe auch http://demonstrators.ostephens.com/obd/examples, wo allerdings auch Projekte aufgezählt werden, die (noch) keine offene Lizenz gewählt haben.

[3] Die ursprüngliche Lizenzierung mit einer nicht-offenen Non-Commercial-Lizenz wurde nach kritischen Rückmeldungen in eine Public-Domain-Lizenz umgewandelt.

[4] Siehe auch den zweiten Teil dieses Blogbeitrags von Peter Murray-Rust, in dem er auf einige der Projekte bezugnimmt.

2010-08-24

ZEIT-Artikel zur Akzeptanz von Open Data in Deutschland

Auf ZEIT online ist letzte Woche ein Artikel zu einer forsa‑Umfrage über die gesellschaftliche Akzeptanz von Open Data erschienen. Darin heißt es u.a.:
"Die Ergebnisse dürften die Befürworter zunächst freuen: Insgesamt sprechen sich 68 Prozent der Befragten für eine regelmäßige Veröffentlichung amtlicher und nicht‑personenbezogener Daten durch die Behörden aus. Nur 28 Prozent sind dagegen."
Open Government Data scheint immer mehr auch in Deutschland ein Thema zu werden. (Die USA und Großbritannien sind Deutschland in diesem Bereich einige Jahre voraus.) Der Großteil bibliothekarischer Einrichtungen ist Teil der öffentlichen Verwaltung und sollte sich ‑ auch aus diesem Grund ‑ einmal über Open Data Gedanken machen.

Bei Open Government Data geht es eigentlich in erster Linie um nicht‑personenbezogene Daten, die das Verwaltungshandeln dokumentieren. Ziel ist es, Verwaltung und Regierung transparenter zu machen. Allerdings wurden bisher im Rahmen von Open Government Data nicht nur Daten freigegeben, die das Regierungshandeln transparenter machen, sondern auch nichtadministrative Daten über andere Bereiche, die von öffentlichen Institutionen erstellt werden. In Großbritannien und den USA wurden zum Beispiel topographische Karten und Geodaten über Regierungsbezirke in die Public Domain gestellt, die von entsprechenden Behörden erstellt worden sind, siehe http://www.ordnancesurvey.co.uk/oswebsite/opendata/ und http://www.census.gov/geo/www/tiger/tgrshp2009/tgrshp2009.html. Hier besteht m.E. eine deutliche Parallele zu Katalogdaten, die als
"Landkarten der Literatur" von im öffentlichen Dienst tätigen Bibliothekarinnen und Bibliothekaren erstellt werden. Deshalb könnte man die freigegebenen Bibliothekskatalogdaten zu Recht als erste Welle von Open Government Data in Deutschland bezeichnen...

(Zeit‑Artikel via Netzpolitik. Dies ist der leicht abgewandelte Text einer E-Mail an die Inetbib-Liste.)