2010-10-19

Open Bibliographic Data in 2010. Ein vorläufiger Überblick

In den letzten Monaten hatte ich leider keine Zeit, den Übertext: Blog zu füttern. Eine Urlaubswoche gibt mir nun die Möglichkeit, dies zu ändern. Da sich eine Menge ereignet hat, ergreife ich diese Gelegenheit, um einen Überblick über die diesjährigen Entwicklungen im Bereich Open Bibliographic Data im allgemeinen und Open Library Data im Speziellen zu geben.[1]

Open Bibliographic Data vor 2010

2010 ist allerdings nicht das Jahr, in dem Aktivitäten und Entwicklungen rund um Open Bibliographic Data ihren Ursprung haben, weshalb ich einen kleinen Rückblick voranstellen möchte. In der Bibliothekswelt wurde Open Data bereits 2007 Thema zum einen mit dem Start der Open Library und zum anderen mit dem Berichtsentwurf Future of Bibliographic Control der Library of Congress (LoC), der kritisiert wurde, weil er das Thema "Lizenzierung von Bibliotheksdaten" außen vor ließ und sich somit auch nicht für Open Data aussprach.

Bis 2010 hat sich nicht sonderlich viel in Sachen Open Bibliographic Data getan, erwähnenswert ist allerdings noch der "Authorities & Vocabularies"-Dienst der Library of Congress, in dessen Rahmen seit April 2009 die Library of Congress Subject Headings als Linked Open Data zur Verfügung gestellt werden.

In Jahr 2010 hat sich nun schon derart viel ereignet, dass ich es für sinnvoll halte einen Überblick zusammenzustellen. Und das Jahr ist noch nicht zu Ende, ich bin sicher, dass uns noch weitere wichtige Ereignisse bevorstehen!

Freie Katalogdaten von Bibliotheken und Verbünden

2010 ist das Jahr, in dem einige Bibliotheken und Verbünde begonnen haben, ihre Katalogdaten unter einer offenen Lizenz freizugeben. Den Beginn machte im Januar die CERN Library. Es folgte die Universitätsbibliothek Gent im Februar und im März die bisher umfangreichste Datenfreigabe durch Kölner Bibliotheken, das Landesbibliothekszentrum Rheinland-Pfalz und das Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz).

Seitdem haben sich noch einige Bibliotheken dieser Initiative angeschlossen[2]:
Darüber hinaus sind sowohl im Südwestdeutschen Bibliotheksverbund als auch im hbz-Verbund weitere Datenfreigaben in Vorbereitung. Wie es in anderen Verbünden konkret aussieht ist unklar. Ich habe allerdings letzte Woche mit Vertretern des Kooperativen Bibliotheksverbundes Berlin-Brandenburg (KOBV) und des Bayerischen Bibliotheksverbundes (BVB) über Linked Open Data in der Bibliothekswelt gesprochen. Auch in diesen Verbünden besteht Interesse an dem Thema und die Resonanz schien mir sehr positiv zu sein. Wie es im GBV, der ja schon im letzten Jahr eine offene Lizenzierung in seinem Strategiepapier (das wohl leider aus dem Web genommen wurde) angekündigt hatte, gerade konkret aussieht, weiß ich nicht. Die Deutsche Nationalbibliothek konnte sich bisher noch nicht durchringen, eine offene Lizenz zu wählen und setzt - nach einigem Hin und Her - weiterhin auf eine Non-Commercial-Lizenzierung, siehe meinen Kommentar beim CKAN-Eintrag der GND-Daten.

Die OKFN Working Group on Open Bibliographic Data

Katalogdaten bilden allerdings nur eine Untermenge aller bibliographischen Daten, insbesondere Artikel aus wissenschaftlichen Zeitschriften werden in den meisten Bibliothekskatalogen nicht hinreichend erfasst. Eine große Menge anderer Akteure beschreibt bibliographische Ressourcen und erstellt Sammlungen bibliographischer Daten. Zu diesen Akteuren gehören:
Die Forderung nach Open Bibliographic Data und Aktivitäten zur Öffnung bibliographischer Daten dürfen sich demnach nicht auf Bibliotheken und Verbünde konzentrieren. Im Februar hat die Open Knowledge Foundation und insbesondere Jonathan Gray die Entstehung einer internationalen Working Group on Open Bibliographic Data angestoßen, die sich für Open Bibliographic Data im allgemeinen einsetzt. Ziel ist es, die offene Lizenzierung Veröffentlichung bibliographischer Daten im Netz - ähnlich wie Open Access und Open Source - als Standard zu etablieren. Diese Initiative stieß auf reges Interesse und es finden sich Menschen aus verschiedenen Ländern - Wissenschaftler, Bibliothekare, Open-Data-Aktivisten, etc.- zusammen. Im Juni habe ich die Koordinierung dieser Arbeitsgruppe übernommen. Es kommt zu regem Austausch auf der Mailingliste der Gruppe und neben dem gemeinsamen Verfassen eines Flyer-Textes zu freien Katalogdaten wurde gerade ein erster Entwurf von Principles on Open Bibliographic Data veröffentlicht, für den wir gerne Rückmeldung, Kommentare und Kritik erhalten.

Darüber hinaus sind Mitglieder der Gruppe an verschiedenen interessanten Open-Bibliographic-Data-Projekten beteiligt. Ich zähle hier jene auf, die mir derzeit bekannt sind [4]:

Das war erst der Anfang!

Es ist unschwer zu erkennen, dass das Jahr 2010 ein wichtiges Jahr für Freie Katalogdaten und Open Bibliographic Data im allgemeinen ist. Und wie gesagt: Das war erst der Anfang! Noch in diesem Jahr und in der Zeit danach werden weitere Bibliotheken ihre Daten freigeben und - so ist zu hoffen - auch erste Verlage ihre bibliographischen Daten offen lizenzieren.

Auf die Projekte im Bereich Linked Open Bibliographic Data bin ich in diesem Beitrag nicht eingegangen, wenn auch die Überführung der Daten in webkonforme Standards und die Schaffung erster Endnutzeranwendungen eine wichtige Aufgabe ist, an der in verschiedenen Projekte gearbeitet wird. Schließlich gehört zu Open Data die Publikation der Daten in einem offenen, leicht konsumierbaren Format. Ob MARC und MAB dazu zählen ist sehr zweifelhaft...

Jetzt werden die rechtlichen wie technischen Grundlagen für die zukünftige wissenschaftliche Kommunikationsinfrastruktur im Web gelegt. Wissenschaftliche Bibliotheken und Verbünde in Deutschland und anderswo sollten sich damit auseinandersetzen und diese Entwicklung mit vorantreiben!


[1] Für Einführungstexte in Open Data und Linked Data siehe http://www.uebertext.org/2010/08/drei-artikel-zu-linked-open-data-und.html.

[2] Ein Großteil der freigegeben Katalogdaten ist in CKAN verzeichnet und in der CKAN-Gruppe "Bibliographic Data" gesammelt. Allerdings fehlen noch die Daten aus Konstanz und Tübingen. Falls dies hier jemand aus diesen Institutionen liest, dann hole er/sie das doch bitte nach. Ich kann den Eintrag dann zu der Gruppe hinzufügen. Für einen Überblick siehe auch http://demonstrators.ostephens.com/obd/examples, wo allerdings auch Projekte aufgezählt werden, die (noch) keine offene Lizenz gewählt haben.

[3] Die ursprüngliche Lizenzierung mit einer nicht-offenen Non-Commercial-Lizenz wurde nach kritischen Rückmeldungen in eine Public-Domain-Lizenz umgewandelt.

[4] Siehe auch den zweiten Teil dieses Blogbeitrags von Peter Murray-Rust, in dem er auf einige der Projekte bezugnimmt.

Kommentare:

Anonym hat gesagt…

Mich würden die "ersten Endnutzeranwendungen" interessieren. Könntest Du ein paar Beispiele nennen?

ladislaus hat gesagt…

Die Wikipedia-Personensuche z. B. bietet Literatur aus dem Kölner Katalog. Beispiel http://toolserver.org/~apper/pd/person/Ruth_Fischer

Anonym hat gesagt…

Kritische anmerkung: Die bibliotheken wissen selber nicht, was sie mit den offenen daten anfangen sollen und wie sie sie sinnvoll für die jeweilige nutzerschaft verwenden und aufbereiten können. Das soll nun nicht gegen die veröffentlichung der daten sprechen. Aber wenn ich mir die publikationen so anschaue, beim cern, ghent, hbz, etc., hat wohl - böse - die verfassung der offenheit beschwörenden pressemeldung gleich lange gedauert wie das publizieren. Denn: Wass soll ein einmaliger oder periodischer abzug in marcxml oder gar aleph-sequential? Bibliotheken müssen - kooperativ - auch an werkzeugen arbeiten, sonst ist das ganze nicht mehr als publicity.

Adrian Pohl hat gesagt…

@Anonym Du hast wohl keine Ahnung, wie stressig es alleine sein kann, die Daten aus einem proprietären Bibliothekssystem zu exportieren. Das schafft man nicht so schnell wie das Verfassen einer Pressemitteilung. :-)

Sicher hast du recht, dass eine Publikation in einem opaken Format wie MARC, MAB oder ALEPH-Sequential nicht das Nonplusultra ist, aber es ist auf jeden Fall ein sinnvoller Anfang, um darauf aufbauend iterativ die Daten ins Linked-Data-Netz zu integrieren und darauf basierende Dienste zu entwickeln. Man sollte allerdings nicht vergessen, dass andere Bibliotheken aber auch Leute von Wikimedia mit den Rohdaten schon einiges anfangen können. (Siehe ladislaus' Kommentar.) Wie ich in einem anderen Blogpost geschrieben habe, sollte m.E. Open Data eben nur der erste Schritt zu Linked Open Data und damit zur Integration bibliothekarischer Daten in das Web sein. Zu Open Data gehört halt auch die Nutzung offener Standards, zu denen MARC und MAB nur bedingt zählen...

Im hbz wird auch mit den Daten gearbeitet: Erste Konvertierungen nach RDF auf Basis der Bibliographic Ontology wurden etwa durchgeführt. Wir sind also am Ball und das Ganze ist nicht nur eine PR-Aktion ohne etwas dahinter. Nichtsdestotrotz dauert es bis zu den ersten brauchbaren Endnutzeranwendungen sicher noch ein paar Monate, zumindest von unserer Seite. Andere mögen da schneller mehr aus den Daten machen, worüber ich mich natürlich freuen würde...

Anonym hat gesagt…

Ich bin gespannt auf die Endnutzeranwendungen.
Passend zum Überblick eine Einschätzung von Mike Bergmann zum Stand von Linked Data:

"Linked data and the prospects of the semantic Web are at a critical juncture. While we have seen much growth in the release of linked data, we are still not seeing much uptake (other than some curated pockets). Linkages between datasets are still disappointingly low, and quality of linkages is an issue. The time has come to stop simply shoveling more triples over the fence."

http://www.mkbergman.com/925/ontotext-sd-form-strategic-partnership/

Kommentar veröffentlichen