In den letzten Monaten hatte ich leider keine Zeit, den Übertext: Blog zu füttern. Eine Urlaubswoche gibt mir nun die Möglichkeit, dies zu ändern. Da sich eine Menge ereignet hat, ergreife ich diese Gelegenheit, um einen Überblick über die diesjährigen Entwicklungen im Bereich Open Bibliographic Data im allgemeinen und Open Library Data im Speziellen zu geben.[1]
Open Bibliographic Data vor 2010
2010 ist allerdings nicht das Jahr, in dem Aktivitäten und Entwicklungen rund um Open Bibliographic Data ihren Ursprung haben, weshalb ich einen kleinen Rückblick voranstellen möchte. In der Bibliothekswelt wurde Open Data bereits 2007 Thema zum einen mit dem Start der Open Library und zum anderen mit dem Berichtsentwurf Future of Bibliographic Control der Library of Congress (LoC), der kritisiert wurde, weil er das Thema "Lizenzierung von Bibliotheksdaten" außen vor ließ und sich somit auch nicht für Open Data aussprach.
Bis 2010 hat sich nicht sonderlich viel in Sachen Open Bibliographic Data getan, erwähnenswert ist allerdings noch der "Authorities & Vocabularies"-Dienst der Library of Congress, in dessen Rahmen seit April 2009 die Library of Congress Subject Headings als Linked Open Data zur Verfügung gestellt werden.
In Jahr 2010 hat sich nun schon derart viel ereignet, dass ich es für sinnvoll halte einen Überblick zusammenzustellen. Und das Jahr ist noch nicht zu Ende, ich bin sicher, dass uns noch weitere wichtige Ereignisse bevorstehen!
Freie Katalogdaten von Bibliotheken und Verbünden
2010 ist das Jahr, in dem einige Bibliotheken und Verbünde begonnen haben, ihre Katalogdaten unter einer offenen Lizenz freizugeben. Den Beginn machte im Januar die CERN Library. Es folgte die Universitätsbibliothek Gent im Februar und im März die bisher umfangreichste Datenfreigabe durch Kölner Bibliotheken, das Landesbibliothekszentrum Rheinland-Pfalz und das Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz).
Seitdem haben sich noch einige Bibliotheken dieser Initiative angeschlossen[2]:
- Die Zentralbibliothek der Sportwissenschaften hat am 12. April 2010 beschlossen, ihre Daten unter einer Public-Domain-Lizenz zur Verfügung zu stellen.
- Seit dem 21.6.2010 stellt die Hochschulbibliothek der RWTH Aachen ihre Daten der Öffentlichkeit uneingeschränkt zur Verfügung.
- Anfang Oktober hat die Cambridge University Library eine größere Menge Katalogdaten unter einer Public-Domain-Lizenz (in diesem Fall die mit der CC0 kompatible Public Domain Dedication and License) veröffentlicht.
- Im Oktober haben nun haben auch die Universitätesbibliotheken in Konstanz und Tübingen ihre Daten mit einer CC0-Lizenz versehen.[3]
Darüber hinaus sind sowohl im Südwestdeutschen Bibliotheksverbund als auch im hbz-Verbund weitere Datenfreigaben in Vorbereitung. Wie es in anderen Verbünden konkret aussieht ist unklar. Ich habe allerdings letzte Woche mit Vertretern des Kooperativen Bibliotheksverbundes Berlin-Brandenburg (KOBV) und des Bayerischen Bibliotheksverbundes (BVB) über Linked Open Data in der Bibliothekswelt gesprochen. Auch in diesen Verbünden besteht Interesse an dem Thema und die Resonanz schien mir sehr positiv zu sein. Wie es im GBV, der ja schon im letzten Jahr eine offene Lizenzierung in seinem Strategiepapier (das wohl leider aus dem Web genommen wurde) angekündigt hatte, gerade konkret aussieht, weiß ich nicht. Die Deutsche Nationalbibliothek konnte sich bisher noch nicht durchringen, eine offene Lizenz zu wählen und setzt - nach einigem Hin und Her - weiterhin auf eine Non-Commercial-Lizenzierung, siehe meinen Kommentar beim CKAN-Eintrag der GND-Daten.
Die OKFN Working Group on Open Bibliographic Data
Katalogdaten bilden allerdings nur eine Untermenge aller bibliographischen Daten, insbesondere Artikel aus wissenschaftlichen Zeitschriften werden in den meisten Bibliothekskatalogen nicht hinreichend erfasst. Eine große Menge anderer Akteure beschreibt bibliographische Ressourcen und erstellt Sammlungen bibliographischer Daten. Zu diesen Akteuren gehören:
- Verlage,
- Buchhändler,
- Wissenschaftler,
- Online Buch-Communities wie Library Thing
- Online-Plattformen zur Quellenverwaltung für Wissenschaftler wie CiteULike, Mendeley, BibSonomy etc.
Darüber hinaus sind Mitglieder der Gruppe an verschiedenen interessanten Open-Bibliographic-Data-Projekten beteiligt. Ich zähle hier jene auf, die mir derzeit bekannt sind [4]:
- Peter Murray-Rust, Rufus Pollock (OKFN) und Ben 'O Steen arbeiten in einem vom britischen Joint Informations Systems Committee (JISC) geförderten Projekt namens JISC Open Bibliography.
- Thomas Krichel arbeitet an 3lib, einer Sammlung bibliographischer Daten aus verschiedenen Quellen, die dem Dienst AuthorClaim die Datenbasis liefert, der darüberhinaus auf ARIW, eine offene Sammlung internationaler Forschungsinstitutionen, zurückgreift.
- Jim Pitman (Berkeley) arbeitet am Projekt Bibliographic Knowledge Network.
- Paul Miller und Owen Stephens haben einen sehr interessanten Dienst geschaffen: den Open Bibliographic Data Guide. (Eine deutsche Übersetzung dieses Dienstes wäre sicher eine gute Sache.)
- David Shotton - bekannt für seine Arbeiten zum Thema Semantic Publishing - arbeitet an einem weiteren JISC Projekt JISC Open Citations, in dessen Rahmen vor kurzem die SPAR Ontologien für "Semantic Publishing and Referencing" veröffentlicht wurden.
- Felix Ostrowski und ich sind gemeinsam mit Anette Seiler für die Linked-Open-Data-Aktivitäten am hbz zuständig.
- Verschiedene Mitglieder der Gruppe (Karen Coyle, William Waites, Ross Singer, Ed Summers) sind zudem aktiv in der Linked Library Incubator Group des W3C.
Das war erst der Anfang!
Es ist unschwer zu erkennen, dass das Jahr 2010 ein wichtiges Jahr für Freie Katalogdaten und Open Bibliographic Data im allgemeinen ist. Und wie gesagt: Das war erst der Anfang! Noch in diesem Jahr und in der Zeit danach werden weitere Bibliotheken ihre Daten freigeben und - so ist zu hoffen - auch erste Verlage ihre bibliographischen Daten offen lizenzieren.Auf die Projekte im Bereich Linked Open Bibliographic Data bin ich in diesem Beitrag nicht eingegangen, wenn auch die Überführung der Daten in webkonforme Standards und die Schaffung erster Endnutzeranwendungen eine wichtige Aufgabe ist, an der in verschiedenen Projekte gearbeitet wird. Schließlich gehört zu Open Data die Publikation der Daten in einem offenen, leicht konsumierbaren Format. Ob MARC und MAB dazu zählen ist sehr zweifelhaft...
Jetzt werden die rechtlichen wie technischen Grundlagen für die zukünftige wissenschaftliche Kommunikationsinfrastruktur im Web gelegt. Wissenschaftliche Bibliotheken und Verbünde in Deutschland und anderswo sollten sich damit auseinandersetzen und diese Entwicklung mit vorantreiben!
[1] Für Einführungstexte in Open Data und Linked Data siehe http://www.uebertext.org/2010/08/drei-artikel-zu-linked-open-data-und.html.
[2] Ein Großteil der freigegeben Katalogdaten ist in CKAN verzeichnet und in der CKAN-Gruppe "Bibliographic Data" gesammelt. Allerdings fehlen noch die Daten aus Konstanz und Tübingen. Falls dies hier jemand aus diesen Institutionen liest, dann hole er/sie das doch bitte nach. Ich kann den Eintrag dann zu der Gruppe hinzufügen. Für einen Überblick siehe auch http://demonstrators.ostephens.com/obd/examples, wo allerdings auch Projekte aufgezählt werden, die (noch) keine offene Lizenz gewählt haben.
[1] Für Einführungstexte in Open Data und Linked Data siehe http://www.uebertext.org/2010/08/drei-artikel-zu-linked-open-data-und.html.
[2] Ein Großteil der freigegeben Katalogdaten ist in CKAN verzeichnet und in der CKAN-Gruppe "Bibliographic Data" gesammelt. Allerdings fehlen noch die Daten aus Konstanz und Tübingen. Falls dies hier jemand aus diesen Institutionen liest, dann hole er/sie das doch bitte nach. Ich kann den Eintrag dann zu der Gruppe hinzufügen. Für einen Überblick siehe auch http://demonstrators.ostephens.com/obd/examples, wo allerdings auch Projekte aufgezählt werden, die (noch) keine offene Lizenz gewählt haben.
[3] Die ursprüngliche Lizenzierung mit einer nicht-offenen Non-Commercial-Lizenz wurde nach kritischen Rückmeldungen in eine Public-Domain-Lizenz umgewandelt.
[4] Siehe auch den zweiten Teil dieses Blogbeitrags von Peter Murray-Rust, in dem er auf einige der Projekte bezugnimmt.
5 Kommentare:
Mich würden die "ersten Endnutzeranwendungen" interessieren. Könntest Du ein paar Beispiele nennen?
Die Wikipedia-Personensuche z. B. bietet Literatur aus dem Kölner Katalog. Beispiel http://toolserver.org/~apper/pd/person/Ruth_Fischer
Kritische anmerkung: Die bibliotheken wissen selber nicht, was sie mit den offenen daten anfangen sollen und wie sie sie sinnvoll für die jeweilige nutzerschaft verwenden und aufbereiten können. Das soll nun nicht gegen die veröffentlichung der daten sprechen. Aber wenn ich mir die publikationen so anschaue, beim cern, ghent, hbz, etc., hat wohl - böse - die verfassung der offenheit beschwörenden pressemeldung gleich lange gedauert wie das publizieren. Denn: Wass soll ein einmaliger oder periodischer abzug in marcxml oder gar aleph-sequential? Bibliotheken müssen - kooperativ - auch an werkzeugen arbeiten, sonst ist das ganze nicht mehr als publicity.
@Anonym Du hast wohl keine Ahnung, wie stressig es alleine sein kann, die Daten aus einem proprietären Bibliothekssystem zu exportieren. Das schafft man nicht so schnell wie das Verfassen einer Pressemitteilung. :-)
Sicher hast du recht, dass eine Publikation in einem opaken Format wie MARC, MAB oder ALEPH-Sequential nicht das Nonplusultra ist, aber es ist auf jeden Fall ein sinnvoller Anfang, um darauf aufbauend iterativ die Daten ins Linked-Data-Netz zu integrieren und darauf basierende Dienste zu entwickeln. Man sollte allerdings nicht vergessen, dass andere Bibliotheken aber auch Leute von Wikimedia mit den Rohdaten schon einiges anfangen können. (Siehe ladislaus' Kommentar.) Wie ich in einem anderen Blogpost geschrieben habe, sollte m.E. Open Data eben nur der erste Schritt zu Linked Open Data und damit zur Integration bibliothekarischer Daten in das Web sein. Zu Open Data gehört halt auch die Nutzung offener Standards, zu denen MARC und MAB nur bedingt zählen...
Im hbz wird auch mit den Daten gearbeitet: Erste Konvertierungen nach RDF auf Basis der Bibliographic Ontology wurden etwa durchgeführt. Wir sind also am Ball und das Ganze ist nicht nur eine PR-Aktion ohne etwas dahinter. Nichtsdestotrotz dauert es bis zu den ersten brauchbaren Endnutzeranwendungen sicher noch ein paar Monate, zumindest von unserer Seite. Andere mögen da schneller mehr aus den Daten machen, worüber ich mich natürlich freuen würde...
Ich bin gespannt auf die Endnutzeranwendungen.
Passend zum Überblick eine Einschätzung von Mike Bergmann zum Stand von Linked Data:
"Linked data and the prospects of the semantic Web are at a critical juncture. While we have seen much growth in the release of linked data, we are still not seeing much uptake (other than some curated pockets). Linkages between datasets are still disappointingly low, and quality of linkages is an issue. The time has come to stop simply shoveling more triples over the fence."
http://www.mkbergman.com/925/ontotext-sd-form-strategic-partnership/
Kommentar veröffentlichen
Hinweis: Nur ein Mitglied dieses Blogs kann Kommentare posten.