2010-03-25

Dimensionen von Open Bibliographic Data

Seit der gemeinsamen Publikation von Katalogrohdaten duch Kölner Bibliotheken, das Landesbibliothekszentrum Rheinland-Pfalz und das hbz mache ich mir Gedanken darüber, welche Implikationen dieser Schritt für die zukünftige Arbeit von Verbünden und Bibliotheken mit sich bringen könnte.

Natürlich war uns im hbz der Hintergrund und der vornehmliche Zweck einer Datenfreigabe klar: Ziel war und ist es, die Sichtbarkeit und den Nutzen von Katalogdaten im Internet zu maximieren, indem wir die Daten in das Linked-Data-Netz migrieren [1]. Uns wurde bei der Beschäftigung mit Linked Data schnell deutlich, dass der erste notwendige Schritt, um dieses Ziel zu erreichen ein politisch-rechtlicher ist, dass wir eben zunächst die Daten gemeinfrei machen sollten. [2] Open Data ist eine wichtige Voraussetzung, um Linked Data praktikabel und erfolgreich umsetzen zu können.

Die Reaktionen auf diese Open-Data-Initiative, die vielen Gespräche auf dem Bibliothekskongress mit geschätzten Kolleginnen und Kollegen sowie der Kontakt mit Journalist/innen haben mir mehr und mehr die vielschichtigen Implikationen einer konsequenten und verbreiteten Freigabe von Katalogdaten vor Augen geführt, die ich hier erläutern möchte.

Vier Dimensionen einer Open-Data-Praxis

Ich werde im Folgenden vier Dimensionen von Linked-Open-Bibliographic-Data unterscheiden, vier Bereiche der Arbeit von Bibliotheken und Verbünden, die mit einer breiten Annahme der Open-Data-Praxis einigen Veränderungen unterliegen werden. Wie das bei einer solchen Kategorisierung so ist, überschneiden sich die Dimensionen und gehen in einander über. Ich würde mich über Kommentare und Ergänzungen freuen.

1. Die interne Dimension: Konsequenzen für die Bibliothekswelt

Für Bibliotheken, Verbünde und alle anderen Organisationen, die Metadaten produzieren, nutzen, kaufen, verkaufen oder aggregieren bringt die weite Verbreitung einer Open-Data-Praxis weitreichende Konsequenzen mit sich. Auf der Basis freier Katalogdaten könnten Bibliotheken eine Umwelt erschaffen, in der die relativ einfache Nachnutzung großer Mengen von Daten (z.B. bei der Katalogisierung aber auch bei der Anreicherung eines Katalogs mit Schlagwörtern und externen Verweisen) ohne Kosten für die Daten selbst kein Problem wäre.

Für die etablierten Fremddatenlieferanten, die bislang mit Datendiensten Gewinne erwirtschaften, verlangt eine solche Praxis natürlich, ihr somit brüchig werdendes Geschäftsmodell grundlegend zu überdenken und vorausschauend neue Dienste zu entwickeln. Die Deutsche Nationalbibliothek (DNB) ist hier sehr fortschrittlich und hat die Zeichen der Zeit erkannt. In Kürze soll die Personennamendatei (hoffentlich mit einer Public-Domain-Lizenz versehen) als Linked-Open-Data veröffentlicht werden und auch die anderen Normdateien sowie die Titeldaten sollen folgen. Dies bedeutet, dass die DNB mittel- bis langfristig über kostenpflichtige Datendienste keine Gelder mehr erwirtschaften wird und sich die somit fehlenden Einnahmen anderswo holen muss. [3] Man darf gespannt sein, wie die DNB ihr Geschäftsmodell anpassen wird. Auch darf man hoffen, dass andere Fremddatenanbieter diesem Beispiel folgen werden, indem auch sie ihre Geschäftsmodelle überdenken und sich der Open-Data-Bewegung nicht verschließen oder sie gar bekämpfen.

2. Die externe Dimension: Der Nutzen freier Katalogdaten außerhalb der Bibliothekswelt

Auch außerhalb der traditionellen Grenzen der Bibliothekswelt wird eine Open-Data-Praxis einiges verändern. Die deutschen Wikipedianer sind hocherfreut über diesen ersten Schritt zur Öffnung der Bibliothekskataloge. Sie haben am Freitag direkt begonnen, die freien Rohdaten in ihre Dienste zu integrieren. Weitere Dienste wie die Open Library können die Daten genauso nachnutzen.

Einen großen Nutzen von freien bibliographischen Daten sehe ich auch für Wissenschaftler aus verschiedenen Bereichen, seien es Literatur-, Medienwissenschaftler oder Wissenschaftshistoriker. Ein großer, frei zu bearbeitender Korpus von bibliographischen Daten ermöglicht etwa Forschungsprojekte über das Publikationsverhalten, die Publikationsformen und die Inhalte verschiedener Bereiche von Wissenschaft und Literatur. Bibliographische Daten würden dadurch gewissermaßen ihres ursprünglichen Zwecks entfremdet als Forschungsdaten einer neuen Bestimmung zugeführt.

Darüber hinaus gibt es sicher unzählige andere nützliche Dinge, die mit bibliographischen Daten gemacht werden können, die wir uns jetzt aber noch gar nicht vorstellen können.

3. Die systemische Dimension: Öffnung des Bibliothekssystems

Es zeigt sich, dass eine Öffnung der Katalogdaten gleichzeitig eine Öffnung des Bibliothekssystems mit sich bringt. Spätestens sobald andere Organisationen wie die Wikipedia oder das Internet Archive beginnen Katalogdaten nachzunutzen und anzureichern, entsteht fast automatisch eine Kooperation mit diesen Gruppen. Denn will man die Nachnutzung der Daten maximieren, so bleibt ein Austausch über Formate und Katalogisierungspraktiken nicht aus. Auch könnten und sollten Bibliotheken und Verbünde die Ergänzungen und Korrekturen, die beispielsweise von Wikipedianern gemacht werden, in ihre Kataloge zurückfließen lassen. Es lassen sich auch gemeinsame neue Projekte auf Basis der Daten vorstellen. Die Nabelschau des Bibliothekswesens wird also endlich ihrem Ende entgegengehen.

Mit anderen Worten: Die Abgrenzung zwischen einer Bibliothekswelt und dieser Welt externen Organisationen, die ich in den ersten beiden Punkten vollzogen habe, wird mit der Verbreitung einer Open-Data-Praxis in der Bibliothekswelt hinfällig werden bzw. die Bibliothekswelt wird um einige neue Bereiche vergrößern.

4. Die technologische Dimension: Am Semantic Web mitweben

 Open Data dient als bestmögliche rechtliche Grundlage dafür, Daten im Linked-Data-Netz zu verweben. Die Daten in unseren Katalogen basieren auf Standards für die Speicherung von Daten aus den 1970er Jahren (MAB in Deutschland und MARC im internationalen Kontext). Damals wurden die Daten noch auf Magnetbändern gespeichert. Diese Standards sind nur für wenige Menschen innerhalb der Bibliothekswelt vollkommen verständlich und somit von anderen nichtbibliothekarischen Organisationen nur sehr schwierig nachnutzbar. Zudem sind komplexe Abfragen über diese Daten nicht möglich. Struktur und Inhalt einiger MAB-Felder ähneln oft eher einem Prosatext als wohlstrukturierten Daten. Sobald man sich näher mit der Materie auseinandersetzt wird klar, dass wir die Arbeit auf uns nehmen müssen, die Inhalte der Kataloge in wohl strukturierte, standardisierte und somit durch andere auch außerhalb der Bibliotheskwelt nachnutzbare  Formate zu migrieren.

Eben eine solche Anstrengung wird gerade in vielen anderen Bereichen unternommen [4], wo Daten auf Vokabulare gemappt werden, die die Überführung der Daten in das Datenmodell RDF (Resource Description Framework) erlauben. [5] Bibliotheken und Bibliotheksverbünde sollten mit ihren Daten ebenso verfahren. Dies ist ein vielversprechender Weg, um mit unseren Daten endlich ein Teil des Webs zu werden, indem die Daten mit Daten aus anderen Bereichen verlinkt werden. Nutzen und Wert unserer Katalogdaten, die Produkte jahrzehntelanger Katalogisierungsanstrengungen sind, würden somit maximiert.

Vier Motive, gegen Open Data zu sein

Im Umkehrschluss lassen sich aus diesen vier Dimensionen einer Open-Data-Praxis mindestens folgende vier Motive ableiten, gegen freie Katalogdaten zu sein und die Etablierung einer Open-Data-Praxis womöglich sogar verhindern zu wollen:
  1. Man verdient sein Geld mit dem Verkauf von bibliographischen Daten und hat nicht vor das eigene Geschäftsmodell den Entwicklungen im Internetzeitalter anzupassen bzw. man ist eine Bibliothek oder ein Verbund und möchte lieber bis in alle Zukunft für Metadaten Geld bezahlen.
  2. Man möchte nicht, dass die Katalogdaten außerhalb des OPACs irgendjemandem einen zusätzlichen Nutzen bringen und möchte die völlige Kontrolle und den alleinigen Besitz der Daten bei bibliothekarischen Organisationen wissen.
  3. Man möchte nicht mit Leuten oder Organisationen zusammen arbeiten, die nicht aus der Bibliothekswelt kommen und womöglich keine bibliothelkarische Ausbildung haben.
  4. Man möchte die Katalogdaten nicht in eine Form bringen, dass sie endlich "im Netz wohnen" (Danke, Anne), sondern will lieber die altertümlichen Formate beibehalten und die Inhalte der Bibliothekskataloge im Deep Web verstecken.
Regelmäßige Übertext-Leser/innen werden sich denken können, dass der Autor dieses Beitrags keines dieser Motive in irgendeiner Form billigt. Ganz im Gegenteil, ich begrüße alle vier oben ausgearbeiteten Dimensionen einer Open-Bibliographic-Data-Praxis und wünsche mir, dass ihre Entwicklung zügig voranschreiten möge.
Mehr freie bibliographische Daten jetzt!


[1] Eine gute Einführung in Linked Data bieten die zwei TED-Talks des Web-Erfinders Tim Berners-Lee. Von Ian Davis und Tom Heath gibt es auch einen "30 Minute Guide to RDF and Linked Data". Deutschsprachige Einführungen sind meines Wissens bisher kaum existent. Kürzlich hat Angelo Veltens etwas zum Thema auf Deutsch publiziert: "Warum wir Daten verlinken müssen".

[2] Für mehr Informationen zu Open Data und der damit verbundenen Lizenzierung von Datenmengen siehe den einführenden Text im hbz-Opendata-Wiki auf deutsch: "Open Data und Lizenzierungsfragen". [Update: Dieser Text ist online nicht mehr erreichbar. Siehe stattdessen meinen Artikel "Open Data im hbz-Verbund".]

[3] Zu den Veränderungen im Geschäftsmodell der DNB siehe Folie 9 von Jürgen Ketts Vortrag auf der SWIB09 (PDF) oder aktueller den Beitrag von Ute Schwens (PDF), in dem es auch heißt: "Insgesamt geht die DNB mit der Veränderung ihres Geschäftsmodells einen Weg, der letztendlich zu intensiveren Kooperationen und einer größeren Präsenz bibliothekarischer Informationen im Internet der Daten führt – und hofft auf breite Akzeptanz und Unterstützung durch die bibliothekarischen Kolleginnen und Kollegen."

[4] Hier sei nur auf die Open-Government-Initiative in Großbritannien, die Projekte der BBC oder der New York Times verwiesen.

[5] Genau gesprochen, können Daten nur in eine oder mehrere RDF-Serialisierungen übertragen werden. Bei RDF handelt es sich eben um ein Modell, dessen Realisierung eine von vielen verschiedenen Formen (RDF/XML, Turtle, N-Triples, Notation 3 etc.) annehmen muss. RDF ist somit gewissermaßen die Summe seiner Realisierungsmöglichkeiten.

2010-03-11

Die Zeit ist reif, wir müssen sie nur pflücken

Die Zeit ist reif. Geben wir der Öffentlichkeit, was der Öffentlichkeit gehört: die bibliographischen Daten der Bibliotheks- und Verbundkataloge.

Seit mehr als hundert Jahren wird die Erstellung und Pflege der Bibliothekskataloge öffentlicher und wissenschaftlicher Bibliotheken durch öffentliche Gelder (Steuergelder) finanziert. Es wird Zeit, diese Daten nicht nur frei zugänglich in Webkatalogen für Recherchezwecke zu Verfügung zu stellen, sondern sie vollumfänglich zu öffnen: Freie bibliographische Daten jetzt!

"Sind Katalogdaten nicht schon offen?"

Nun mögen manche BibliothekarInnen einwenden: "Unsere Daten sind doch bereits offen über das Web, über Z39.50-Schnittstellen usw. zugänglich." Frei zugänglich heißt aber nicht notwendigerweise offen. Orientierung gibt hier die Open Definition der Open Knowledge Foundation. Die Kurzform dieser Definition von "offen" besagt:
"A piece of knowledge is open if you are free to use, reuse, and redistribute it."
Die vollständige Definition spezifiziert die Zugangsbedingungen zu offenem Wissen wie folgt:
"The work shall be available as a whole and at no more than a reasonable reproduction cost, preferably downloading via the Internet without charge."
Dabei gilt: "'As a whole' prevents the limitation of access by indirect means, for example by only allowing access to a few items of a database at a time." Es ist klar, dass Bibliotheks- und Verbundkataloge noch nicht offen in diesem Sinne sind.

"Warum sollen wir unsere Daten verschenken?"

Diesem Einwand gegen Open Bibliographic Data begegnet man häufiger. Zunächst einmal: Es geht eben nicht darum unsere Daten zu verschenken. In dieser Aussage stecken zwei Fehler. Wie oben erläutert, gehören die Daten nicht uns, Bibliotheken oder Verbünden. Die Daten sind öffentlich, sie befinden sich gewissermaßen bereits in der Public Domain. Wir geben also der Öffentlichkeit nur das, was ihr ohnehin gehört.

Und von 'verschenken' kann hier auch nicht die Rede sein. Der Gebrauch des Ausdrucks 'Geschenk' heißt, 'das Eigentum an einer Sache oder an einem Recht freiwillig an einen anderen zu übertragen' (Quelle: Wikipedia). Und 'übertragen' im Sinne beinhaltet, dass nach Übertragung der Sache, des Verwertungsrecht usw. an einen anderen ich selbst nicht mehr über diese Sache verfügen kann. Dieses Moment der Aufgabe einer Sache oder eines Rechts gilt eben nicht für eine Übertragung von elektronischen Daten in die Public Domain, weil sich diese ganz simpel und beliebig oft reproduzieren lassen. Mein Recht, über die Daten zu verfügen besteht ja nach der Öffnung der Daten im selben Maße wie vorher, nur hat nun auch jede andere Person und Institution das Recht, die Daten zu benutzen wie ihr beliebt.

"Aber welchen Nutzen bringen freie bibliographische Daten?"

Die Frage welchen Nutzen die Freigabe bibliographischer Daten in die Public Domain mit sich bringt, ist damit allerdings immer noch nicht beantwortet. Und sie lässt sich auch nicht konkret beantworten, weil sich der Nutzen erst nach der Freigabe zeigen wird. Mein Verdacht ist allerdings, dass sich hinter der häufig geäußerten Frage "Welchen Nutzen bringen freie bibliographische Daten?" die weniger altruistische Frage verbirgt: "Welchen Nutzen bringen freie bibliographische Daten uns, den Bibliotheken und Verbünden?"

Die Freigabe von Daten führt zu ungeahnten kreativen Formen der Nutzung dieser Daten. Patrick Danowski verwies auf die erste nicht-intendierte Nutzung der vor einiger Zeit in die Public Domain entlassenen Daten der CERN Library. Dieser konkrete Fall ist sogar von unmittelbarem Gewinn für die Bibliothek.

Andere Nutzungen mögen in erster Linie der literaturwissenschaftlichen oder anderer Forschung dienen oder die Recherchemöglichkeiten nach Büchern bei Google verbessern. Dies ist aber kein Hindernis, sondern ein Grund zur Freigabe der Daten. Ich kann mir darüber hinaus eine ganze Menge nützlicher Webanwendungen vorstellen, die auf bibliographischen Daten von Bibliotheken aufbauen oder zu diesen Daten verlinken...

Ein konkreter Nutzen von Open Bibliographic Data wurde im letzten Übertext-Beitrag deutlich gemacht: Geben Bibliotheken im großen Maßstab ihre Daten frei, so würde es unmöglich, ein Dienstleistungsmonopol auf der Basis der weltweit größten bibliographischen Datenbank aufrechtzuerhalten. Eine große Menge an Bibliotheken würde profitieren, indem sie dieselben Dienste zu deutlich verringerten Kosten nutzen könnten. Dies würde bedeuten, dass OCLC sein Geschäftsmodell grundlegend überdenken müsste, um sich an eine solche Entwicklung anzupassen.

Datenpflege crowdsourcen

In Zeiten sinkender Budgets für Bibliotheken und andere öffentliche Einrichtungen ist die Pflege immer größerer Datenmengen allein durch Bibliothekare nicht mehr zu leisten. Wieso also nicht die Basis der Mit"arbeiter" um eine theoretisch unbegrenzte Menge Freiwilliger erweitern, indem die Daten(bank)pflege crowdgesourct wird? Firefox, Wikipedia und andere offene Projekte haben vorgemacht, dass dies funktioniert und Allen zugute kommt.

Bibliotheken werden mit der Freigabe ihrer Daten die alleinige Kontrolle (welche sie ohnehin nicht mehr besitzen) über die Welt der bibliographischen Daten abgeben. Aber dafür wird die Öffentlichkeit (das ist die Menge der in der Bibliothekswelt allgegenwärtigen "Nutzer") Nützlicheres, Vielfältigeres und Schöneres bekommen als wir uns jetzt vorstellen können.
Die Zeit ist reif.

2010-03-09

OCLCs Lock-In-Strategie

OCLC macht wieder von sich reden - mit einer Unternehmensstrategie, die man sonst eher von Herstellern proprietärer Software kennt: dem Lock-In-Effekt.

SkyRiver & die Bibliothek der Michigan State University

Aber beginnen wir am Anfang. (Die Zahlen aus dem folgenden Text stützen sich auf einen Artikel im Library Journal und einen Blogbeitrag von Karen Coyle.)

Im Oktober startete SkyRiver "a new bibliographic utility that offers a low cost alternative for cooperative cataloging". Gegründet hatte es Jerry Kline,  dem Mitgründer und Chef von Innovative Interfaces. SkyRiver wurde vom Library Journal sogleich als ernstzunehmender Konkurrent  zu OCLCs WorldCat im Bereich Fremddatenübernahme gehandelt.

Die Bibliothek der Michigan State University (MSU) rechnete sich nicht unerhebliche Einsparungen aus und beschloss - nach 40 Jahren Nutzung des OCLC-Fremddatenangebots - seine Fremddaten zukünftig von SkyRiver zu beziehen. Die Bibliothek hatte allerdings nicht vor, OCLC vollständig den Rücken zu kehren, sondern wollte weiterhin seine Bestandsangaben in den WorldCat laden, um seine Bestände anderen Bibliotheken weiterhin für die Inter Library Loan - das angelsächsische Pendant zuer Fernleihe  - anzubieten. Die MSU-Bibliothek machte seine Berechnungen mit dem Preis von 0,23 US-$ für das Hochladen eines Titels. Daraus ergabn Kosten von etwa 6000 $ jährlich für das Hochladen von etwa 26 000 Titeln pro Jahr. (Es ist doch bemerkenswert, dass Bibliotheken von sich aus diese - zugegebenermaßen geringen - Kosten auf sich nehmen, damit andere Zugriff auf ihre Bestände haben. Vgl. hierzu auch einen Blogbeitrag von Jonathan Rochkind.) Für die Teilnahme an der Fernleihe via OCLCs WorldCat zahlt die Bibliothek übrigens zusätzliche 88,500 $.

OCLC forderte schließlich aber einen ganz anderen Preis für diese - eigentlich in einer Preisliste festgelegte - Dienstleistung: Statt 0,23 $ pro Titel sollte das Ganze auf einmal 2,85 $ pro Titel kosten. Das ist mehr als das Zwölffache! Dieser enorme Preis für das Hochladen von Titeln in den WorldCat würde sämtliche finanziellen Vorteile, die die Bibliothek sich durch den Wechsel versprochen hat, nivellieren, so dass die MSU-Bibliothek auf eine Aktualisierung ihrer Bestandsangaben im WorldCat in Zukunft verzichten wird.

OCLCs Rhetorik

OCLCs Umgang mit dem Thema ist geprägt von einer einfachen Rhetorik. Bibliotheken, die den WorldCat nur für Fremdleihzwecke nutzen, nicht aber an dessen Aufbau und Pflege mitarbeiten wollen, wird parasitäres Verhalten vorgeworfen. Im Januar ließ Larry Alford, Vorsitzender des OCLC Board of Trustees, anklingen, dass sich Bibliotheken wie die der MSU eben  nur die Rosinen rauspicken wollen: "In some ways, I believe this is the equivalent of  'skimming the cream off the top without buying the whole bottle of milk.'" (Seine faktenlose und rhetorikgetränkte Rede ist seit Kurzem online verfügbar.) OCLC verkauft sich als der selbstlose Ermöglicher und Hüter bibliothekarischer Kooperation, deren Hauptziele eben Aufbau und Pfelge des WorldCat seien. Sämtliche Bibliotheken, die nicht bereit sind horrende Preise für die auf der weltweit größten bibliographischen Datenbank basierenden Dienste zu zahlen und die sich von OCLC abwenden möchten, trügen zum Untergang des WorldCat bei. Larry Alford:
"To be very frank, if enough libraries—not a lot, but enough—choose to consume more value from the cooperative than they return to the cooperative, then we risk losing WorldCat ... Decisions for short-term benefit or economic relief can be very harmful in the long term to our commons." (S.3 des Redetexts)
Ich weiß nicht, ob diese Rhetorik auch nur annähernd ihren Zweck erreicht. Meinem persönlichen Eindruck nach hat OCLC sich mittlerweile ziemlich in die Scheiße geritten und trägt mit seinem Verhalten zum Erstarken und Aufbegehren der Mitgliedsinstitutionen und zur Entstehung neuer konkurrierender Angebote bei.

Schwung für die Open-Data-Bewegung

Ich habe bisher auf Mailinglisten und in Blogposts keine Stimmen vernommen, die sich hinter OCLC stellen und sein Verhalten rechtfertigen. (Siehe etwa die Sammlung von Reaktionen hier sowie den Diskussionstrang zum Thema in der Mailingliste NGC4LIB, der hier startet.) Das war letztes Jahr bei OCLCs Versuch eine restriktive Metadaten-Policy durch die Hintertür einzuführen noch anders.

Ganz im Gegenteil scheint OCLC mit seinem krampfhaften Versuch, das eigene Monopol im angelsächsischen Raum zu erhalten, dazu beizutragen, dass sich immer mehr BibliothekarInnen mit einem Open-Data-Ansatz anfreunden. Auf NGC4LIB jedenfalls wurden entsprechende Forderungen, Katalogdaten auf einem Server abzulegen und über OAI-PMH bereitzustellen von verschiedenen Leuten unterstützt. Aus dieser Perspektive kann ich nur sagen: "Weiter so, OCLC!"