Übertext: Blog

Was ist Wikidata und wie kann es die bibliothekarische Arbeit unterstützen?

2018-07-16T10:31:00.000+02:00

In der aktuellen Ausgabe von “ABI Technik” ist ein kurzer Text von mir in der Rubrik “ABI Technikfrage” enthalten, den ich vor gut drei Monaten geschrieben habe. Hier der Link zur Bezahlversion: https://doi.org/10.1515/abitech-2018-2013. Parallel veröffentliche ich den Wortlaut (angereichert mit Links und Anmerkungen) hier auf dem Blog unter einer CC0-Lizenz (so wie alle anderen Inhalte auch).

Wikidata ist eine von der Wikimedia Foundation seit 2012 betriebene Wissensdatenbank, die von jeder Person manuell oder maschinell bearbeitet werden kann. Die gemeinschaftlich erstellten Daten stehen unter einer CC0-Lizenz. In Wikidata können nicht bloß Informationen über etwas erfasst, sondern diese Aussagen auch mithilfe von Qualifikatoren beschrieben werden, etwa indem Quellen verlinkt, Zeiträume für die Gültigkeit einer Aussage angegeben oder divergierende Aussagen gewichtet werden.

Eines der ersten Ziele von Wikidata war die Unterstützung der Wikipedia-Projekte. Die Datenbank ermöglicht es, strukturierte Informationen wie die Bevölkerungszahl eines Landes einmalig zu erfassen und in den knapp 300 verschiedenen Wikipedia-Sprachversionen anzuzeigen, so dass nicht mehr parallel jede Wikipedia aktualisiert werden muss. Allerdings hat sich Wikidata schnell von der Wikipedia emanzipiert und deckt einen größeren Anwendungsbereich ab: Mittlerweile gibt es etwa so viele Einträge in Wikidata wie es Artikel in allen Wikipedia-Sprachversionen zusammen gibt.[1]

Die große Abdeckung und Vielfalt und der offene Charakter von Wikidata ließen schnell verschiedenste Nutzungsansätze entstehen. Dabei nutzen einige Anwendungen Wikidata bloß als Datenquelle, während andere die gesamte Wikidata-Infrastruktur zum Aufbau neuer Datensammlungen und Anwendungen verwenden.

Im bibliothekarischen Bereich hat Wikidata bisher vor allem in Bezug auf Normdaten von sich reden gemacht. Viele Wikidata-Einträge, etwa zu Personen, haben eine ganze Reihe von Identifikatoren unterschiedlichster Normdatenbanken. Damit kann Wikidata als Normdaten-Drehscheibe benutzt werden [2], über die weitere Quellen herangezogen werden können, einfach indem man eine entsprechende Abfrage mit der GND-ID einer Person, der ISIL einer Bibliothek oder einer anderen Normdaten-ID macht. Diese Möglichkeit wird etwa benutzt, um “Knowledge Cards” zu einer Person mit Bild und Basisinformationen innerhalb eines Bibliothekskatalogs anzuzeigen.[3]

Bei der Nordrhein-Westfälischen Bibliographie (NWBib) wird Wikidata gar als primäre Normdatenquelle für den Aufbau einer hierarchisch gegliederten Ortsklassifikation geographisch-administrativer Einheiten (Gemeinden, Städte, Stadtteile usw.) verwendet.[4] Der Grund: Wikidata ist die einzige nutzbare Datenquelle, die sowohl die nötige Abdeckung hat als auch die Informationen zur hierarchischen Gliederung enthält und auf einfache Weise bearbeitet werden kann.

Sehr relevant für Bibliotheken sind auch die unter dem Namen “WikiCite” stattfindenden Bemühungen, innerhalb Wikidata eine bibliographische Datenbank aufzubauen. Die WikiCite-Community trifft sich jährlich auf der gleichnamigen Konferenz, auch Bibliothekarinnen und Bibliothekare aus verschiedenen Ländern sind dabei. Verwandt damit ist das Scholia-Projekt, das Profile für Wissenschaftler/innen auf Basis von Wikidata generiert und damit sehr schön demonstriert, wie Funktionalitäten von kommerziellen, geschlossenen Diensten wie Web of Science in einer offenen und kollaborativen Umgebung umgesetzt werden können.

Wikidata ist erst fünf Jahre alt und bietet bereits eine Menge Nutzen und interessante Ansätze für Bibliotheken. Grund genug, ein Auge auf die weitere Entwicklung zu haben.

[1] [Edit 2018-07-16, 12:26] ~~Mittlerweile bin ich mir bei dieser Aussage nicht mehr so sicher.~~ Wikidata hat laut Statistikseite ca. 33 49 Millionen Einträge während alle Sprachversionen zusammen laut https://en.wikipedia.org/wiki/List_of_Wikipedias#Grand_total etwa 48 Millionen Einträge haben (inklusive "user pages, images, talk pages, ‘project’ pages, categories, and templates"). ~~Falls jemand mich auf genaue Artikel-Zahlen hinweisen kann, würde mich das freuen.~~

[2] Im deutschsprachigen Raum vertreten vor allem Jakob Voß und Joachim Neubert die Idee von Wikidata als “Normdaten-Hub”, siehe etwa ihre Vortragsfolien “Wikidata as authority linking hub”.

[3] Siehe etwa Dan Scotts Blogbeitrag “Enriching catalogue pages in Evergreen with Wikidata”.

[4] Das Projekt ist noch nicht abgeschlossen, für weitere Informationen siehe etwa die Wikiseiten https://github.com/hbz/nwbib/wiki/Neukonzeption-der-Raumsystematik und https://github.com/hbz/nwbib/wiki/Wikidata-Matchingverfahren.

Die OER-Metadatengruppe lebt

2017-11-29T14:46:00.002+01:00

Im Kontext der Entwicklung von Infrastrukturen zum Publizieren, Teilen und Finden von freien Lernmaterialen (OER = Open Educational Resources) tut sich einiges in Bezug auf Metadaten. Zum einen wurde gerade ein Heft der Zeitschrift Synergie veröffentlicht, in dem es drei Artikel zum Thema gibt. Siehe dazu die Ankündigung mit Download-Links unter https://synergie.blogs.uni-hamburg.de/kategorie/ausgabe04/.

Im Mai wuchs zudem die 2013 von mir initiierte OER-Metadatengruppe der DINI AG KIM durch eine Zusammenführung mit der Jointly OER-AG, die im Rahmen der Förderrichtlinie zur Förderung von Offenen Bildungsmaterialien (OERinfo) entstanden ist. Seit September gab es drei Online-Treffen der Gruppe.

In den letzten beiden Treffen haben wir u. a. die Ziele und Architektur einer zukünftigen dezentralen OER-infrastruktur diskutiert (siehe Notizen zu den Treffen der OER-Metadatengruppe der DINI AG KIM). Meine Meinung dazu findet sich in diesen Folien. Auf dem OER-Festival in Berlin wird vor “Entscheidern” eine allgemein gehaltene Vision vorgestellt (siehe die Folien).

Auch wenn ich manche Entwicklungen der OER-Infrastruktur sehr skeptisch betrachte (2017 noch in den Aufbau OAI-PMH-basierter Infrastruktur zu investieren scheint mir nicht gerade zeitgemäß), so schätze ich die Diskussionen in der Gruppe sehr. Grundsätzlich scheint auch Einigkeit darüber zu bestehen, dass eine zukünftige Infrastruktur auf Web-Standards (HTTP, URIs, HTML, JSON-LD etc.) basieren solle. Die existierende Infrastruktur im OER- wie im Bildungsbereich allgemein basiert aber leider – wir kennen das zu gut aus der Bibliothekswelt – auf Systemen, die ein Befolgen etwa der Linked Data Design Issues erschweren. Mit dem Wissen, dass hier Handlungsbedarf besteht, könnte ein Teil der in Aussicht stehenden OER-Fördergelder sinnvoll für eine Modernisierung (=Webifizierung) der Infrastruktur aufgewendet werden.

Falls hiermit Interesse an einer Mitarbeit geweckt wurde, dann schnell hier entlang, die Mailingliste abonnieren und am nächsten Treffen teilnehmen. In Kürze sollen hier im Blog noch ein bis zwei Beiträge zu konkreten Entwicklungen und Ideen in Bezug auf OER-Metadaten folgen…

Stöbergraph

2016-11-11T09:28:00.000+01:00

Yewno, gegründet 2011, ist ein durch Venture Capital finanziertes Unternehmen, das laut Selbstbeschreibung eine "Inferenz- und Analyse-SaaS-Plattform im Bereich Knowledge Discovery" anbietet:

Yewno, Inc. (“Yewno”) is a inference and analytics software as a service platform in the field of knowledge discovery; Yewno is the starting point that delivers infinite knowledge potential by displaying paths of information for you to navigate on your research journey. (Quelle)

Seit Juni 2016 wird das Produkt "Yewno for Education" im Beta-Stadium angeboten. Ein "Yewno for Finance" ist in Entwicklung. Hier geht es um ersteres. Eine öffentlich zugängliche Yewno-Testversion gibt es derzeit nicht. Dementsprechend habe ich den Dienst nicht testen können. Die Informationen in diesem Post stammen zum Großteil aus einem Scholarly-Kitchen-Artikel von Jill O'Neill und einem Beitrag im Rahmen der Buchmesse.

Datenbasis und Kooperationspartner

Yewno sammelt und prozessiert große Mengen von wissenschaftlichen Text, um anhand von linguistischer Datenverarbeitung und maschinellem Lernen Beziehungsnetze zu generieren, die schließlich visualisiert und durchstöbert werden können. Ein Blick auf die GitHub legt nahe, dass auch Wikipedia bzw. Wikidata einen Teil beiträgt zur Generierung der Verknüpfungen. Allerdings spielen Volltext eine zentrale Rolle und Yewno betreibt eine Menge Aufwand, um an große Mengen von Volltexten zu kommen. Laut dem genannten Buchmesse-Beitrag sind Verträge mit Oxford University Press, Stanford University Press, Springer Nature und Taylor & Francis Group geschlossen. Die Datenbasis umfasse "50 Millionen hochwertigen wissenschaftlichen Dokumenten, Artikeln und Büchern" und eine Verdopplung bis Weihnachten 2016 sei geplant. Offensichtlich zielt Yewno derzeit auf die Geisteswissenschaften, mit meta.com gibt es im STM-Bereich auch schon eine sehr ähnliche Lösung.

Acht Bibliotheken testen derzeit die Beta-Version: Harvard, Stanford, MIT, University of Michigan, University of California–Berkeley, Stonehill College, Oxford University und die Bayerische Staatbibliothek. Es verwundert nicht, dass die meisten dieser Institutionen ihre Bestände im Rahmen des Google-Book-Projekts digitalisieren. Man kann wohl davon ausgehen, dass auch diese Bestände in die Yewno-Datenbasis eingeflossen sind.

Visualisierung verknüpfter Konzepte, Snippets und Weiterleitung zum Volltext

Yewno ist als ein "Entdeckungswerkzeug" in Ergänzung zu klassischen Recherchesystemen konzipiert. Es richtet sich eher an Neulinge in einem bestimmten Gebiet, die sich zunächst einen Überblick verschaffen und dann möglicherweise tiefer einsteigen wollen. Den Kern von Yewno macht ein Netzwerk von Konzepten aus, das aus dem von Yewno zusammengetragenen Literaturkorpus generiert und anhand eines interaktiven Graphen visualisiert wird. Die Konzepte sind mit relevanten Literaturquellen verknüpft, aus denen Snippets angezeigt werden. Auf Basis des lizenzierten elektronischen – und mutmaßlich auch des gedruckten – Bestands der Bibliothek, wird der Nutzer – wenn erwünscht und vorhanden – zum Volltext geleitet.

Da ich das Tool nicht getestet habe und die YouTube-Videos wenig hergeben, kann ich nichts dazu sagen wie gut Yewno seine Versprechen erfüllt. Es scheint sich aber durchaus um einen interessanten Ansatz zu handeln, der – sei es durch Yewno oder ähnliche andere Produkte – traditionelle Discovery-Systeme in Zukunft ergänzen könnte. Schade, dass so etwas auf einer geschlossenen Datenbasis aufsetzt und nicht auf einem offenen Korpus von Open-Access-Dokumenten...

Infrastrukturanforderungsbestimmung

2016-06-02T23:18:00.000+02:00

Meinen letzten Blogbeitrag habe ich on- wie offline mit zwei Jans und mit Boris Bockelmann diskutiert (Besten Dank!).

Unter anderem ging es in den Gesprächen (wie auch im Austausch mit Boris in den Kommentaren zum Beitrag) um die Frage, ob für die dezentrale Erstellung und Synchronisierung von Metadaten ein zentraler Service nötig sei oder ob das auch dezentral funktionieren kann. Dabei ist mir eine wichtige und grundsätzliche Problematik mit Blick auf die DIPF-Infrastrukturstudie bewusst geworden: Wie so oft wird eine mehr oder weniger konkrete technische Lösung geliefert (hier: ein zentraler "Metadaten-Austausch-Service"), bevor überhaupt eine hinreichende Sammlung der Anforderungen an die OER-Infrastruktur stattgefunden hat. Zwar gibt es in der Studie einen gesonderten Abschnitt zu den Anforderungen (S.46-53), allerdings bleiben diese an der Oberfläche.

Bevor die tatsächliche Entwicklung der Infrastruktur oder die Konkretisierung ihrer Architektur beginnt, sollten die Anforderungen konkretisiert werden. Dies lässt sich z. B. anhand von User Stories tun wie im folgenden skizziert wird.

Nutzergruppen

Letztlich sind es die Anforderungen und Bedürfnisse der Nutzerinnen und Nutzer einer Infrastruktur (und nicht jene der Auftrag- oder Geldgeber, der Betreiber oder irgendwelcher anderer Akteure), die für die Ausgestaltung der Infrastruktur maßgeblich sein sollten. Somit sollten als erstes die verschiedenen Typen von Nutzern der Infrastruktur gesammelt werden. Im Falle von OER sind dies:

Menschen, die neue OER erschaffen und dabei unter Umständen bestehende OER überarbeiten und/oder kombinieren
Menschen, die nach OER suchen zum Einsatz in ihrer oder anderer Leute Bildung

Dies sind zwei sehr große und sehr heterogene Nutzergruppen. Von Grundschul- oder Förderpädagogen, bis zum Universitätsprofessor, von der an einem Thema nur beiläufig interessierten Person, über Schüler der Primär- und Sekundarstufe bis zur Doktorandin ist hier alles vertreten. Eine genauere Betrachtung der verschiedenen Untergruppen wäre sicherlich angebracht.

Erst User Stories formulieren, dann entscheiden

Zur Bestimmung der Anforderungen an eine zu entwickelnde Technologie haben sich in der agilen Softwareentwicklung User Stories etabliert. Es ist sinnvoll, zunächst eine ganze Menge User Stories aus Perspektive der verschiedenen Nutzergruppen zu sammeln, bevor man sich für oder gegen eine bestimmte Herangehensweise oder für eine bestimmte Technolologie entscheidet. Hier sind ein paar Beispiele:

Als Förderlehrerin in Deutsch möchte ich eine große Menge von Aufgaben und Übungen zum Buchstaben "A" finden, damit ich meinen Schülerinnen und Schülern über den recht langen Lernprozess abwechslungsreiche Lernmaterialien anbieten kann.

Als Lehrer möchte ich durch einen Klick auf ein "Edit"-Knopf die Ressource direkt im Browser anpassen können (Rechtschreibfehler, kleinere Anpassungen etc.), so dass ich schnell die von mir gewünschte Ressource zur Hand hab.

Als Lehrer möchte ich in einer komfortablen Webanwendung neue Arbeitsblätter erstellen, indem ich Übungen und Aufgaben aus verschiedenen Quellen kombiniere.

Als Lehrerin möchte ich von mir online erstellte Arbeitsblätter im Klassensatz ausdrucken.

Als Lehrer, der Arbeitsmaterialien zu einem bestimtmen Thema sucht, möchte ich an einer bestimmten Ressource auf andere Versionen derselben Ressource auf anderen OER-Plattformen hingewiesen werden.

Als Ersteller von OER möchte ich übersichtliche, intuitiv nutzbare webbasierte Autorenwerkzeuge, damit ich auf einfache Weise neue OER erzeugen und publizieren kann.

Als Ersteller von OER möchte ich Anforderungen an eine OER-Infrastruktur auf einfache Weise bestehende OER plus Metadaten von verschiedenen Plattformen übernehmen können, um eine angepasste Version der Ressource zu erstellen.

Als ehemalige Lehrerin möchte ich die Sammlung der von mir selbst erstellten Arbeitsblätter einscannen und unter einer offenen Lizenz für andere zur Nachnutzung publizieren.

Und so weiter. Dies sind nur ein paar Beispiele. Man sieht schnell, dass am Ende einer Sammlung von User Stories, die möglichst alle Nutzergruppen und alle Formen von OER berücksichtigt, eine sehr große Menge an User Stories zusammenkommen sollte. Diese können dann sortiert und priorisiert werden, zum einen für die Entwicklung von konkreter OER-Software, zum anderen für Entscheidungen hinsichtlich der Architektur (zentral vs. dezentral) der Gesamtinfrastruktur. Anforderungen ändern sich mit der Zeit, weshalb im Laufe der Entwicklung von Software und der OER-Infrastruktur die User Stories regelmäßig angepasst, ergänzt und neu priorisiert werden sollten.

Machbarkeitsstudie zum Aufbau einer OER-Infrastruktur

2016-05-22T22:49:00.001+02:00

Seit 2012 bin ich im Bereich Open Educational Resources (OER) aktiv, wobei mein Fokus zunächst auf Metadatenschemata und kontrollierten Vokabularen lag. Seit 2014 beschränken sich meine OER-Aktivitäten weitestgehend auf die Mitarbeit bei der Entwicklung der OER World Map. Die OER World Map ist eine Plattorm, auf der OER-Aktive aus der ganzen Welt Informationen für und über die globale OER-Community sammeln. Erfasst werden Daten über OER-Akteure und -Projekte, über Veranstaltungen und Onlineangebote im Bereich OER. Neben meiner Zuständigkeit für die Datenmodellierung übernehme ich im OER-World-Map-Team auch Aufgaben eines Product Owners.

Etwas länger noch befasse ich mich immer wieder mit der Weiterentwicklung der überregionalen Informationsinfrastruktur in Deutschland. 2011 habe ich etwa die Intransparenz des Neustrukturierungsprozesses beklagt, den der Wissenschaftsrat begonnen hatte, um ihn gemeinsam mit der Deutschen Forschungsgemeinschaft (DFG) weiterzuführen. 2012 habe ich selbst an einem DFG-Antrag (libOS) zum Thema mitgeschrieben und den letztlich erfolgreichen Antrag 2013 einer kritischen Analyse unterzogen.

In Anbetracht dieser Aktivitäten überrascht es nicht, dass ich sehr am Prozess und Ergebnis der Entwicklung einer überregionalen technischen Infrastruktur für OER im deutschsprachigen Raum interessiert bin, fließen darin doch gewissermaßen zwei meiner Interessengebiete zusammen. Da einige Entwicklungen im Hinblick auf die zukünftige OER-Infrastruktur stattgefunden haben, wird es Zeit, eine Zwischenbilanz zu ziehen.

Im letzten Jahr wurde das Deutsche Institut für Internationale Pädagogische Forschung (DIPF) vom Bundesministerium für Bildung und Forschung (BMBF) beauftragt eine Machbarkeitsstudie zum Aufbau einer OER-Infrastruktur in Deutschland zu erstellen. Neben einer Literaturanalyse wurden für die Studie Experteninterviews sowie Workshops durchgeführt. Am 10. Februar hat das DIPF das Ergebnis veröffentlicht, das hier einer näheren Betrachtung unterzogen wird.

Ich gehöre zu den für die Studie interviewten Personen, habe an einem der Workshops teilgenommen habe und Rückmeldungen zu einem Entwurf der Studie gegeben. Außerdem habe ich auf dem OER-Fachforum am 1. März 2016 in Berlin an einem "Thementisch" mit den Machern des Papiers und anderen Personen darüber diskutiert. Somit werden meine inhaltlichen Anmerkungen die Verfasser der Studie kaum überraschen. Alle Seitenangaben beziehen sich auf Deutscher Bildungsserver: Machbarkeitsstudie zum Aufbau und Betrieb von OER-Infrastrukturen in der Bildung (Stand: Februar 2016). 2016, 66 S. - URN: urn:nbn:de:0111-pedocs-117154.

Der Auftrag

Die Studie ist im Auftrag des Bundesministerium für Bildung und Forschung (BMBF) entstanden. Die Leistungsbeschreibung bzw. Auftragstexte sind zwar nicht bekannt und wurden – laut Christian Füller – auch auf Nachfrage nicht vom Ministerium herausgegeben. Allerdings gibt der Text der Studie selbst einigen Aufschluss. Ganz offensichtlich möchte das BMBF in OER investieren. So sei die Studie dadurch motiviert, "Bedarf, Voraussetzungen und Zielrichtungen einer öffentlichen Förderung freier Bildungsmaterialien" (S.5) zu konkretisieren. Die Aufgabe lautet, "Bedingungen und Erfordernisse für Aufbau und Betrieb einer OER‐Infrastruktur im Internet" zu untersuchen "im Dialog mit Expertinnen und Experten aus Bildungspraxis, Bildungsadministration und Wissenschaft, mit Akteuren der OER‐Bewegung sowie mit Medienproduzenten und ‐anbietern" (S.5).

Es geht also um "Infrastruktur". Das ist das, was idealerweise unsichtbar ist, was erst bemerkt wird, wenn es nicht funktioniert (wie z.B. die Stromversorgung, das DSL-Netz, OSI-Protokolle oder Zeichenkodierungen). Im Falle einer Dateninfrastruktur geht es um Daten, um Protokolle und Schnittstellen, um Software etc.

Ergebnisse/Empfehlungen der Studie

Im Folgenden werde ich nun sechs zentrale Empfehlungen des DIPF-Machbarkeitspapiers näher betrachten.

Absage an ein länderübergreifendes OER-Portal

Auf S.4 heißt es: "Aufbau und Betrieb einer zentralen Infrastruktur, im Sinne eines einzelnen Repositoriums bzw. Referatoriums, für OER über alle Bildungsbereiche hinweg stellen keine realistische Option dar". Ich bin sehr froh, dass dies so deutlich ausgesagt wird, findet sich doch noch im Bericht der OER-Arbeitsgruppe, der der Machbarkeitsstudie als "Orientierungsrahmen" diente, eine Empfehlung zum "Aufbau einer neuen bzw. die Unterstützung bereits bestehender länderübergreifender Plattformen im Internet" (Bericht der OER-Arbeitsgruppe, S.8).

Aus meiner Erfahrung neigt die Politik bisher gerne dazu, zentrale "Portale" zu fördern (z.B. vascoda, Europeana, Deutsche Digitale Bibliothek). Problematisch ist dies, weil meist die Ressourcen auf Ebene der Dienste fehlen, die eigentlich die Inhalte bereitstellen und dass ein enormer Aufwand betrieben werden muss, um die Metadaten einzusammeln und in eine einheitliche Struktur zu bekommen. Dazu kommen die Hemmnisse, die die föderale Struktur Deutschlands mit sich bringt. (Fördert man dagegen die Anwendung geteilter Standards und Schnittstellen bei den verschiedenen Diensten ist am Ende der Aufbau eines übergreifenden Rechercheangebots weniger aufwändig.)

Statt eines zentralen Angebots befürwortet die Studie die "Vernetzung bestehender (Teil-))Infrastrukturen", wozu als zentrale Komponente der Aufbau eines "Metadaten-Austausch-Services" (MDAS)(S.4) empfohlen wird. Hier schleicht sich also unter Umständen doch eine länderübergreifende Infrastrukturkomponente hinein. Ich werde dies weiter unten genauer betrachten.

Förderung von Repositorien und Nachweissystemen

Die erste der auf S.4 genannten "zentralen Empfehlungen" lautet:

Fördermaßnahmen sollten Anreize für den Aufbau bzw. die Vernetzung von Repositorien und Nachweissystemen in bislang wenig OER‐aktiven Handlungsfeldern schaffen (z.B. berufliche Bildung, Erwachsenenbildung).

Es wird also empfohlen, fach- oder bildungsbereichspezifische Systeme aufzubauen

für die Publikation von OER und sie beschreibender strukturierter Metadaten im Web (Repositorien) sowie
für die Rechereche nach OER (läuft unter dem relativ neuen, aus dem OER-Bereich kommenden Terminus "Referatorium" )

Förderung des Aufbaus digitaler Materialbestände

Die größere Herausforderung als der Aufbau einer technischen Infrastruktur ist die Entwicklung einer OER-Kultur. Damit meine ich, dass OER-Inhalte in der Breite von Lehrenden und Lernenden produziert, gepflegt, geremixt und in vielfältigen Bildungskontexten genutzt werden. Diese Frage, wo die Inhalte letztlich herkommen, wer sie erstellt und pflegt, ist nicht unbedingt von einem Infrastrukturpapier zu beantworten – es geht ja nicht um social enginieering. Dennoch nimmt die zweite "zentrale Empfehlung" darauf Bezug:

Empfohlen wird der Aufbau von digitalen Materialbeständen i.S.v. Referenzsystemen für OER zu pädagogisch oder bildungspolitisch besonders relevanten Themen (z.B. Inklusion, frühe Bildung, Alphabetisierung).

Wie dies genau umgesetzt werden soll, wird allerdings nicht näher erläutert. Die schwierige und grundlegende Frage, wie ein Wachstum von OER-Produktion und -Nutzung angeregt und die Entstehung einer nachhaltigen OER-Community gefördert werden kann, soll allerdings im die DIPF-Studie flankierenden, auch vom BMBF geförderten Projekt Mapping OER adressiert werden.

Interoperable Metadaten und Metadaten-Austausch-Service

Die dritte "zentrale Empfehlung" lautet wie folgt:

Bestehende OER‐Plattformen sollten um systematische Zugänge, Zugangsvokabulare für unterschiedliche Fächer und Arbeitsinstrumente ergänzt werden, die die Adaption der Materialien in anderen Bildungskontexten unterstützen. Fördermaßnahmen sollten an die Bereitstellung technischer Schnittstellen und interoperabler Metadaten geknüpft werden, welche für die Realisierung eines Metadaten‐Austausch‐Services (s.u.) notwendig sind.

Diese Forderungen lassen die Herzen von Bibliothekarinnen und Bibliothekaren höher schlagen, wird doch für die Inhaltserschließung die Nutzung geteilter kontrollierter Vokabulare und Klassifikationen (Normdaten) gefordert sowie die Bereitstellung von Schnittstellen zum Einsammeln der damit entstehenden Daten.

Was es aber mit dem Metadaten-Austausch-Service genau auf sich hat und welche Aufgabe er erfüllt bleibt unklar. In der Studie wird er als "zentraler", "aggregierender" "Hintergrunddienst" charakterisiert, der folgende Aufgaben übernimmt:

Er sammelt die Metadaten aus den deutschen OER-Referatorien regelmäßig ein (Aggregation).
Die verschiedenen Metadaten werden in eine gemeinsame Zielstruktur überführt (Normalisierung) und ggf. automatisch angereichert.
Der so entstehende übergreifende Metadatenpool wird zum Download und über Schnittstellen angeboten.

Es ist etwas verwunderlich, dass zum einen von einem zentralen OER-Referatorium abgeraten wird und zum anderen mit dem MDAS ein Service empfohlen wird, der anscheinend eine Menge der nötigen Vorarbeiten für ein solches zentrales Portal leistet.

Einige Skepsis im Hinblick auf die Notwendigkeit sowie leichte Umsetzbarkeit und Pflege des MDAS ist sicher angebracht. Allerdings adressiert das Design des MDAS zumindest eine wichtige Frage einer jeden Dateninfrastruktur, die auch mit nutzergenerierten Daten zu tun hat: Wie bekomme ich Menschen dazu in einer verteilten Infrastruktur kleiner Services, Ressourcen zu taggen und zu bewerten? Prinzipiell ist es überhaupt schwierig eine kritische Masse von Menschen aufzubauen, die Tags und Bewertungen vergeben, wenn man nicht schon eine so große Nutzerschaft wie etwa Amazon hat. Im Bibliotheksbereich ist der Katalog-2.0-Hype zumindest in Bezug auf nutzergenerierte Inhalte nach einigen Jahren vergangen, weil innerhalb der Nutzerschaft eines Bibliothekskatalog eben keine kritische Masse hergestellt werden kann. Bessere Chancen bestehen, wenn die nutzergenerierten Inhalte zwischen verschiedenen Katalogen/Referatorien augetauscht werden. So tauchen dieselben Daten überall auf, wo eine Ressource recherchierbar ist und die Chance, dass Nutzer/innen Lust bekommen, selbst zu taggen oder kommentieren, wird größer. Siehe auch einen Blogpost von 2012, in dem ich gewissermaßen mit der Idee eines Metadaten-Austausch-Service für moderne Bibliothekskataloge gespielt habe.

Auch wenn der MDAS also durchaus ein sinnvolles Ziel verfolgt, bin ich mir nicht sicher, ob dazu wirklich ein zentraler Dienst notwendig ist. Mir scheint als wären die Verfasser/innen am DIPF hier stark von ihren Erfahrungen im Rahmen der vom DIPF betriebenen Suchmaschine ELIXIER beeinflusst. ELIXIER stellt auch einen zentrale Datenaggregationsdienst dar. In der Beschreibung der ELIXIER-Historie heißt es:

ELIXIER – was übrigens für "Elaborated Lists in XML for Internet Educational Ressources" steht – startete im Mai 2007 mit dem Ziel, eine standardisierte Schnittstelle für den Austausch von Metadaten zwischen den deutschen Bildungsservern zu entwickeln und damit einen gemeinsamen Ressourcenpool für Lehr-/Lernmaterialien – insbesondere für den Schulunterricht – bereit zu stellen.

Meines Erachtens sollten auch Möglichkeiten genauer betrachtet werden, auf einen zentralen Mittler wie den MDAS zu verzichten und die Daten direkt zwischen den einzelnen Services auszutauschen.

Freie Software als Voraussetzung einer Förderung

Die DIPF-Machbarkeitsstudie empfiehlt als Voraussetzung der Förderung – neben strukturierten Metadaten und technischer Schnittstellen zum Datenaustausch –, dass neue Softwaresysteme als freie Software entwickelt werden sollten. So heißt es auf den Seiten 58 und 62: "Die Förderung [von Repositorien und Referatorien, A.P.] sollte gebunden sein an die Entwicklung der betreffenden Systeme als Open‐Source‐Produkt , um eine Nachnutzung für andere Einrichtungen zu gewährleisten." Diesen Punkt darf man meines Erachtens nicht unterschätzen. Dadurch werden – im Falle eines Erfolgs von OER und der entwickelten Open-Source-Systeme – Abhängigkeiten von kommerziellen Anbietern proprietärer Systeme verhindert.

Transparente Koordination & Kommunikation

Als ein wünschenswertes Ziel nennt die Studie "eine kontinuierliche Abstimmung" der einzelnen, an der OER‐Infrastruktur beteiligten Dienste. "Die Realisierung koordinierter Kommunikationsprozesse und konsensfähiger Workflows ist als zentrales Kriterium für den erfolgreichen Aufbau einer nachhaltig funktionsfähigen ... Infrastrukturbildung zu betrachten". (S.65)

Mit anderen Worten, die beteiligten Akteure sollen sich beim Aufbau der Infrastruktur austauschen, damit eine einheitliche Praxis bei der Er- und Bereitstellung der Daten entstehen möge.

Das Papier schlägt zu diesem Zweck vor, drei Gremien einzurichten:

eine Koordinierungsstelle. die "interoperable Strukturen und Workflows zwischen den beteiligten Anbietern" entwickelt, "um die Interaktion der unterschiedlichen Repositorien, Referatorien und eines zentralen Hintergrunddienstes zu koordinieren",
ein OER-Beirat soll die Koordinierungsstelle fachlich unterstützen, indem "Vertreter/inne/n aller Bildungsbereiche" Metadatenstandards und Schnittstellen abstimmen sowie
ein Runder Tisch, der ein "regelmäßiges offenes Diskussionsforum" darstelle, in dessen Rahmen "auf der Basis z.B. von Arbeitsgruppen oder Workshops innovative Vorhaben zur Weiterentwicklung OER‐förderlicher Infrastrukturen konzipiert".

Wenn ich das richtig verstehe soll die Koordinierungsstelle mit fachlicher Unterstützung des OER-Beirats die technischen Vorgaben der OER-Infrastruktur spezifizieren, deren Anpassung und Weiterentwicklung am "Runden Tisch" diskutiert wird. Ich halte es für etwas verfrüht, für den Austausch direkt drei formale Gremien vorzuschlagen, weil man erst einmal schauen sollte, wieviele und welche Akteure sich überhaupt beteiligen. Zudem halte ich andere Punkte im Kontext der kooperativen Entwicklung einer gemeinsamen Praxis – die ich in einem gesonderten Beitrag aufzählen werde – für viel wichtiger.

Fazit

Zwar wird der Entstehungsprozess der Studie zurecht kritisiert. Diese Kritik sollte auch ernstgenommen und es sollte daraus gelernt werden. Dennoch scheint mir das ziemlich gut zu laufen im Vergleich zu Prozessen der Planung, Förderung und Entwicklung von Dateninfrastrukturen in anderen Bereichen.

Insgesamt stimmt mich der Inhalt der Studie weiterhin sehr optimistisch, was den Aufbau der OER-Infrastruktur angeht. Insbesondere folgende Punkte sind hervorzuheben:

die Absage an ein länderübergreifendes OER-Portal,
die Empfehlung, Förderung an die Nutzung und Entwicklung von freier Software zu binden,
die Tatsache, dass viele Überlegungen gemacht werden – und das nicht erst seit dieser Studie – hinsichtlich Metadatenschemata, geteilten Klassifikations- und Verschlagwortungssystemen und Schnittstellen, die die einfache Zusammenführung verteilt vorliegender Metadaten sicherzustellen, mit dem Ziel das Auffinden relevanter OER zu verbessern.

Man darf gespannt sein, wie sich der weitere Prozess gestaltet.

Werbung & Lobbying mit Open Educational Resources

2016-02-23T23:06:00.002+01:00

Bei der Recherche für einen anderen Blogpost bin ich auf das Whitepaper “Unternehmensfinanzierte Open Educational Resources (OER) an Schulen” gestoßen, das vor kurzem von YAEZ – einer auf “Corporate Publishing für junge Zielgruppen” spezialisierten Agentur – publiziert wurde. YAEZ hat beispielsweise in der Vergangenheit – kostenlose aber (noch) nicht offen lizenzierte – Unterrichtsmaterialien zum Thema “Vernetzte Mobilität – Die digitale Revolution auf Rädern” erstellt, bezahlt von der Initiative “Unsere Autos” des Verbands der Automobilindustrie (VDA). [1]

Das Whitepaper wird auf den YAEZ-Seiten auch unter dem Titel “Erfolgsfaktoren für OER in der Bildungskommunikation” beworben. Hier einige der im Whitepaper genannten Vorteile für Unternehmen, die eine Publikation von OER brächten: “Image verbessern”, “Bekanntheit steigern”, “Inhalte beeinflussen”, “positives Bild vermitteln”, “Kunden gewinnen”, “Gewinn steigern”, “Gewinnung von qualifizierten und geeigneten Auszubildenden”.

Seit langem schon betrachten Unternehmen die Schulen als wichtiges Ziel von Lobbying und Werbung, und das Angebot und die Nutzung durch Unternehmen bereitgestellter Unterrichtsmaterialien nimmt stetig zu, wie etwa gerade ein Beitrag in der letzten Heute Show aufzeigt (siehe auch die dazugehörige “Fakten”-Seite mit weiterführenden Links). Von Unternehmen finanzierte offen lizenzierte Unterrichtsmaterialien sind allerdings bisher noch selten. Wenn die Zahl der Unternehmens-OER aber so rapide wächst wie jene der nicht-offenen (aber kostenlosen) Unterrichtsmaterialien, dann werden die bisher hauptsächlich durch Lernende, Lehrende und öffentliche Bildungseinrichtugen erstellten und gepflegten Open Educational Resources bald Konkurrenz bekommen.

[1] Angeblich platziert YAEZ seine Produkte auch auf lehrer-online, ich habe allerdings auf Anhieb die VDA-Materialien oder andere von YAEZ genannte Beispielmaterialien dort nicht finden können.

Does GND define authoritative headings?

2015-12-08T11:39:00.001+01:00

I already wrote about authority files. In that post I said about Integrated Authority File (GND) which is "operated cooperatively by the German National Library, all German-speaking library networks, the German Union Catalogue of Serials (ZDB) and numerous other institutions" (source):

In the Integrated Authority File a numeric ID (GND ID) is used to identify an authority record. Likewise, each bibliographic record that references this authority record uses the GND ID.

Furthermore, I would even say that this ID is kind of the authoritative "heading" that enables searching for resources about Princess Diana in every data base that uses GND. But a heading in the sense of an authoritative string that all GND users use to refer to Princess Diana does not exist.

On the verge of an edit war ;-)

In December 2013 I had already edited the Wikipedia entry on "Authority Control" to reflect this practice (Edit 1).

Wikipedia user Gymel (Thomas Berger) doesn't agree as you can see by his reverts of my changes (Edit 2, Edit 4 after I put the GND ID back in Edit 3). As this topic can hardly be discussed in Wikipedia commit messages I am writing this post to provide some evidence for my thinking in the hope that the Wikipedia entry will be corrected (once again) soon.

What are "headings", anyway?

Wikipedia says:

In library science, authority control is a process that organizes library catalog and bibliographic information by using a single, distinct name for each topic. The word authority in authority control derives from the idea that the names of people, places, things, and concepts are authorized, i.e., they are established in one particular form. These one-of-a-kind headings are applied consistently throughout the catalog, and work with other organizing data such as linkages and cross references.

In short, headings are authorized names that

are applied consistently throughout the catalog and
are used for linkages and cross references.

With regard to GND (and many other authority files), one would have to adjust point 1: As there is no one catalog GND is maintained for, it should rather read "applied consistently throughout catalogs". Accordingly, below I will have a look at many catalogs from different GND users to see whether there is consensus on one authoritative heading across these different catalogs.

With regard to Geman-speaking cataloging practice, I argue that

no authoritative name strings exist that are applied across catalogs of all GND users, but authoritative strings may only exist within a single catalog
linkages and cross references are exclusively managed by using the GND ID and not a string.

Evidence

Below I am providing some evidence for the two points I made above.

Usage of different headings for presentation purposes

Taking our example Princess Diana (GND ID 118525123), I looked at several data sources to see which heading they use. Interestingly, you just have to look at different representations of the authority record from the German National Library (DNB) alone and will already find different headings in use:

The DNB-OPAC uses Diana, Wales, Prinzessin. We might think that this is the authoritative string. The GND RDF provided by DNB using the GND ontology defines both a "preferred name entity" and a "preferred name". We can already find a difference here – at least in punctuation:


<http://d-nb.info/gnd/118525123>
        gndo:preferredNameEntityForThePerson [
            gndo:epithetGenericNameTitleOrTerritory "Wales, Prinzessin"^^<http://www.w3.org/2001/XMLSchema#string> ;
            gndo:personalName "Diana"^^<http://www.w3.org/2001/XMLSchema#string>
        ] ;
    gndo:preferredNameForThePerson "Diana <Wales, Prinzessin>"^^<http://www.w3.org/2001/XMLSchema#string> .

Taking a look at the DNB-MARC, we can see that birth and death date sneak into the heading (I may be wrong here as I am not very familiar with MARC, really):


        <datafield tag="100" ind1="0" ind2=" ">
            <subfield code="a">Diana</subfield>
            <subfield code="c">Wales, Prinzessin</subfield>
            <subfield code="d">1961-1997</subfield>
        </datafield>

We will also find headings for Princess Diana (GND ID 118525123) that include birth and death dates in data bases of other GND maintainers:

hbz union catalogue: Diana, Wales, Prinzessin, 1961-1997"

GBV union catalogue: Diana <Wales, Prinzessin> *1961-1997*

SWB union catalogue actually has two different headings: Diana, Wales, Prinzessin [1961-1997] and recorded as "Ansetzung Landesarchiv BW": Wales, Diana; Prinzessin; 1961 - 1997 | 118525123

Kalliope (for example this record): Diana <Wales, Princess> (1961-1997)

At last we have two entries that follow the different punctuation versions of the DNB.

HeBIS (e.g. this record): Diana, Wales, Prinzessin

BVB: Diana <Wales, Prinzessin>

Usage of GND IDs for linking

This should be clear to everyone that name strings aren't used for linking to GND entries. As example, I only point to the wide-spread practice of creating beacon files to point to ones catalogued resources on the basis of GND IDs: https://de.wikipedia.org/wiki/Wikipedia:BEACON.

tl;dr

The Integrated Authority File (GND), operated cooperatively by a large group of libraries and library service centers in German-speaking countries, does not define authoritative name strings (= headings) to be used across the different catalogs of GND users.

Bibliotheksbärendienst, die Dritte

2015-10-26T21:45:00.002+01:00

Eigentlich wollte ich doch bereits mit dem vorletzten Beitrag mein Soll für dieses Jahr erfüllt haben. Mindestens ein weiterer Beitrag ist aber offensichtlich noch nötig...

Was lief

Nach meinem Beitrag vom Mittwochabend bekam ich Freitagmorgen eine E-Mail von der Person, deren E-Mail ich in meinem Blog zitiert hatte, mit einer unbegründeten Aufforderung, die Angaben aus Ihrer Nachricht und ihren Namen umgehend von meinem Blog zu löschen. Da mir so etwas bisher nicht passiert ist, versetzte mich die Sache in ganz schöne Aufregung. Ein befreundeter Jurist und ich versuchten in kurzer Zeit, die rechtliche Lage einzuschätzen, insbesondere lasen wir auch diesen Text von Thomas Stadler, der im folgenden noch desöfteren genannt werden sollte.

Auch wenn wir beide die Lage so einschätzten, dass mein Zitat höchstwahrscheinlich keine rechtlichen Folgen haben könnte, empfahl mein Freund mir, es vorerst aus dem Blog zu nehmen. Schließlich sei die Sache nicht sicher, so "beispielsweise das Landgericht Köln regelmäßig auch die Veröffentlichung von Briefen, die berufliche oder geschäftliche Fragen betreffen, für unzulässig hält" wie es in dem genannten Text heißt. Ich ersetzte den Text durch eine Anmerkung, dass ich zur Löschung aufgefordert worden war und informierte De Gruyter. Meine Reaktion lässt sich zum einen damit erklären, dass mir schlicht die Gelassenheit und Standhaftigkeit für einen souveränen Umgang mit der Sache gefehlt haben. Zum anderen war es mir aber mittlerweile auch unangenehm, den Absendernamen genannt zu haben. Klaus Graf hatte zwar bereits auch einen Beitrag zu der Sache veröffentlicht, so dass also die Sache ohnehin nicht mehr rückgängig zu machen war – allerdings ohne den Namen zu nennen.

Die Sache ließ mir aber nach der Löschung keine Ruhe und ich war schnell unzufrieden, der Aufforderung ohne Notwendigkeit nachgekommen zu sein. Ich schrieb eine weitere E-Mail an De Gruyter, in der ich darstellte, dass die derzeitige Lage für keinen zufriedenstellend sei. Mit Verweis auf den Stadler-Text wies ich auf die Rechtmäßigkeit meines Vorgehens hin und schlug vor, das Zitat ohne Nennung des Absenders wieder in den Beitrag aufzunehmen. Auch wies ich De Gruyter darauf hin, dass sie am Streisand-Effekt kein Interesse haben dürften. Die nächste De-Gruyter-Antwort kam dann von der nächsthöheren Hierarchieebene in einem deutlich gelasseneren Ton. Es hieß nun, De Gruyter habe sich von Anfang nicht an der Wiedergabe der Verlagsposition in meinem Blogbeitrag gestört, sondern lediglich an dem direkten Zitat aus einer Geschäftsmail. Eine Paraphrase des Mail-Inhalts wäre nie als ein Problem angesehen worden. Bisher – so teilte ich De Gruyter daraufhin mit – habe sich die Sache für ich ganz anders angehört, schließlich lautete der Betreff der ersten E-Mail "Aufforderung zum Löschen" und nicht "Aufforderung zum Paraphrasieren". Was da bei De Gruyter wirklich ablief, kann ist jede/r eingeladen, sich selbst auszumalen.

Offensichtlich hatten sie auch eine Löschaufforderung an Klaus Graf geschrieben, der dies sofort auf Inetbib publik machte. Ich aber wollte die Sache hinter mich bringen und entschied mich zum zweiten, aktuellen Update des Blogposts inklusive Paraphrase der E-Mail. So weist der Text zumindest keine Lücke mehr auf und lädt zur Diskussion des eigentlichen Sachverhalts ein. Ich twitterte das Update und sendete eine Mail an Inetbib.

Was kam

Im folgenden haben sich Klaus Graf – der zunächst zur Solidarität mit mir aufgerufen hatte – und Dietrich Pannier zur Löschung kritisch geäußert und auch Eric Steinhauer wies mich auf Twitter darauf hin, dass ich das Recht auf meiner Seite habe und es sich lediglich um "Stilfragen" handele.

Klaus Graf hat sogar einen Überblick über die Rechtsprechung und Literatur zum Thema erstellt und kommt zu dem Schluss:

Grundsätzlich ist bei der Veröffentlichung fremder E-Mails trotzdem Vorsicht geboten. Aber bei harmlosen Fällen wie der Causa De Gruyter sind übermäßige Ängste nicht am Platz. Eindeutig war die Stellungnahme des Bibliotheksjuristen Dietrich Pannier in INETBIB:

http://www.inetbib.de/listenarchiv/msg56677.html

Pohl habe mit dem Zitat "weder Latten der Höflichkeit noch des Rechts gerissen [...]. Man kann es auch so empfinden, dass der forsche, aber rechtlich unbeachtliche Vorhalt des Verlag geeignet sein könnte, weitere Personen von Anfragen abzuhalten."

Ich gebe Klaus Graf und Dietrich Pannier recht. Niemand sollte generell auf ein Zitieren von E-Mails zu verzichten, und ich rate, bei einer solchen Reaktion Ruhe zu bewahren und nicht voreilig zu löschen. Am besten macht man sich schon vor der Veröffentlichung von E-Mailzitaten im Web mit der Rechtslage vertraut. Da die Sache nun einmal so gelaufen ist, belasse ich es dabei und kann mich damit trösten, eine ganze Menge dabei gelernt zu haben.

Was bleibt

So wichtig Diskussionen darüber sind, ob und wie man am besten E-Mails im Web zitiert, wichtiger ist es, dass es auch in der Sache weitergeht. Die von mir im letzten Beitrag gestellte Frage ist für mich immer noch nicht abschließend beantwortet. Ich habe unterschiedliche Meinungen zur Rechtslage in Bezug auf das kostenpflichtige Angebot von Bibliotheksdienstartikeln durch De Gruyter gehört. Klaus Graf bezeichnet dies als Verstoß gegen das Urheberrecht:

Eine Retrodigitalisierung ohne Zustimmung des Autors bei Zeitschriften, bei denen nicht ausdrücklich ausschließliche Nutzungsrechte über das eine Jahr des § 38 UrhG hinaus übertragen wurden, ist auch mit Blick auf § 137 L UrhG ein Verstoß gegen das Urheberrecht.

Absichern lässt sich das auch mit der Zweckübertragungslehre:

https://de.wikipedia.org/wiki/Zweck%C3%BCbertragungslehre

Eric Steinhauer hält das Angebot für legal und verweist in einer direkten Nachricht an mich auf Jani, in: Wandtke/Bullinger, § 137l, Rn. 14, wo es heißt:

Sofern der Vertragspartner die Nutzungsrechte in dem von § 137l geforderten Umfang erworben hat, kann er die Sammlung und die in ihr enthaltenen Einzelwerke ... digital herausbringen (Schulze UFITA 2007/III, 641, 691). Ein juristischer Fachverlag darf so z. B. ältere Jahrgänge einer Zeitschrift auf DVD oder in einer Online-Datenbank anbieten. Bezogen auf die einzelnen Werke ist diese Befugnis wegen § 38 nicht exklusiv.

Steinhauers Fazit: "DeGruyter kann also digitalisieren, aber die Autoren der Althefte dürfen ihre Artikel weiterhin online stellen." (Siehe dazu auch den Kommentar von Klaus Graf als Antwort auf Bernhard Mittermaiers Anfrage.)

Ich kann und möchte das rechtlich nicht beurteilen und habe keine Zeit und Lust, mich näher damit auseinanderzusetzen. Da hier gegensätzliche Meinungen vorliegen, fänd ich es angemessen, wenn auch De Gruyter sich zu der Sache äußert und die rechtlichen Erwägungen darlegt, die einer kommerziellen Re-Publikation der Bibliotheksdienstbeiträge vorausgingen. Eventuell gibt ja demnächst auch der Vertrag zwischen der ZLB und De Gruyter zur Übergabe des Bibliotheksdienst Aufschluss über die Sache. Klaus Graf hat eine Informationsfreiheitsanfrage diesbezüglich gestellt...

Was tun

Ich sehe drei Handlungsfelder.

Es scheint klar zu sein, dass alle Autorinnen und Autoren ihre Bibliotheksdienst-Artikel anderswo online stellen können. Ich würde mich freuen, wenn in nächster Zeit mehr und mehr Artikel unter CC0, CC-BY oder CC-BY-SA im Netz auftauchen würden. Es gibt dazu verschiedenste Plattformen. Ich habe in der Vergangenheit am liebsten E-LIS benutzt, da dauert eine Publikation aber eine ganze Weile (Ist halt von und für Bibliothekar/innen ;-). Ansonsten gibt es auch eine Menge anderer Dienste wie ResearchGate, die eine Publikation von Artikeln im Web ermöglichen. (Man sollte nur darauf achten, nicht so etwas wie Scribd oder Academia.edu zu benutzen, wo ein Download Konto und Login beim jeweiligen Dienst voraussetzen.)
Die Referenzierung von Closed-Access-Artikel bei De Gruyter sollte vermieden werden, insofern es eine frei zugängliche Version desselben Textes gibt. Zwar sind die bei De-Gruyter angebotenen Artikel aus verschiedenen Gründen eine deutlich attaktivere Referenz in einem Artikel als etwa ein Link auf das ZLB-Archiv (siehe dazu meinen Kommentar). Da die De-Gruyter-Version nicht Open Access ist, ist das ZLB-Archiv aber vorzuziehen.
Vergangene Veröffentlichungen im Bibliotheksdienst oder anderweitige Nicht-Open-Access-Publikationen lassen sich zwar nicht mehr rückgängig machen, allerdings lässt sich Closed Access bei zukünftigen Publikationen leicht verhindern. Ich kann nur unterstreichen, was Christian Hauschke dazu auf Infobib geschrieben hat:

Wer offene Fachkommunikation befördern möchte – und nur offene Fachkommunikation ist in meinen Augen tatsächlich stattfindende Fachkommunikation – hat eigentlich keine Ausrede mehr. Egal, ob man sich mit der Schweizer Verbundlandschaft, mit Problemen beim Einsatz von Textvergleichsprogrammen zur vermeintlichen Plagiatsvermeidung, mit sozialer Bibliotheksarbeit, Anforderungen an einen Fachinformationsdienst, RFID in Bibliotheken oder mit Barrierefreiheit für Digitale Bibliotheken beschäftigt: Es gibt eigentlich kein Thema mehr, für das sich nicht ein Ort außerhalb der früher mal üblichen Zeitschriften finden würde. Schön wäre dann noch der Schritt weg von den sattsam bekannten Sammelbänden, die meist doch eh nur Artikelsammlungen sind, hin zu Themenschwerpunkten in OA-Zeitschriften.

Wie werden Nutzungsrechte übertragen?

2015-10-21T21:25:00.000+02:00

Wie in meinem letzten Beitrag angekündigt, hatte ich eine Mail an De Gruyter geschrieben mit dem Wunsch, dass mein Bibliotheksdienstartikel von 2009 nicht weiter auf der De-Gruyter-Webseite gegen einen Betrag von 30 Euro angeboten würde. Am 9. Oktober erhielt ich eine Antwortmail von De Gruyter.

Update II: Nachdem ich das ursprüngliche Original-E-Mail-Zitat an dieser Stelle nach einer Aufforderung von De Gruyter zum Löschen desselben heute (2015-10-23) morgen ersatzlos entfernt hatte (Update I), hat De Gruyter mir erklärt, dass es sich ausschließlich an meinem Zitieren von Geschäftsmails gestört hätte, wo eine Paraphrasierung der Verlagsposition geboten gewesen wäre. Ich entschuldige mich hiermit insbesondere für die ursprüngliche Nennung des Absendernamens – das ist in der Tat kein guter Stil – und komme dem Wunsch nach Paraphrasierung nach:

In der E-Mail hieß es, ZLB und De Gruyter hätten vertraglich vereinbart, dass die Bibliotheksdienstes-Jahrgänge von 1967 bis 2012 von De Gruyter retrodigitalisiert[*] und anschließend gegen Geld im Web angeboten werden könnten. Die ZLB habe somit diese Verwertungsrechte an De Gruyter übertragen.

Die Antwort von De Gruyter wirft in meinen Augen die grundlegende Frage auf, ob die ZLB die Verwertungsrechte für die Jahrgänge 1996 bis 2012 überhaupt je besessen hatte, die sie an De Gruyter verkauft haben soll. Soweit ich weiß, gab es keine schriftlichen Verträge zwischen der ZLB und den Autor/innen, ich zumindest habe so etwas nie unterzeichnet. Was es gab, war die dokumentierte Publikationspraxis, dass Artikel zunächst in der Printfassung und drei Monate später frei zugänglich im Web veröffentlicht wurden. So hieß es etwa noch im August 2012 auf der Startseite des Bibliotheksdienst (Wayback Machine): "Die Beiträge der Rubrik "Themen" der einzelnen Hefte werden drei Monate nach Erscheinen der Druckausgabe online im PDF-Format veröffentlicht, die Stellenanzeigen ca. 14 Tage nach Erscheinen der Druckausgabe." Vor diesem Hintergrund halte ich es für zweifelhaft, dass die ZLB alle wesentlichen Nutzungsrechte an den abgelieferten Artikeln erhalten hat, was sicher notwendige Voraussetzung ist, um sie an De Gruyter veräußern zu können.
Mich würde interessieren, wie die rechtliche Situation von Menschen eingeschätzt wird, die sich mit Nutzungsrechtfragen besser auskennen.

Was indes den von mir verfassten Text angeht, kann ich – auch wenn ich die Argumentation rechtlich fragwürdig halte – niemanden davon abhalten, ihn gegen Geld zu verbreiten. Schließlich habe ich den Artikel selbst unter CC-BY lizenziert, was wiederum voraussetzt, dass ich – und damit andere Autor/innen wohl auch – die ausschließlichen Nutzungsrechte nicht an die ZLB abgegeben habe...

[*] Auf meine Nachfrage hin wurde bestätigt, das tatsächlich die gedruckten Hefte aller Jahrgänge des Bibliotheksdienst digitalisiert worden seien, auch die Jahrgänge 1996 bis 2012, deren Artikel bereits in durchsuchbarer elektronischer Form vorlagen.

Bibliotheksbärendienst

2015-09-29T10:30:00.001+02:00

Gestern wollte ich auf einen Artikel im Bibliotheksdienst aus dem Jahr 2009 verlinken. Leider hat der alte Link auf den Einzelartikel bei der ZLB nicht mehr funktioniert und tut dies wohl schon länger nicht mehr. Die Wayback Machine hat ihn das letzte Mal im August 2013 archiviert. Bei de Gruyter, das den Bibliotheksdienst mittlerweile betreibt, werden 30 Euro für den Artikel verlangt. Mir wird schlecht, wenn ich das sehe, vor allem, weil ich damals vor Veröffentlichung des Artikels sichergestellt habe, dass ich den Preprint zeitgleich unter einer CC-BY-Lizenz veröffentlichen kann (siehe dazu den ersten Übertext-Blogpost von 2009).

Ich hatte von der Diskussion anlässlich des Wechsels von Bibliotheksdienst zu de Gruyter in Erinnerung, dass es ein 12-monatiges Embargo für Bibliotheksdienst-Artikel geben würde, nach dessen Ablauf sie frei im Internet verfügbar sind. Dem widerspricht, dass fast 50 Jahre alte Beiträge bei de Gruyter nur gegen Geld erreichbar sind.

Nachdem ich auf Twitter nachgefragt hatte, hat Jörg Prante mich darauf hingewiesen, dass die Jahrgänge 1996-2012 ja weiterhin bei der ZLB online zugreifbar sind. Leider sind in der Tat nur ganze Jahrgänge oder einzelne Hefte sowie einzelne Seiten verlink- und downloadbar (siehe hier), der direkte Zugriff auf einen einzelnen Artikel ist gar nicht mehr möglich.

Mein Fazit zum Angebot der Biblbiotheksdienst-Inhalte.

alte ZLB-Artikel-URLs zu Artikeln von funktionieren nicht und sind nur noch via Wayback Machine aufrufbar
stattdessen bietet die ZLB gar keine URLs oder gar DOIs für einzelne Artikel mehr an, man kann nur noch einen ganzen Jahrgang oder ein gesamtes Heft verlinken und runterladen, was eine vernünftige Zitierweise unmöglich macht.
De Gruyter hingegen hat DOIs für die einzelnen Artikel von 1967 bis 2015 und nimmt 30 Euro pro Artikel.
Das bedeutet, dass ein Online-Zugriff auf die BD-Artikel von 1967 bis 1995 auschließlich gegen Geld möglich ist.

Nachdem die Online-Version meines Artikels (damals nach einem dreimonatigen Embargo) veröffentlicht war, hatte ich auch die Verlagsversion parallel veröffentlicht. Zum Glück wir diese bei einer Google-Suche nach dem Artikeltitel auch am höchsten gerankt. Nichtsdestotrotz soll auch die De-Gruyter-Fassung frei zugänglich sein, und ich werde De Gruyter dazu mit Verweis auf diesen Blogpost auffordern.

Im übrigen gebe ich Klaus Graf echt, wenn er schreibt:

Es ist doch ein Skandal, dass die älteren Ausgaben , die in der ZLB Open Access waren, bei De Gruyter nun GELD kosten! Wieso thematisiert niemand diese Ungeheuerlichkeit? Was ist das für eine erbärmliche verrottete Zunft, die zum Aufdecken von Misständen einen Außenseiter wie mich braucht?

Ich hatte das Ganze einfach bisher nicht mitbekommen und leiste (“Besser spät als nie.”) jetzt einen kleinen Beitrag dazu, dieser Praxis von De Gruyter ein Ende zu setzen. (Ausdrücklich rege ich mich hier NICHT über Klaus Grafs Ton auf. Der Mann hat einfach meistens recht, wenn es um Bibliotheken und Open Access geht und das ewige Auf-die-Netiquette-Verweisen lenkt nur von der nötigen Auseinandersetzung ab.)

Einen Beitrag von mir im Bibliotheksdienst wird es in Zukunft übrigens nicht mehr geben. Ich rufe auch alle anderen dazu auf, lieber in Open-Access-Alternativen wie Informationspraxis oder Libreas oder auch einfach in einem Blog zu veröffentlichen.

Name Authority Files & Linked Data

2014-07-10T22:36:00.001+02:00

I haven't been spending very much time following the developments regarding the Bibframe vocabulary and only follow the Bibframe mailing list sporadically. That's why I am happy when someone else makes the effort to take a deeper look at the vocabulary and reports the results. That is what Robert Sanderson did with his text titled "Differences between BibFrame and other Linked Open Data Approaches".

The Problem: Using strings as/instead of identifiers

In his text, Rob wants to "point out the differences between BibFrame's use of RDF and other more common usage patterns". This blog post only discusses the first of the differences Rob points out in the chapter "String Authorities rather than Identifiers": Instead of putting the focus on interlinking things (bibliographic resources, persons, concepts, organisations etc.) identified by URIs, Bibframe emphasizes an approach that rather builds on using blank node identifiers and defining authorities by a canonical string like "Tolkien, J. R. R. (John Ronald Reuel), 1892-1973". Rob writes:

"BibFrame tries to make use of existing authority records and canonical string-based labels due to its background in MARC, a format designed to be as compact as possible for adding metadata to strings. Unfortunately, this does not map well into Linked Data which makes use of identifiers to globally and uniquely distinguish real world and digital entities. These two world-views collide in the use of Authorities in BibFrame."

By and large, I agree with Rob's diagnosis. It is important to note that this "string approach" isn't limited to Bibframe (as Rob says himself when he refers to MADS) but to a whole approach of representing authority data in RDF. Also, this isn't solely a MARC thing but is based on the Anglo-American cataloging practice in general. In fact, one can easily use MARC with an identifier-based authority approach as a look at some MARC records of German libraries shows. (Further down more about this.)

There are different practices of authority cataloging

What became clear to me while reading Rob's text is that German libraries might better be avoiding Bibframe, at least if its focus stays on a string-based authority approach. The following statement by Rob may be true for the Anglo-American cataloging practice:

An "authority is about the approved form in which the person's name should be recorded as a string, it does not identify the person directly. (...) This is a fundamental difference between regular Linked Open Data and BibFrame's use of RDF. BibFrame relies on strings, due to its heritage, whereas LOD makes use of identity."

Accordingly, the Library of Congress describes its name authority file as follows (my emphasis):

"The Library of Congress Name Authority File (NAF) file provides authoritative data for names of persons, organizations, events, places, and titles."

Accordingly, this is what the authority RDF for Tolkien looks like in the Library of Congress name authority (snippet):

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix madsrdf: <http://www.loc.gov/mads/rdf/v1#> .
@prefix identifiers: <http://id.loc.gov/vocabulary/identifiers/> .

<http://id.loc.gov/authorities/names/n79005673>
    a madsrdf:Authority, madsrdf:PersonalName, skos:Concept ;
    identifiers:lccn "n 79005673" ;
    identifiers:oclcnum "oca00239830" ;
    madsrdf:authoritativeLabel "Tolkien, J. R. R. (John Ronald Reuel), 1892-1973"@en ;
    madsrdf:elementList ([
            madsrdf:elementValue "Tolkien, J. R. R."@en ;
            a madsrdf:FullNameElement
        ]
        [
            madsrdf:elementValue "(John Ronald Reuel),"@en ;
            a madsrdf:FullNameElement
        ]
        [
            madsrdf:elementValue "1892-1973"@en ;
            a madsrdf:DateNameElement
        ]
    ) ;
    madsrdf:hasExactExternalAuthority <http://viaf.org/viaf/sourceID/LC%7Cn+79005673#skos:Concept> ;
    madsrdf:identifiesRWO [
        madsrdf:birthdate "18920103" ;
        madsrdf:deathdate "19730902" ;
        madsrdf:hasAffiliation [
            madsrdf:affiliatedWith "University of Leeds" ;
            a madsrdf:Affiliation
        ], [
            madsrdf:affiliatedWith "University of Oxford" ;
            a madsrdf:Affiliation
        ] ;
        a madsrdf:RWO, <http://xmlns.com/foaf/0.1/Person>
    ] .

One may find information about the "real word object" in this RDF but it doesn't get that much attention as it not even gets its own URI but is only identified by a blank node. (We will see further down that Library of Congress's approach is unique in this respect compared to other RDF authority files worldwide.)

About cataloging practice in Germany and Austria, though, one can not say that it "relies on strings" . A central tool for German-speaking catalogers is the German Integrated Authority File — created and curated by many different institutions in the German-speaking world. The Integrated Authority File exists since 2012 and is the product of integrating three different authority files for persons, corporate bodies and subject headings. It is described by the Deutsche Nationalbibliothek (DNB) as follows.

"The Integrated Authority File (GND) contains data records representing persons, corporate bodies, congresses, geographic entities, topics and works."

This already sounds a bit different and doesn't mention "names" at all. Let's take a deeper look at the German cataloging practice regarding authorities.

German ID-based authority practice

In the Integrated Authority File a numeric ID (GND ID) is used to identify an authority record. Likewise, each bibliographic record that references this authority record uses the GND ID. For an example take a look at these two MARC XML records from DNB.

This cataloging practice emerged in the 1990s and makes German library data "linked data ready". The Integrated Authority File data was one of the first linked data publications in the German library world. Publishing the authority data, Deutsche Nationalbibliothek chose another approach than the Library of Congress. Instead of just publishing authority records in RDF and assigning URIs (Uniform Resource Identifiers) to these records they created URIs for the things the authority records describe, i.e. for persons, corporate bodies topics etc. "http://dnb.info/" is used as namespace where the respective GND ID is appended. For example: The ID for Tolkien's authority record is '118623222' and his Linked data URI is 'http://d-nb.info/gnd/118623222'. You can fetch the following RDF information from this URI (snippet, in turtle notation):

GND authority data in RDF

@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix gndo: <http://d-nb.info/standards/elementset/gnd#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .

<http://d-nb.info/gnd/118623222>
    gndo:gndIdentifier "118623222" ;
    gndo:preferredNameEntityForThePerson [
        gndo:forename "J. R. R." ;
        gndo:surname "Tolkien"
    ] ;
    gndo:preferredNameForThePerson "Tolkien, J. R. R." ;
    a gndo:DifferentiatedPerson ;
    owl:sameAs <http://dbpedia.org/resource/J._R._R._Tolkien>, <http://viaf.org/viaf/95218067> ;
    foaf:page <http://de.wikipedia.org/wiki/J._R._R._Tolkien> .

As you can see, the German Integrated Authority File (GND) has its own ontology (GND ontology, see here for an overview over the ontology's class hierarchy) created and maintained by the DNB. The owl:sameAs links to DBpedia and VIAF (which models person authorities as persons, not as strings) clearly show that GND defines name authorities as persons with an ID and not simply as name authorities with canonical strings.

Linking to GND using Dublin Core & MARC relators

From 2010 on a handful of libraries and library service centers in Germany started publishing their bibliographic records as linked data. As one might expect reading the previous paragraph, it was quite easy for them to not only produce RDF but to link to other datasets, at least to the GND. Just take a look at these examples from two German union catalogs in RDF: lobid and b3kat.

In 2012, the DNB started publishing the German national bibliography as linked data. Also in 2012, different linked data publishers form the German-speaking library world started working together within the KIM-DINI working group (KIM = Competence Centre Interoperable Metadata) to promote best practices for the RDF representation of bibliographic records which resulted in a set of recommendations (German, pdf) first published 2013. Following these recommendations, an RDF representation of a DNB title record currently looks like this (snippet):

@prefix dc: <http://purl.org/dc/elements/1.1/> .
@prefix dcterms: <http://purl.org/dc/terms/> .
@prefix marcRole: <http://id.loc.gov/vocabulary/relators/> .

<http://d-nb.info/1022176307>
    marcRole:ill <http://d-nb.info/gnd/156605406> ;
    marcRole:trl <http://d-nb.info/gnd/110833732> ;
    dc:title "Der kleine Hobbit" ;
    dcterms:alternative "The hobbit <dt.>" ;
    dcterms:creator <http://d-nb.info/gnd/118623222> ;
    dcterms:issued "2012" .

You can see how DC terms and MARC relator properties are used to directly link to the persons in the GND authority file. (And yes, the German version of "The hobbit" was named "The small hobbit" though Bilbo is actually of average height — at least for a hobbit.)

Linking to GND using Bibframe (test data)

For some weeks now, DNB provides Bibframe representations of the title records along with the just mentioned linked data. Here is the RDF that you get when requesting it for the same resource:

@prefix bf: <http://bibframe.org/vocab/> .

<http://d-nb.info/1034321757>
    bf:dimensions "20 cm" ;
    bf:ean "9783423715669" ;
    bf:editionStatement "Neuausg." ;
    bf:extent "397 S." ;
    bf:frequency <http://marc21rdf.info/terms/continuingfre%23/u> ;
    bf:illustrativeContentNote "Ill." ;
    bf:instanceOf <http://d-nb.info/bf_temp/work_1034321757> ;
    bf:isbn10 "3423715669" ;
    bf:isbn13 "9783423715669" ;
    bf:modeOfIssuance "Einbändiges Werk" ;
    bf:nbn "13,A46", "13,N20" ;
    bf:responsibilityStatement "John Ronald R. Tolkien. Aus dem Engl. von Walter Scherf. Mit Vignetten von Max Meinzold" ;
    bf:title "Der kleine Hobbit" ;
    a bf:Instance .


<http://d-nb.info/bf_temp/work_1034321757>
    bf:associatedAgent [
        bf:hasGNDLink <http://d-nb.info/gnd/118623222> ;
        bf:label "Tolkien, J. R. R." ;
        bf:resourceRole <http://id.loc.gov/vocabulary/relators/aut> ;
        a bf:Person
    ], [
        bf:hasGNDLink <http://d-nb.info/gnd/110833732> ;
        bf:label "Scherf, Walter" ;
        bf:resourceRole <http://id.loc.gov/vocabulary/relators/trl> ;
        a bf:Person
    ], [
        bf:hasGNDLink <http://d-nb.info/gnd/156605406> ;
        bf:label "Hehn-Kynast, Juliane" ;
        bf:resourceRole <http://id.loc.gov/vocabulary/relators/ill> ;
        a bf:Person
    ], [
        bf:hasGNDLink <http://d-nb.info/gnd/1022774611> ;
        bf:label "Meinzold, Max" ;
        bf:resourceRole <http://id.loc.gov/vocabulary/relators/ill> ;
        a bf:Person
    ] ;
    bf:hasInstance <http://d-nb.info/1034321757> ;
    bf:title "Der kleine Hobbit", "The Hobbit" ;
    bf:uniformTitle "The Hobbit, dt." ;
    a bf:Work .

The most obvious difference compared to the DC-based RDF above is that there are actually two resources — a Bibframe instance and a work. Taking a look at the links to authority data you see what Rob is complaining about: Instead of a simple dcterms:creator link between a bibliographic resource and a person you get a blank node for a Bibframe person that then links to the GND with bf:hasGNDLink. Doesn't look like any sane person would prefer this data over the RDF shown above.

How do others do it?

So we have these two different practices of representing name authority data in RDF and see that the Bibframe initiative — calling itself the "foundation for the future of bibliographic description that happens on the web and in the networked world" — chose a rather impractical approach. This begs the question of how others do this. I understand Bibframe as an initative with an international scope so I guess it should meet the demands and be in line with authority practices around the world.

Below are examples of some RDF representations of records from other name/person authority files (snippets). I won't go into much detail discussing these but will comment on the general approach taken.

viaf.org

VIAF follows the same Linked Data compatible approach as DNB to represent authorities in RDF. Tolkien is typed as foaf:Person and can be directly linked to using properties like dcterms:creator.

Example:

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix void: <http://rdfs.org/ns/void#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix viaf: <http://viaf.org/ontology/1.1/#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix skosxl: <http://www.w3.org/2008/05/skos-xl#> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix rdaGr2: <http://rdvocab.info/ElementsGr2/> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix rdaEnt: <http://rdvocab.info/uri/schema/FRBRentitiesRDA/> .

<http://viaf.org/viaf/95218067>
    rdaGr2:dateOfBirth "1892-01-03" ;
    rdaGr2:dateOfDeath "1973-09-02" ;
    a rdaEnt:Person, foaf:Person ;
    owl:sameAs <http://d-nb.info/gnd/15818212X>, <http://data.bnf.fr/ark:/12148/cb11926763j#foaf:Person>, <http://dbpedia.org/resource/J._R._R._Tolkien>, <http://libris.kb.se/resource/auth/97224>, <http://www.idref.fr/027164918/id> ;
    foaf:name "J.R.R Tolkien", "JRR Tolkien", "John Ronald Reuel Tolkien", "T'olk'in, J. R. R. 1892-1973", ... .

Libris

Looking to Sweden's Libris catalog, we see a lot of similarities to VIAF. Libris primarily types person authorities as foaf:Person but adds a skos:Concept with its own URI which is linked to the person with foaf:focus.

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix dbpedia: <http://dbpedia.org/property/> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix rda: <http://RDVocab.info/ElementsGr2/> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix dc: <http://purl.org/dc/elements/1.1/> .
@prefix libris: <http://libris.kb.se/vocabulary/experimental#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

<http://libris.kb.se/resource/auth/97224>
    rda:dateOfBirth "1892" ;
    rda:dateOfDeath "1973" ;
    dbpedia:birthYear "1892" ;
    dbpedia:deathYear "1973" ;
    libris:key "Tolkien, J. R. R., 1892-1973" ;
    rdf:seeAlso <http://en.wikipedia.org/wiki/J._R._R._Tolkien> ;
    a foaf:Person ;
    rdfs:isDefinedBy <http://data.libris.kb.se/open/auth/97224.rdf> ;
    owl:sameAs <http://dbpedia.org/resource/J._R._R._Tolkien>, <http://id.loc.gov/authorities/names/325978>, <http://viaf.org/viaf/95218067> ;
    foaf:name "J. R. R Tolkien", "John R. R Tolkien", "John Ronald Reuel Tolkien", "Tolkien, J. R. R., 1892-1973", "Tolkien, John R. R., 1892-1973", "Tolkien, John Ronald Reuel, 1892-1973" .

<http://libris.kb.se/resource/auth/97224#concept>
    a skos:Concept ;
    skos:altLabel "J. R. R Tolkien", "John R. R Tolkien", "John Ronald Reuel Tolkien", "Tolkien, J. R. R., 1892-1973", "Tolkien, John R. R., 1892-1973", "Tolkien, John Ronald Reuel, 1892-1973" ;
    skos:exactMatch <http://viaf.org/viaf/95218067/#skos:Concept> ;
    foaf:focus <http://libris.kb.se/resource/auth/97224> .

National Diet Library (NDL), Japan

An authority file of the National Diet Library looks quite similar to Libris' authorities. Interestingly, foaf:primaryTopic is used instead of foaf:focus to link the skos:Concept to the foaf:Person.

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix xl: <http://www.w3.org/2008/05/skos-xl#> .
@prefix rda: <http://RDVocab.info/ElementsGr2/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix dct: <http://purl.org/dc/terms/> .

<http://id.ndl.go.jp/auth/entity/00000047>
    rda:dateOfBirth "1931" ;
    a foaf:Person ;
    foaf:name "阿部洋" .

<http://id.ndl.go.jp/auth/ndlna/00000047>
    dct:created "1979-04-01" ;
    dct:modified "2005-01-05T10:44:08" ;
    dct:source "奥付", "韓国と台湾の教育開発 / 阿部宗光, 阿部洋 編" ;
    a skos:Concept ;
    rdfs:label "阿部, 洋, 1931-" ;
    skos:exactMatch <http://viaf.org/viaf/sourceID/NDL%7C00000047> ;
    skos:inScheme <http://id.ndl.go.jp/auth#personalNames> ;
    xl:prefLabel [
        ndl:transcription "Abe, Hiroshi, 1931-"@ja-latn, "アベ, ヒロシ, 1931-"@ja-kana ;
        xl:literalForm "阿部, 洋, 1931-"
    ] ;
    foaf:primaryTopic <http://id.ndl.go.jp/auth/entity/00000047> .

Bibliothèque nationale de France

BNF does it the other way around compared to Libris. Here, the a name authority is primarily typed as skos:Concept. This skos:Concept is linked to the person Tolkien using foaf:focus and, thus, enables direct linking to person authorities.

@prefix bio: <http://vocab.org/bio/0.1/> .
@prefix dc: <http://purl.org/dc/terms/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix rdagroup2elements: <http://RDVocab.info/ElementsGr2/> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .


<http://data.bnf.fr/ark:/12148/cb11926763j>
    a skos:Concept ;
    rdfs:seeAlso <http://catalogue.bnf.fr/ark:/12148/cb11926763j>, <http://fr.wikipedia.org/wiki/J._R._R._Tolkien> ;
    owl:sameAs <http://dbpedia.org/resource/J._R._R._Tolkien>, <http://isni-url.oclc.nl/isni/0000000121441970>, <http://www.idref.fr/027164918> ;
    skos:altLabel "John Ronald Renel Tolkien (1892-1973)"@fr ;
    skos:prefLabel "John Ronald Reuel Tolkien (1892-1973)"@fr ;
    foaf:focus <http://data.bnf.fr/ark:/12148/cb11926763j#foaf:Person> .

<http://data.bnf.fr/ark:/12148/cb11926763j#foaf:Person>
    a foaf:Person ;
    rdagroup2elements:biographicalInformation "Romancier. - Professeur de langue et littérature anglo-saxonnes" ;
    rdagroup2elements:dateOfBirth <http://data.bnf.fr/date/1892/> ;
    rdagroup2elements:dateOfDeath <http://data.bnf.fr/date/1973/> ;
    rdagroup2elements:fieldOfActivityOfThePerson <http://dewey.info/class/800/>, "Littératures" ;
    rdagroup2elements:languageOfThePerson <http://id.loc.gov/vocabulary/iso639-2/eng> ;
    dc:date "1892-1973" ;
    bio:Birth "1892-01-03" ;
    bio:Death "1973-09-02" ;
    owl:sameAs <http://viaf.org/viaf/95218067> ;
    foaf:birthday "01-03" ;
    foaf:depiction <http://upload.wikimedia.org/wikipedia/commons/thumb/d/d9/Tolkien_1916-2.jpg/200px-Tolkien_1916-2.jpg> ;
    foaf:familyName "Tolkien" ;
    foaf:gender "male" ;
    foaf:givenName "John Ronald Reuel" ;
    foaf:name "John Ronald Reuel Tolkien" ;
    foaf:page <http://data.bnf.fr/ark:/12148/cb11926763j> .

Biblioteca Nacional de España

Looking at the BNE authority data what sticks out is the use of IFLA's FRBR and FRAD vocabularies. Obviously, BNE follows existing Linked Dta practices and doesn't emphasize the canonical strings as it types name authorities as persons. This becomes evident by the owl:sameAs links to GND, Viaf, Libris etc.

Some help for the people who don't know IFLA's FRBR and FRAD properties by heart:

ifla-frbr:C1005 = Person
ifla-frbr:P3039 = hasNameOfPerson
ifla-frad:P4031 = hasOtherVariantNamePerson
ifla-frbr:P3040 = hasDatesOfPerson

Here is a turtle snippet:

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix ifla-frbr: <http://iflastandards.info/ns/fr/frbr/frbrer/> .
@prefix ifla-frad: <http://iflastandards.info/ns/fr/frad/> .
@prefix locmads: <http://www.loc.gov/mads/rdf/v1#> .

<http://datos.bne.es/resource/XX933704>
    a ifla-frbr:C1005 ;
    ifla-frbr:P3039 "Tolkien, J. R. R." ;
    ifla-frad:P4031 "Tolkien", "Tolkien, John Ronald Reuel" ;
    ifla-frbr:P3040 "1892-1973" ;
    owl:sameAs <http://d-nb.info/gnd/118623222>, <http://dbpedia.org/resource/J._R._R._Tolkien>, <http://libris.kb.se/resource/auth/97224>, <http://viaf.org/viaf/95218067>, <http://www.idref.fr/027164918/id> .

Rådata nå!

(Update, 2015-09-23)

Re-reading this, I noticed that I missed Rådata nå! one of the first authority files that was available as Linked Open Data. For the sake of comprehensiveness and to pay tribute to this pioneer effort in publishing library authorites, I am adding it now. Rådata nå! follows a pattern that is quite similar to VIAF. It uses a mix of vocabularies (FOAF, Dublin Core, SKOS and others), typing a person authority with foaf:Person and putting owl:sameAs to VIAF, GND and DBpedia. Example snippet:

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix radatana: <http://def.bibsys.no/xmlns/radatana/1.0#> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix dc: <http://purl.org/dc/terms/> .
@prefix whois: <http://www.kanzaki.com/ns/whois#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

<http://data.bibsys.no/data/notrbib/authorityentry/x90061718>
radatana:catalogueName "Ibsen, Henrik" ;
dc:identifier "x90061718" ;
dc:modified "2009-11-27"^^<http://www.w3.org/2001/XMLSchema#date> ;
whois:since "1828"^^<http://www.w3.org/2001/XMLSchema#gYear> ;
whois:until "1906"^^<http://www.w3.org/2001/XMLSchema#gYear> ;
a foaf:Person ;
rdfs:label "Henrik Ibsen" ;
owl:sameAs <http://d-nb.info/gnd/118555286>, <http://dbpedia.org/resource/Henrik_Ibsen>, <http://viaf.org/viaf/71378383> .

Conclusion

As the overview shows, one currently can not find any other institution that follows an authority approach similar to the Library of Congress' that focuses on canonical strings. I guess, if Bibframe wants to be picked up by a broad mass of institutions internationally it will have to accomodate to the existing environment which would mean re-thinking Bibframe authorities by putting the primary focus on an approach that supports direct linking to persons as authorities. Today's mails on the Bibframe list by Kevin Ford of LoC (especially this one) give some hope that this may actually happen.

In Kevin Ford's and Ray Denenberg's first reply to Rob Sanderson's text on the Bibframe mailing list they write:

"BIBFRAME has explicitly stated that bf:Authority is not designed to compete with existing library authority efforts or replicate traditional library authorities. Furthermore, nowhere is it ever asserted that 'bf:Person != foaf:Person' and nowhere is it said that 'bf:Authority == madsrdf:Authority'. Nothing, either way, is actually declared presently. Rather, bf:Authority is an abstraction allowing the implementer to reference a traditional authority. It is these traditional authorities that include the strings in question.".

It is correct that there is no explicit and formal statement that a bf:Authority can not be a foaf:Person and must be a mads:Authority. But the use of a vocabulary is not only (and probably even not in the first place) guided by its RDFS/OWL representation. Examples and tools can have a lot more power directing the use of a vocabulary. The example Bibframe data from Deutsche Nationalbibliothek shown above makes clear that even early implementers (at least one) obviously did understand Bibframe authorities as string-centric (otherwise they'd put a direct link to the GND into the data).

Besides the DNB Bibframe test data, there exist other examples suggesting Bibframe is primarily dealing with string authorities:

Definitions and names currently have a lot of "controlled name" in them, e.g. http://bibframe.org/vocab/Person.html.
Examples in the Bibframe vocabulary documentation, e.g. at [http://bibframe.org/vocab/creator.html])(http://bibframe.org/vocab/creator.html).

Output of the Bibframe Editor, here is some example output I get when I chose a LoC person authority to link to (converted to turtle):

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .


<http://example.org/46bf66bc-51e0-4c80-9444-79141c2e28cc>
    <http://bibframe.org/vocab/language> <http://id.loc.gov/vocabulary/languages/eng> ;
    <http://bibframe.org/vocab/title> "Ways of Worldmaking" ;
    <http://id.loc.gov/vocabulary/relators/aut> <http://example.org/6636d72e-9933-649a-b769-2ef41d241937> ;
    a <http://bibframe.org/vocab/Work> .


<http://example.org/6636d72e-9933-649a-b769-2ef41d241937>
    <http://bibframe.org/vocab/authoritySource> <http://id.loc.gov/authorities/names> ;
    <http://bibframe.org/vocab/authorizedAccessPoint> "Goodman, Nelson"@en ;
    <http://bibframe.org/vocab/hasAuthority> <http://id.loc.gov/authorities/names/n50037322> ;
    a <http://bibframe.org/vocab/Person> .

If Bibframe wants to make clear that it in fact does NOT require people to use blank nodes with string authorities and that it supports and may even prefer direct interlinking of works and associated agents then it should behave like that and replace the current definitions, examples and output of the Bibframe editor. It would be even better if the Library of Congress changed its approach of modeling its own authorities and added URIs for the real-world objects (persons, corporate bodies etc.) to their authority data so that one could directly link to them.

Sammelband herausgeben: Gelernt ✓

2014-03-06T21:57:00.000+01:00

Im letzten Jahr wurde der von Patrick Danowski und mir herausgegebene Sammelband "(Open) Linked Data in Bibliotheken" veröffentlicht. In meinem Beitrag dazu schrieb ich:

"Es war auf jeden Fall eine interessante Erfahrung für mich, einen solches Druckwerk herauszugeben. Ich habe eine Menge dabei gelernt und würde einiges beim nächsten Mal anders machen. (Dass es ein nächstes Mal geben wird, bezweifle ich allerdings ernsthaft.) Hoffentlich finde ich noch die Zeit, meine Erfahrungen in einem separaten Beitrag zu niederzuschreiben..."

Da Christian Hauschke in einem Kommentar sein Interesse an einem entsprechenden Beitrag angemeldet hatte, liefere ich hier nun nach und schreibe mal auf, was ich gelernt habe, wie ich ein solches Projekt beim nächsten Mal angehen würde und welche weitere Unterstützung mir von Verlagsseite willkommen wäre.

Ein Projekt

Zunächst mal ist klarzustellen: Bei der Erstellung und Veröffentlichung eines Sammelbands handelt es sich um ein größeres Projekt, an dem ein mittelgroßes Projektteam beteiligt ist. In unserem Fall bestand das Projektteam aus 17 Autorinnen und Autoren (inklusive der beiden Herausgeber) sowie zwei Ansprechpartnerinnen bei de Gruyter. Das Projekt dauerte knapp zwei Jahre. (Die Idee eines solchen Sammelbands hatte Patrick mir bereits im Sommer 2011 unterbreitet. Begonnen hat das Projekt Anfang November 2011 als Patrick mir den Link zum ersten Entwurf des Call for Participation (CfP) schickte. Ende September 2013 habe ich dann die gedruckten Belegexemplare in Händen gehalten, womit für mich das Projekt abgeschlossen war. [1])

Dass das Projekt – wie so viele andere auch – nicht ganz wie geplant abgelaufen ist, zeigt sich in der Diskrepanz zwischen dem ursprünglich angekündigtem und dem tatsächlichen Veröffentlichungstermin des Sammelbands. Der CfP lief am 18.3.2012 aus. Darin deuteten wir einen sehr sportlichen Veröffentlichungstermin für Anfang Herbst 2012 an. Die tatsächliche Veröffentlichung war dann allerdings ziemlich genau ein Jahr später als ursprünglich geplant. Welche Probleme gab es? Was habe ich gelernt?

Lektionen

Hier die vier wichtigsten Lehren, die ich aus dem Projekt gezogen habe:

1. Habe realistische Vorstellungen vom Gesamtaufwand.

Ich hatte auf jeden Fall den Aufwand dieses Unternehmens stark unterschätzt. Ein Sammelband lässt sich nicht mal eben nebenher herausgeben! Für die Akquise von Beiträgerinnen und Beiträgern, das Lesen der Einreichungen und die gesamte Kommunikation ist eine Menge Zeit einzuplanen.

2. Plane gut.
Es sollten von Beginn alle Aufgaben gesammelt und realistische Fristen für deren Erledigung festgelegt werden. Das heißt: Sowohl die Autorinnen und Autoren als auch die Herausgeber sollten sich in der Lage fühlen, ihre jeweiligen Aufgaben innerhalb der vorgegebenen Fristen zu erledigen.
Beispielsweise hatten Patrick und ich in der ursprünglich für Texterstellung, Gegenlesen, Rückmelden und Verbessern der Texte vorgesehenen Phase nicht genug Zeit, weshalb wir die Zeitplanung bereits in dieser Phase nach hinten verschieben mussten. So etwas ist war vor allem für jene fleißigen Autorinnen und Autoren blöd, die sich an die Fristen halten und dann aber am längsten auf die Veröffentlichung ihrer Texte warten müssen. :-/ Da davon auszugehen ist, dass schon einige der Beiträge für Verzögerungen sorgen, ist es eigentlich Aufgabe der Herausgeber nachzuhaken und nötigenfalls Druck zu machen anstatt selbst für Verzögerungen zu sorgen.

3. Dokumentiere den Fortschritt und sorge für Einhaltung der Fristen.

Insbesondere bei zwei Herausgebern essentiell: ein Ticketsystem benutzen, in dem alle Aufgaben, deren Fristen und Fortschritte dokumentiert werden. So kann sich jeder in kurzer Zeit einen Überblick über den Stand des Projekts verschaffen. Es sollte zudem eine klare Festlegung geben, wie mit Nichteinhaltung der Fristen umgegangen wird und nach wie vielen Erinnerungen ein Beitrag gestrichen wird. Diese Vorgehensweise sollte säumigen Autoren klar kommuniziert werden. (Wir sind einem Beitrag monatelang hinterhergelaufen ehe wir unsere Bemühungen aufgaben und ihn endgültig aufgaben.)

4. Beschränke deinen eigenen Textbeitrag auf ein Minimum.
Wir hatten uns einiges vorgenommen: Neben der Herausgeberschaft haben Patrick und ich selbst noch einen der längsten Beiträge geschrieben, und ich habe zusätzlich noch ein Glossar zusammengestellt. Da die ganze Arbeit als Herausgeber schon eine Menge Aufwand bedeutet, ist es sinnvoll, sich mit eigenen Beiträgen zum Sammelband zurückzuhalten und sich z. B. auf ein knappes Vorwort zu beschränken.

Aufgaben eines Herausgebers: eine Übersicht

Die folgende Mindmap versucht einen Überblick über die Aufgaben zu geben, die bei der Herausgabe eines Sammelbands anfallen. (Update: Die Mindmap kann hier – z. B. wenn die Einbettung nicht funktioniert – direkt angeschaut werden.)
~~Im folgenden werde ich auf einige dieser Aufgaben etwas näher eingehen.~~
Update, Nov. 2014: Die Mindmap ist leider nicht mehr vorhanden, weil anonyme Maps auf Mindmup nur 6 Monate gespeichert werden, was mir bei Publikation leider nicht mitgeteilt wurde. Ich habe leider keine lokale Kopie der letzten Version. :-/

Kernaufgaben

Die drei Bereiche Akquise, Auswahl und Redaktion stellen sicher die Kernaufgaben einer Herausgeberschaft dar (weshalb sie in der Mind Map auch alle in derselben dunkelblauen Farbe dargestellt sind).

Die Akquise bedeutete für uns zum einen das Verschicken des CfP und zum anderen das direkte Anschreiben und Ansprechen potentieller Autorinnen und Autoren.
Die Arbeit bei der Auswahl hat sich bei uns in Grenzen gehalten, da wir nur eine potentielle Ablehnung diskutieren mussten. Sollten mehr Beiträge vorgeschlagen werden als in den geplanten Sammelband aufgenommen werden können, kann die Auslese der Beiträge allerdings eine Menge Zeit in Anspruch nehmen.
Die Redaktion war sicherlich die aufwändigste der drei Kernaufgaben. Dabei wurden die Texte etwa zwei- bis zehnmal Mal zwischen den Beiträgern und Herausgebern hin- und hergeschickt und teilweise längere inhaltliche Diskussionen geführt.
Glücklicherweise wurde uns die finale Lektoratsarbeit vom Verlag übernommen, was uns eine Menge Arbeit gespart hat.

Selber schreiben

Die Produktion eines eigenen Beitrags (in der Mindmap hellblau) nimmt selbst nochmal eine ganze Menge Zeit neben der eigentlichen Herausgeberschaft in Anspruch. Neben der Recherche und der Lektüre einer Menge verschiedener Texten muss ein eigener Text verfasst, diskutiert und in vielen Zyklen angepasst werden, bis eine publikationswürdige Version herauskommt. Deshalb sollte man sich – wie bereits erwähnt – gut überlegen, ob man neben der Herausgabe auch noch einen eigenen Text beitragen will .

Projektmanagement & Kommunikation

Neben diesen Kernaufgaben habe ich in der Mind Map noch zwei weitere Aufgabenbereiche identifiziert: Kommunikation (gelb) und Projektmanagement (orange). [2] Dies sind zentrale Aufgaben eines jeden Projekts, ganz gleich, ob es sich dabei um die Herausgabe eine Sammelbandes, die organisationsweite Einführung einer neuen Softwarelösung oder die Ausrichtung der olympischen Spiele handelt. Hier gehe ich allerdings nur auf ersteres konkret ein.

Projektmanagement

Vor Verbreitung eines Call for Participation sollten die Heraugeber gemeinsam einen Projektplan erstellen, der festlegt, zu welchem Zeitpunkt die verschiedenen Meilensteine erledigt sein sollten. (Man kann das dann auch in einem Gantt-Diagramm festhalten, muss man aber nicht.)

Sobald es mehr als einen Herausgeber gibt, sollte eine Person für das Projektmanagement ausgewählt werden. Diese Person ist dann hauptverantwortlich dafür, dass allen Beteiligten die Fristen kommuniziert werden und auf deren Einhaltung abgezielt wird. Bei Verzögerungen ist das Projektmanagement auch verantwortlich für die Aktualisierung des Projektplans.

Schließlich sind die Herausgeber sowie im besten Fall auch die Autorinnen für die Dokumentation des Fortschritts verantwortlich. Zumindest dem Projektmanagement sollte jeweils klar sein: Wie weit ist ein Text gediehen? In welchem Status ist er beim Korrekturlesen? Wann wurde Autor X das letzte mal an die Frist erinnert? etc. Wie oben bereits erwähnt, würde ich all dies mittlerweile nicht mehr ohne ein Ticketing-System tun, in dem für jede (Unter-)Aufgabe ein Ticket angelegt wird und die dazugehörigen Kommentare den aktuellen Stand wiedergeben. Auf diese Weise habe ich selbst den besten Überblick, was ich bereits getan habe und was als nächstes zu erledigen ist. [3]

Kommunikation

Im Laufe der Arbeit an einem Sammelband müssen die Herausgeber mit verschiedenen Personengruppen kommunizieren.

Sollte es – wie in unserem Fall – mehrere Herausgeber geben, so ist das zunächst die Kommunikation zwischen den Herausgebern. Die direkte Kommunikation lässt sich auf ein Minimum reduzieren, wenn am Anfang genug Zeit in die gemeinsame Erstellung eines tragfähigen Projektplans gesteckt wird, die Verantwortlichkeiten klar verteilt sind und ein Ticketing-System zur Fortschrittsdokumentation genutzt wird.

Die Kommunikation mit dem Verlag war in unserem Fall meist auf ein Minimum reduziert. Es gab aber bestimmte Arbeitsabschnitte und Diskussionspunkte, zu denen wir uns recht intensiv mit den Verlagsvertreterinnen austauschten. Das ging mit der Vertragsgestaltung und Lizenzfragen los (de Gruyter ist nicht dran gewöhnt, dass Herausgeber eine offene Lizenz fordern, wenn auch Patrick bereits einen Sammelband unter ähnlichen Bedingungen mit de Gruyter veröffentlicht hat) und endete bei der Betitelung des Sammelbandes. Die meiste Zeit hat allerdings der konkrete Austausch zu den einzelnen Texten in Anspruch genommen, da de Gruyter wie gesagt wertvolle Korrekturen und Verbesserungsvorschläge geliefert hat.

Kommunikation mit Autorinnen: Die Vorschläge des Verlags mussten – genauso wie unsere eigenen – mit den Autorinnen und Autoren abgesprochen werden. Dadurch entstand ein mehrmaliges Hin und Her ehe die finale Fassung eines Textes vorlag. Wir mussten uns auf Zitiervorgaben einigen und diese durchsetzen, aufkommende Fragen verschiedener Art beantworten und bei säumigen Autoren nachhaken. Geplant war auch eine stärkere Vernetzung der Autorinnen und Autoren untereinander, um inhaltliche Wiederholungen zu vermeiden, Querverweise zwischen den Texten einzubauen und so den Sammelband mehr als eine Gesamtheit und nicht bloß als eine Ansammlung separater Texte umzusetzen. Dies hat in gewissem Maße geklappt, allerdings hätten wir als Herausgeber da noch mehr leisten können.

Was könnte der Verlag verbessern?

Ich bezweifle, dass der papierne Sammelband das Medium der Zukunft ist. Für Texte im Artikelformat bietet sich doch eher das Web als Publikationsmedium an, weshalb Verlage m. E. zumindest eine parallele Publikation der Papierfassung sowie einer PDF- und einer HTML-Version anstreben sollten. Ich hatte mich dennoch bereiterklärt, an der Erstellung eines Druckwerks mitzuwirken, vor allem, um das Thema Linked Open Data auch mal an andere Leute als z. B. die Leser dieses Blogs heranzubringen. (Ich weiß leider nicht, ob diese Rechnung aufgegangen ist...)

Insgesamt habe ich mich vom Verlag de Gruyter gut betreut gefühlt. Ich war froh über die Rat- und Vorschläge aus dem Verlag und das professionelle Lektorat. Und natürlich war es mir wichtig, dass de Gruyter unsere Bedingungen hinsichtlich einer offenen Lizenzierung (CC-BY) erfüllt hat. Sind Unklarheiten oder Meinungsverschiedenheiten aufgekommen, so habe ich die Diskussionen mit den Verlagsvertretern jederzeit als offen und konstruktiv wahrgenommen.
Allerdings empfand ich die Verlagspraktiken nicht überall als entlastend und schließe diesen Beitrag mit zwei Vorschlägen, wie die Arbeit von Sammelbandherausgebern durch einen Verlag noch weiter erleichtert werden könnte.

Ein Leitfaden für Herausgeber, der die wichtigsten Aufgaben eines Herausgebers und Strategien für deren erfolgreiche Umsetzung nennt, hätte mir – als Newbie in diesem Bereich – sehr weitergeholfen. Ich habe auch im Web nach einem solchen Leitfaden recherchiert und auf die Schnelle nichts gefunden. Hinweise in den Kommentaren sind willkommen. (Falls jemand vorhat, einen solchen Leitfaden zu erstellen: Dieser Text steht unter der CC0 Public Domain Dedication und kann ohne jegliche Bedingungen ganz oder in Teilen weiterverwendet werden.)
Ich würde eigentlich von einem modernen Verlag eine gewisse Flexibilität hinsichtlich der möglichen Dateiformate der Textbeiträge erwarten. Mich hat es sehr verwundert und gestört, dass die Texte allein als docx eingereicht werden konnten, was für mich u. a. bedeutete, dass ich monatelang mit Windows arbeiten musste, wo ich seit einigen Jahren – so weit es eben geht – sowohl beruflich wie auch privat auf ein Linux-Betriebssystem (Ubuntu) umgestiegen bin. (Offensichtlich ist das alleinige Akzeptieren von MS-Word-Formaten Standard bei Verlagen wie mir beim Lesen eines Blogbeitrags von Martin Fenner klar wurde.) Meines Erachtens sollte ein Verlag nicht nur eine docx-Vorlage, sondern zumindest auch eine LaTeX- und eine Markdown-Vorlage anbieten und sinnvollerweise auch eine odt-Vorlage. Das dürfte den Formatierungsaufwand für den Verlag sogar mittelfristig reduzieren. Im Falle unseres Sammelbandes hätten sicher einige der Autorinnen und Autoren Alternativen zu Microsoft-Office-Formaten begrüßt.

Fußnoten
[1] Dem könnte man widersprechen mit dem Hinweis darauf, dass ein Projekt erst nach Fertigstellung eines Projektberichts inklusive der Lessons Learned abgeschlossen ist. Demnach wäre das Projekt erst mit Veröffentlichung dieses Beitrags beendet.↵

[2] Es sei dahingestellt, ob es sinnvoll ist, Kommunikation als separaten Aufgabenbereich hinzustellen. Schließlich spielt das Kommunizieren – mit den Autorinnen und Autoren und den Verlagsvertreterinnen sowie der Herausgeber untereinander – bei der Herausgabe eines Sammelbands an fast jeder Stelle eine wichtige Rolle. Da es viel Zeit in Anspruch nimmt, scheint es mir jedenfalls sinnvoll, das hier gesondert aufzuführen. ↵

[3] Ich werde versuchen, im hbz-LOD-Blog in der nächsten Zeit einmal die Projektmanagement-Praktiken vorzustellen, die wir bei den entsprechenden hbz-Projekten etabliert haben. (@Christian: Du kannst mich gerne wieder dran erinnern, falls nach dieser Ankündigung wieder nichts passieren sollte. :-) ↵

Sammelband "(Open) Linked Data in Bibliotheken" veröffentlicht

2013-10-06T22:13:00.000+02:00

Ich freue mich, die Publikation des Sammelbandes "(Open) Linked Data in Bibliotheken" bekanntzugeben, den ich gemeinsam mit Patrick Danoswki herausgegeben habe. Bereits vor zwei Wochen sind die gedruckten Belegexemplare angekommen. Seit letztem Montag ist der Sammelband auch Open Access verfügbar unter http://dx.doi.org/10.1515/9783110278736.

Vielen Dank an alle Autorinnen und Autoren für ihre Beiträge! Es hat mir Freude gemacht, mit euch zusammenzuarbeiten. Vielen Dank auch an unsere Ansprechpartnerinnen bei de Gruyter!

Unten eine Inhaltsübersicht mit den DOI-Links zu den einzelnen Beiträgen.

Leider kann man die URLs nicht nur in der Printfassung nicht anklicken, sondern auch in der PDF-Version des Verlags. Da sich in Patricks und meinem Sammelbandbeitrag eine Vielzahl von Links finden, habe ich auf E-LIS zusätzlich zur Print-PDF-Version die Preprint-Version des Artikels - mit klickbaren URLs - hochgeladen (siehe den Link unten). Pascal Christoph hat das noch viel besser gemacht und vorbildlich seinen Beitrag mit RDFa angereichert veröffentlicht, siehe seinen Blogpost dazu.

Ein LOD-Glossar zum Remixen

Hier möchte ich noch besonders auf das Glossar hinweisen, das ich für den Sammelband zusammengestellt habe. Es umfasst etwa vierzig Lemmata aus dem Bereich Linked Open Data in Bibliotheken. Mittlerweile wurde das Glossar in die Obhut der DINI AG KIM übergeben, in deren Rahmen es gemeinsam weitergeführt werden soll. Die jeweils aktuelle Version findet sich auf github (http://git.io/UmPKaA). Bisher bin ich allerdings der einzige, der weitergearbeitet hat.
Andere sind herzlich eingeladen, das Glossar (es steht unter der CC0) in anderen Kontexten zu nutzen, zu ergänzen und im besten Fall die Änderungen und Korrekturen wieder zu teilen.

Viel gelernt

Ich bin sehr froh darüber, dass der Sammelband endlich veröffentlicht ist und alle Beteiligten m. E. mit dem Ergebnis zufrieden sein können. Es war auf jeden Fall eine interessante Erfahrung für mich, einen solches Druckwerk herauszugeben. Ich habe eine Menge dabei gelernt und würde einiges beim nächsten Mal anders machen. (Dass es ein nächstes Mal geben wird, bezweifle ich allerdings ernsthaft.) Hoffentlich finde ich noch die Zeit, meine Erfahrungen in einem separaten Beitrag zu niederzuschreiben...

Inhalt

Adrian Pohl, Patrick Danowski: Linked Open Data in der Bibliothekswelt: Grundlagen und Überblick (Preprint - mit funktionierenden Links - und Verlagsversion gibt es auch auf E-LIS: http://hdl.handle.net/10760/20214)
Carsten Klee: Vokabulare für bibliographische Daten
Hans-Georg Becker: FRBR, Serials und CIDOC CRM - Modellierung von fortlaufenden Sammelwerken unter Verwendung von FRBRoo
Kai Eckert: Die Provenienz von Linked Data
Dominique Ritze, Kai Eckert, Magnus Pfeffer: Forschungsdaten
Pascal Christoph: Datenanreicherung auf LOD-Basis (eine mit schema.org-RDFa-Markup angereicherte Web-Fassung gibt es unter http://www.dr0i.de/lib/pages/Datenanreicherung_auf_LOD_Basis.html)
Markus M. Geipel, Christoph Böhme, Julia Hauser, Alexander Haffner: Herausforderung Wissensvernetzung
Klaus Ceynowa, Matthias Groß, Andreas Kahl, Gabriele Meßmer: Linked Open Data geht in die Fläche: Der B3Kat stellt seine Daten frei
Maike Lins, Hans-Georg Becker: Open Data und Linked Data in einem Informationssystem für die Archäologie

Anhang

Definition: Offenes Wissen ("Originalversion" im Web unter http://opendefinition.org/okd/deutsch/)
Prinzipien zu offenen bibliographischen Daten ("Originalversion" im Web unter http://openbiblio.net/principles/de/)
Empfehlungen zur Öffnung bibliothekarischer Daten ("Originalversion" im Web unter https://wiki.dnb.de/x/zA21Ag)
Glossar (kontinuierlich angepasste und verbesserte Fassung unter http://git.io/UmPKaA)

Mit der DFG und CIB nach WorldShare und Alma

2013-04-17T09:48:00.000+02:00

Zur Klarstellung: Auch dieser Text spiegelt - wie der Rest dieses Blogs - alleine meine Meinung und nicht die meines Arbeitgebers wider.

Die DFG hat am 15. März den Ausgang der wichtigen DFG-Ausschreibung "Neuausrichtung überregionaler Informationsservices" verkündet. Ich denke, das Thema verlangt ein bisschen mehr Aufmerksamkeit in der Fachwelt als ihm bisher zugekommen ist, weil es sich eben nicht um eine der üblichen DFG-Ausschreibungen handelt, sondern um den erklärten Versuch, "einen umfassenden Umstrukturierungsprozess mit anzustoßen und zu unterstützen", der eine grundlegende Veränderung der Informationsinfrastruktur in Deutschland mit sich bringen kann. Im Themenfeld 1 "Bibliotheksdateninfrastruktur und Lokale Systeme" wurde der Antrag "Cloudbasierte Infrastruktur für Bibliotheksdaten (CIB)" bewilligt, mit dem ich mich hier näher befassen möchte.

Letzte Woche wurden Teile des CIB-Antrags veröffentlicht wie auch der von der DFG abgelehnte Konkurrenzantrag zum Projekt libOS. (Disclaimer: Ich habe am libOS-Antrag mitgeschrieben.) Ich begrüße diese Publikationen der Anträge und hoffe, so etwas macht Schule. (Jetzt sind die Antragssteller aus den anderen drei Themenbereichen am Zuge.) Ich habe bereits in einem Blogpost vom September 2011 für mehr Offenheit und Transparenz bei der Weiterentwicklung der deutschlandweiten Informationsinfrastruktur plädiert und am Beispiel der britischen Discovery-Initiative aufgezeigt, wie so etwas ablaufen kann. Schade, dass wir beim Neuaufbau der deutschen Informationsinfrastruktur diese Bewegung hin zu mehr Transparenz erst jetzt erleben, nachdem das Verfahren mehrere Jahre gelaufen ist und nachdem bereits beschlossen wurde, wohin die Reise gehen soll.

Ich habe mir den Gewinnerantrag CIB mal näher angeschaut, da er hoffentlich Aufschluss darüber geben wird, innerhalb welcher Infrastruktur wir in Zukunft unsere Arbeit erledigen werden. Zunächst mal scheint mir dieser Antrag rhetorisch recht wirkungsvoll umgesetzt zu sein. Er basiert auf einigen wenigen Grundannahmen über die zukünftige Entwicklung des Einsatzes von Bibliothekssoftware in Deutschland. Die Prognose wird in dem Antragstext mehrmals wiederholt, so dass sie sich im Kopf des Lesers gut verankern kann. Antworten zur konkreten technischen Umsetzung des Projekts und andere Details werden ausgespart (was sicher auch daran liegt, dass dazu derzeit einfach wenig gesagt werden kann). Eine Abbildung der beabsichtigten Systemarchitektur gibt es nicht.

Keine Alternative zu Cloudsystemen kommerzieller Hersteller

Welches sind nun die Annahmen, die stetig wiederholt werden? Die dem Antrag zugrundeliegende Prognose ist: Sämtliche Verbundsysteme und der Großteil der lokalen Bibliothekssysteme in den deutschen Wissenschaftlichen Bibliotheken würden auf die neuen "Cloudsysteme" von Ex Libris und OCLC migriert werden. Besonders deutlich wird dies in den Prämissen des Antrags. "Prämissen" verstehe ich als Voraussetzungen, von denen abhängt, ob der Antrag überhaupt Sinn ergibt für den Aufbau einer nationalen Informationsinfrastruktur. Die Antragssteller machen aber deutlich, dass sie darunter vielmehr eine - sehr wahrscheinlich eintretende - Prognose oder Vorhersage verstehen. Die drei Prämissen lauten (S. 8f):

"Die Katalogisierung findet zukünftig nicht mehr in regionalen Verbunddatenbanken oder einer nationalen Aggregationsebene statt, sondern in einer international ausgerichteten Umgebung mit internationalem Regelwerk." Das heißt, regionale Verbundkataloge werden verschwinden und nicht durch nationale, sondern internationale Verbundkataloge ersetzt werden.
"Ein nationaler Datenpool im Sinne eines 'nationalen Nachweises' kann in Form einer virtuellen Sicht auf den deutschen Teilbestand der internationalen Datenplattformen ('deutsches Datenfenster') und in Form von 'physischen' Ausspeicherungen generiert werden." Priorität hat demnach die Integration der Daten in proprietäre Cloudsysteme. Ein nationaler Nachweis kann - so man noch die Notwendigkeit sieht - in einem nachrangigen Verfahren generiert werden.
"Die heute unter dem Begriff 'Lokalsystem' subsummierten Funktionen und Services werden ebenfalls weitgehend in cloudbasierte Managementsysteme verlagert." Nicht nur Verbundkataloge werden in die internationale "Cloud" verlagert, sondern eben auch der Großteil der lokalen Bibliothekssysteme.

Der Antrag macht keinen Hehl daraus, an welche "cloudbasierten Managmentsysteme" konkret gedacht wird: WorldShare von OCLC und Alma von Ex Libris. Auf Seite 9 heißt es etwa:

"Das von den Konsortialpartnern vorgeschlagene Infrastrukturmodell sieht vor, die Katalogisierung in den Verbundbibliotheken künftig in internationalen Katalogisierungsumgebungen, wie sie derzeit bereits von den beiden genannten Bibliothekssystemprovidern zur Verfügung gestellt werden, durchzuführen. Dies wird – sieht man auf die deutsche Bibliothekslandschaft – im Regelfall entweder die WorldShare-Umgebung von OCLC (mit dem WorldCat als globalem Datenpool) oder die Alma-Umgebung von Ex Libris (mit der Community Zone als ebenfalls globalem Datenpool) sein."

"Da die Antragsteller bewusst die zurzeit verfügbaren Plattformen als Ziel und zukünftige Arbeitsumgebung ihrer Migrationsstrategie ansehen", integrieren sie auch einen zweiseitigen Werbeblock für OCLC und Ex Libris in ihren Antrag (S. 4-6), in dem man die bekannten Informationen der beiden Hersteller zu ihren Systemen wiederfindet. Als Vorteile dieser Cloudsysteme werden "spürbare Reduzierungen bei der Applikations- und Systembetreuung, die Standardisierung von Arbeitsabläufen und Kernprozessen sowie zahlreiche Möglichkeiten der kooperativen Nutzung von Datenressourcen" und "Effizienzsteigerungen bei der Abwicklung von Routineaufgaben" (S.3) hervorgehoben.
Offensichtlich gegen Ende erst in den Text eingefügt, wird an einer Stelle auch das Open-Source-System Kuali OLE erwähnt, das "kontinuierlich beobachtet und gegebenenfalls in das Arbeitsprogramm einbezogen" werde (S.8).

Die Zukunft der in Deutschland erfassten bibliothekarischen Metadaten ist also in den Cloudsystemen von OCLC und Ex Libris zu suchen. Sollten manche Bibliotheken noch überlegen, ob sie WorldShare/Alma oder vielleicht doch lieber etwas anderes als zukünftiges System wählen sollen, dann werden sie nun durch die DFG mit Förderung dieses Antrags in eine bestimmte Richtung geleitet. Mindestens die BVB-, KOBV-und HeBIS-Bibliotheken werden sich wohl OCLC und Ex Libris zuwenden, weil eine Migration ja nun durch die DFG empfohlen und gefördert wird.

Exit-Strategie?

Soweit kann ich dem Antrag nicht unbedingt widersprechen, hört es sich für mich doch wie eine konsequente Fortführung der Shoppingmentalität in Bezug auf Bibliothekssysteme und der daraus resultierenden Herstellerabhängigkeit an, wie wir sie in der Bibliothekswelt seit Jahrzehnten kennen. [1] Dementsprechend musste in den CIB-Antrag nicht viel Kreativität fließen, wird doch meist das Offensichtliche benannt und beschworen.
Was mich allerdings vom Hocker gehauen hat, ist die einzige Stelle im Text, die Bezug nimmt auf die in der DFG-Ausschreibung geforderte "Herstellerunabhängigkeit". Nachdem auf Seite 9 abermals der allseitige Umstieg auf die OCLC/Ex-Libris-Cloud angekündigt und knapp dessen Vorteile hervorgehoben werden, folgt das hier:

"[Ex Libris' und OCLCs Plattformen für das Bibliotheksmanagement] können zur Entwicklung nutzergetriebener, spezifischer Applikationen eingesetzt werden, für die sowohl WorldShare wie auch Alma auf der Basis offener Schnittstellen bereits spezielle Programmierumgebungen anbieten. Da alle Plattformen die Erstellung kundenspezifischer Funktionserweiterungen erlauben und darüber hinaus auch über offene Schnittstellen in lokale Dienste eingebunden werden können, zeichnet sich für das zukünftige Dienstleistungsportfolio von Bibliotheken das vielversprechende Bild einer serviceorientierten "Orchestrierung" von Diensten ab. In diesem entwicklungsoffenen Konzept wird der Bedarf der Bibliotheken an lokalspezifischen Zusatzdiensten gedeckt, ohne den Gefahren eines Vendor- oder Technology-Lock-ins zu erliegen."

Ich verstehe die Argumentation wie folgt: Da WorldShare und Alma "offene Schnittstellen" anbieten, auf deren Basis man zusätzliche Dienste anbieten kann, ist die Gefahr eines Vendor- oder Technology-Lock-ins gebannt. Hat das eine etwas mit dem anderen zu tun? Meines Erachtens ist diese Aussage Bullshit und erklärt überhaupt nichts, selbst wenn die Schnittstellen für jeden nutzbar und offen lizenziert wären. Abgesehen davon wird "offen" hier als reiner Marketingbegriff verwendet. Die Verwendung hat nichts mit der allseits anerkannten Open Definition zu tun. So sind die WorldShare Web Services bestenfalls für nicht-kommerzielle Akteure nutzbar, meist aber nur durch "Qualifying Insitutions", womit zahlende Kunden gemeint sind. (Im "OCLC Developer Network handbook" heißt es: "Qualifying institutions. Your organization must contribute to WorldCat and maintain a subscription to WorldCat on FirstSearch (or subscribe to WorldCat.org, for non-US").) Bei Alma werden die API-Nutzungsbedingungen wahrscheinlich nicht anders aussehen. Fazit: Der Antrag sagt an keiner Stelle, wie er wirklich mit der Gefahr eines Lock-ins umgehen will, "Offenheit" wird als Marketingbegriff verwendet. Von Exit-Strategien - wenn etwa ein System nicht mehr weiterentwickelt wird oder die Dienstleistung unbezahlbar wird - ist keine Rede. Oder irre ich mich vielleicht doch? Auf Seite 20 heißt es:

"Ex Libris und OCLC sichern vertraglich zu, dass im Falle einer Vertragsauflösung alle Daten einer Bibliothek bzw. eines Bibliothekssystems in einem Standardaustauschformat zurückgeliefert werden. Dies umfasst auch die Daten, die von den Bibliotheken nicht selbst erstellt, sondern nur genutzt wurden ("Ex Libris Guidelines for the Community Catalog", "OCLC Security Whitepaper")."

Aha, wo finden sich denn diese Verträge? Ich wüsste gerne, ob es hier um mehr als Nutzerdaten, Titel- und Normdaten geht. Ich glaube nicht, dass statistische Daten zur Erwerbung und Ausleihe oder weitere durch eine Bibliothek generierte Daten ohne Weiteres aus dem System exportiert werden können. Um Genaueres zu erfahren, habe ich mich auf die Suche nach den "Ex Libris Guidelines for the Community Catalog" und dem "OCLC Security Whitepaper" gemacht. Leider sind beide Dokumente über Google nicht zu finden dies gilt auch für das im Antrag verlinkte OCLC Security Whitepaper. Allerdings ist dieses im ~~Google Cache sowie dem~~ Internet Archive vorhanden. Nach einem schnellen Durchschauen des Dokuments muss ich allerdings sagen, dass die Lieferung von Daten nach Vertragsauflösung nirgendwo angesprochen wird...

Nationale Infrastruktur? Nichts da!

Wie will der Antrag denn nun die in der DFG-Ausschreibung geforderte "Integration der nationalen Erschließungsdaten zur Schaffung einer funktional einheitlichen Katalogisierungs- und Datenplattform" umsetzen? - Gar nicht. Die Antragsteller interessieren sich augenscheinlich in erster Linie für ihre eigenen Kunden. Mir scheint als sei der primäre Zweck des Antrags, die Migration der BVB-, KOBV- und HeBIS-Verbundbibliotheken in die OCLC-/Ex-Libris-Cloud zu finanzieren. Auf Seite 9 heißt es entsprechend:

"Die antragstellenden Verbünde erklären, die hier skizzierte künftige Bibliotheksdateninfrastruktur bei erfolgreicher Projektumsetzung in ihren jeweiligen Verantwortungsbereichen zu institutionalisieren und dauerhaft zu betreiben, sofern die erforderlichen Haushaltsmittel zur Verfügung stehen."

Eine Antwort darauf, wie das Konzept auf die anderen Verbünde ausgeweitet werden soll, bleibt der Antrag schuldig.

Fragwürdig ist auch, dass wahrscheinlich ein Großteil der DFG-Geldmittel direkt oder indirekt an zwei kommerzielle Bibliothekssystemhersteller gehen dürfte. Ich wüsste gerne, ob so etwas gängige Praxis ist oder ob eine Förderung der Produktentwicklung bestimmter Marktteilnehmer mit öffentlichen Geldern nicht problematisch wäre. Ob überhaupt Geld für die Hersteller vorgesehen ist und wieviel genau, ist leider unklar, weil offensichtlich nicht der eingereichte Antrag, sondern mindestens eine gekürzte Fassung veröffentlicht wurde. Der Abschnitt zu den beantragten Mitteln ist vor der Publikation aus dem Antrag entfernt worden. (Siehe auch diese Mail von Rita Albrecht an Inetbib. (Update 2013-04-17, 15:30: Rita Albrecht schreibt auf Inetbib, dass Aufwände der privaten Anbieter nicht Gegenstand des Antrags seien, sondern nur was "auf Seiten der beteiligten Verbuende und Bibliotheken an Leistungen in den Prozess" eingbracht werde. Das hört sich so an, als wären keine Fördergelder für die kommerziellen Anbieter eingeplant.))

Wird der Antrag überhaupt umgesetzt?

Bevor man sich jetzt mit dem Antrag näher auseinandersetzt und überlegt, wie das Schlimmste zu verhindern ist, sollte man allerdings erstmal abwarten, ob sich die Sache nicht von selbst erledigt. Schließlich muss überhaupt erst einmal geklärt werden, ob die Speicherung der Daten außerhalb Deutschlands auf Servern anderer europäischer Länder überhaupt mit dem deutschen Datenschutz vereinbar ist. Genau dies soll gemäß der Projektplanung des CIB-Antrags (S.22) im ersten Projektjahr geschehen. Konkret heißt es dazu auf Seite 19f des Antrags:

"Bei beiden Systemanbietern werden die Verwaltungsdaten für deutsche bzw. europäische Bibliotheken auf Servern innerhalb der Europäischen Union gespeichert, so dass sowohl die Zertifizierung der Rechenzentren als auch die Einhaltung des Datenschutzes dem EU-Recht unterliegt. Nach der Rechtsauffassung der Anbieter wird dies als ausreichend betrachtet, um den Datenschutz und die Datensicherheit zu gewährleisten. Basierend u.a. auf Berichten der EU-Agentur für Internetsicherheit Enisa wird eine Speicherung in Deutschland daher nicht als zwingend notwendig erachtet. Dies gilt es dennoch zu prüfen.
Um hier Sicherheit zu gewinnen, sollten als externe Aufträge die Erstellung eines Gutachtens zu den rechtlichen Anforderungen an die Nutzung von cloudbasierten SaaS-Bibliotheksmanagement-Applikationen, insbesondere im Hinblick auf den Datenschutz und Datensicherheit (Systemverfügbarkeit, physische, Netz- und Applikationssicherheit, Integrität, Vertraulichkeit und Löschung von Daten etc.) sowie die Erarbeitung eines Musters für vertragliche Regelungen mit den Anbietern über die Datenhoheit, über die Einhaltung von einschlägigen Datenschutzrichtlinien und Richtlinien zur Datensicherheit vorgesehen werden."

Ich habe keine Ahnung von der relevanten Gesetzgebung. Allerdings habe ich mitbekommen, dass eine Antwort auf diese Fragen nicht leicht ist und einige Zweifel daran bestehen, ob deutsche Institutionen Nutzerdaten auf Servern bspw. in den Niederlanden speichern dürfen. Mal sehen, was bei dem externen Gutachten herauskommt...

[1] Softwareshopping ist nicht per se problematisch. Allerdings halte ich es als eine langfristige Strategie in öffentlichen Einrichtungen für geboten, die Entwicklung entsprechender Open-Source-Systeme auszuschreiben und einzukaufen wie es etwa beim Kuali-OLE-System geschieht, dessen Entwicklung von HTC Global Services durchgeführt wird. Dies ist ein wichtiger Schritt in Richtung Herstellerunabhängigkeit.

Querying Freebase to Find Public Domain Authors

2012-12-12T13:41:00.003+01:00

In October I wrote about querying DBpedia to find out which authors were born in 1942 resulting in their works (probably) entering the public domain in 2013. In a comment on this post, Tom Morris pointed out that a simple Freebase query easily leads to more results than the - ever-increasing - SPARQL query I had provided for DBpedia (Thanks, Tom). Eventually, I used Freebase to get a list of public domain authors as querying DBpedia to this end turned out to be impractical. (Maybe, in the future libraries will provide data and tools to learn about works entering the public domain...)

Missing class hierarchy in DBpedia

Why is querying DBpedia impractical? Following my blog post, Jindřich Mynarz helped me to improve the SPARQL query on this etherpad. We soon realized that you'd have to build a UNION query with hundreds of classes in order to get all people who died in 1942 and who have published something during their lifetime. The reason is, that little class hierarchy in DBpedia exists. There seems to be some hierarchy in the YAGO ontology that we would have liked to exploit but unfortunately typos in the ontology (rdfs:suBClassOf, see e.g. http://dbpedia.org/class/yago/Essayist110064405) render this impossible.

Querying Freebase

As already mentioned, I ended up querying Freebase. I modified the query provided by Tom and finally got a list of 481 authors who died in 1942 as well as information about their concrete death date, their profession, nationality and works published. I did this using rather a trial and error approach than understanding the details of MQL (Metaweb Query Language). It resulted in this query:

{
    "type": "/book/author",
    "name": [],
    "/people/deceased_person/date_of_death": null,
    "mid": null,
    "/people/person/nationality" : [],
    "/people/person/profession" : [],
    "works_written": [],
    "d2:/people/deceased_person/date_of_death<": "1942-12-31",
    "/people/deceased_person/date_of_death>": "1941-12-31",
    "limit": 500
}

Unfortunately, a query like this with a limit of 500 results would time out. It took me some time to search through the documentations and to finally find out how to employ the cursor in a Freebase query to handle off-sets. At last I came up with this query (now as URL) which worked fine for my purpose:

https://www.googleapis.com/freebase/v1/mqlread?&query=[{"type":"/book/author","name":[],"/people/deceased_person/date_of_death":null,"mid":null,"/people/person/nationality":[],"/people/person/profession":[],"works_written":[],"d2:/people/deceased_person/date_of_death<":"1942-12-31","/people/deceased_person/date_of_death>":"1941-12-31","limit":75}]&cursor

Conversion to Spreadsheet with Google Refine

At last, I needed to convert the JSON files Freebase was providing into CSV or similar to be able to upload it to a Google Spreadsheet. I used Google Refine (in transition to Open Refine), a tool that I have been wanting to try out for quite some time now. It was a logical step to use this tool for my purposes anyhow as it originates from the same people who have developed Freebase...
Google Refine was easy to install. It was also easy to upload the JSON to do some adjustments (mainly moving and renaming columns) and then I could directly upload the result to this Google spreadsheet.

Caveats

I hope, the list of authors and possible public domain works may be useful to some people. It assumes that works enter the public domain 70 years after the author's death which is true for most countries. Of course, this list has to be taken with some care, so you might want to clarify the individual case before digitizing the works and publishing them on the internet. The list also includes many translations of original works which will probalby not enter the public domain in 2013 as translators usually enjoy a copyright for their translations. IANAL.

Querying DBpedia to find Public Domain Authors

2012-10-30T14:53:00.001+01:00

Yesterday, Sam Leon asked for help to populate a list of authors whose work will enter the public domain in 2013. My first thought was: This is a perfect use case for querying DBpedia's SPARQL endpoint! So I tried some queries.

Unfortunately, I had problems with the xsd datatypes when I built my query on the properties dbpedia-owl:deathYear and/or dbpedia-owl:deathDate. Doing a quick search on the web, I noticed that problems with xsd:date aren't new to DBpedia. It didn't work out to write a query guided by the workarounds provided in [1] and [2]. Perhaps somebody else can tell me, how you can solve these problems...

I decided to query based on the wikipeda category 1942 deaths. With this kind of query i had no problems, for example:


PREFIX dbpedia-owl: <http://dbpedia.org/ontology/>
PREFIX dct: <http://purl.org/dc/terms/>

SELECT ?person {
    ?person a dbpedia-owl:Writer .
    ?person dct:subject <http://dbpedia.org/resource/Category:1942_deaths> .
}

(See the result for the previous query here.)

This query only delivers persons that are typed as dbpedia-owl:Writer. Franz Boas for example isn't covered. One would have to do more queries with other categories of people that publish written works:

Querying philosophers which yields one answer: Kurt Grelling.
Querying scientists is more fruitful.

One can combine queries of multiple classes in SPARQL with a UNION query. To only list those people once that are members of multiple classes, one should add a DISTINCT to the SELECT query, for example:

PREFIX dbpedia-owl: <http://dbpedia.org/ontology/>
PREFIX dct: <http://purl.org/dc/terms/>

SELECT DISTINCT ?person {
    { ?person a dbpedia-owl:Scientist }
    UNION
    { ?person a dbpedia-owl:Writer }
    UNION
    { ?person a dbpedia-owl:Philosopher }
    UNION
    { ?person a <http://dbpedia.org/class/yago/AmericanAnthropologists> }
    UNION
    { ?person dct:subject <http://dbpedia.org/resource/Category:German_poets>  }
    ?person dct:subject <http://dbpedia.org/resource/Category:1942_deaths> . 
}

(result)

Note, that you can also use relevant categories connected to the person by dcterms:subject. This SPARQL query already delivers 102 persons who died in 1942 and most probably all have published at least one written work. The query needs to be extended to cover most of the people in Wikipedia/DBpedia that have published written works.

As one can see, these queries aren't as simple as you would like them to be. That's because you have to adjust to the underlying data which - like all data on the web - is kind of messy. The good thing is: If you have worked out a useful SPARQL query that includes most of the categories and subject classes for people who publish stuff, you can easily re-use the query for upcoming lists of public domain material in coming years.

[1] http://answers.semanticweb.com/questions/947/dbpedia-sparql-endpoint-xsddate-comparison-weirdness

[2] http://pablomendes.wordpress.com/2011/05/19/sparql-xsddate-weirdness/

Ob Jakob log oder die Zukunft voraussah?

2012-09-15T10:06:00.000+02:00

Jakob Voß hat vor gut fünf Jahren nach dem Start der Open Library folgendes prophezeit:

"In spätestens 5 Jahren werden alle wesentlichen Katalogdaten frei sein, zu einem wesentlichen Teil nicht mehr ausschließlich von Bibliothekaren erstellt werden und verschiedene Anbieter werden Suchfunktionen über diese Daten bereitstellen. Auf diesen Wandel sollte sich das Bibliothekswesen einstellen."

Nicht schlecht, Jakob. Ich würde sagen, die Prognose war ziemlich gut. Fünf Jahre nach dem Beitrag sind etliche Normdaten offen zugänglich (viaf.org, DNB u. a.) sowie Titeldaten verschiedenster Organisationen (DNB, BNB, Spanische Nationalbibliothek, Harvard Library, Europeana, hbz, BVB und bei WorldCat/OCLC ist es ja auch losgegangen).[1] Ob das schon "alle wesentlichen Katalogdaten" sind, da kann man vielleicht drüber streiten...

Interessant ist der zweite Teil der Prognose, dass die Katalogdaten 2012 "zu einem wesentlichen Teil nicht mehr ausschließlich von Bibliothekaren erstellt" würden. Dies hat sich bisher so nicht bewahrheitet. Was die offen im Web publizierten Katalogdaten angeht, befinden sich die in bibliothekarischen Institutionen erstellten Daten - wenn ich das richtig einschätze - derzeit klar in der Überzahl. (Ausschließlich wurden Katalogdaten ja ohnehin nie von Bibliothekaren erstellt, wenn man etwa Verlagsdaten dazuzählt.)

Ich denke, die Bibliothekswelt hat sich sehr gut eingestellt auf die sich mit dem Start der Open Library 2007 abzeichnende Entwicklung zu offenen Katalogdaten : Seit 2010 wächst die Zahl der Projekte, in denen Katalogdaten befreit werden. Deshalb ist heute die Open Library nur ein Datenpool unter vielen und ein großer Teil der freien Katalogdaten im Web ist bibliothekarischen Ursprungs. Dazu kommen mittlerweile noch offene bibliographische Daten von Verlagen wie etwa von der Nature Publishing Group. Und sicher wird auch Wikidata in Zukunft einiges zu diesen "Bibliographic Commons" beitragen bzw. daraus schöpfen.

Die wechselseitige Verlinkung, Nachnutzung und Anreicherung der durch Bibliothekare erstellten Daten, der Daten von Verlagen, der Open Library, Wikidata und ähnlichen Diensten steht allerdings noch aus. Dies ist der nächste wichtige Schritt nach der Freigabe der Daten. Zu diesem Zweck gilt es unter anderem, Antworten auf die Fragen nach Provenienzinformationen und Datensynchronisierung zu entwickeln. Beides sind Dinge, an denen schon verschiedentlich gearbeitet wird (z.B. in der Provenance Working Group beim W3C und in ResourceSync-Initiative von NISO und OAI) und die übrigens auch bei der diesjährigen SWIB Thema sein werden.

[1] Für eine Übersicht über frei nachnutzbare bibliographische Daten siehe http://thedatahub.org/group/bibliographic.

Linked Data in worldcat.org

2012-06-22T15:33:00.001+02:00

Two days ago OCLC announced that linked data has been added to worldcat.org. I took a quick look at it and just want to share some notes on this.

OCLC goes open, finally

I am very happy that OCLC - with using the ODC-BY license - finally managed to choose open licensing for WorldCat. Quite a change of attitude when you recall the attempt in 2008 to sneak in a restrictive viral copyright license as part of a WorldCat record policy (for more information see the code4lib wikipage on the policy change or my German article about it). Certainly, it were not at last the blogging librarians and library tech people, the open access/open data proponents etc. who didn't stop to push OCLC towards openness, who made this possible. Thank you all!

Of course, this is only the beginning. One thing is, that dumps of this WorldCat data aren't available yet (see follow-up addendum here), thus, making it necessary to crawl the whole WorldCat to get hold of the data. Another thing is, that there probably is a whole lot of useful information in WorldCat that isn't part of the linked data in worldcat.org yet .

schema.org in RDFa and microdata

What information is actually encoded as linked data in worldcat.org? And how did OCLC add RDF to worldcat.org? It used the schema.org vocabulary to add semantic markup to the HTML. This markup is both added as microdata - the native choice fo schema.org vocab - as well as in RDFa. schema.org lets people choose how to use the vocabulary, on the schema.org blog it recently said: "Our approach is "Microdata and more". As implementations and services begin to consume RDFa 1.1, publishers with an interest in mixing schema.org with additional vocabularies, or who are using tools like Drupal 7, may find RDFa well worth exploring."

Let's take a look at a description of a bibliographic resource in worldcat.org, e.g. http://www.worldcat.org/title/linked-data-evolving-the-web-into-a-global-data-space/oclc/704257552. The part of the HTML source containing the semantic markup is marked as "Microdata Section" (although it does also contain RDFa). As the HTML source isn't really readable for humans, we need to get hold of the RDF in a readable form first to have a look at it. I prefer the turtle syntax for looking at RDF. One can get the RDF contained in the HTML out using the RDFa distiller provided by the W3C. More precisely you have to use the distiller that supports RDFa 1.1 as schema.org supports RDFa 1.1 and, thus, worldcat.org is enriched according to the RDFa 1.1 standard.

However, using the distiller on the example resource I can get back a turtle document that contains the following triples:

1:  @prefix library: <http://purl.org/library/> .  
2:  @prefix madsrdf: <http://www.loc.gov/mads/rdf/v1#> .  
3:  @prefix owl: <http://www.w3.org/2002/07/owl#> .  
4:  @prefix schema: <http://schema.org/> .  
5:  @prefix skos: <http://www.w3.org/2004/02/skos/core#> .  
6:  <http://www.worldcat.org/oclc/707877350> a schema:Book;  
7:    library:holdingsCount "1"@en;  
8:    library:oclcnum "707877350"@en;  
9:    library:placeOfPublication [ a schema:Place;  
10:        schema:name "San Rafael, Calif. (1537 Fourth Street, San Rafael, CA 94901 USA) :"@en ];  
11:    schema:about [ a skos:Concept;  
12:        schema:name "Web site development."@en;  
13:        madsrdf:isIdentifiedByAuthority <http://id.loc.gov/authorities/subjects/sh98004795> ],  
14:      [ a skos:Concept;  
15:        schema:name "Semantic Web."@en;  
16:        madsrdf:isIdentifiedByAuthority <http://id.loc.gov/authorities/subjects/sh2002000569> ],  
17:      <http://dewey.info/class/025/e22/>,  
18:      <http://id.worldcat.org/fast/1112076>,  
19:      <http://id.worldcat.org/fast/1173243>;  
20:    schema:author <http://viaf.org/viaf/38278185>;  
21:    schema:bookFormat schema:EBook;  
22:    schema:contributor <http://viaf.org/viaf/171087834>;  
23:    schema:copyrightYear "2011"@en;  
24:    schema:description "1. Introduction -- The data deluge -- The rationale for linked data -- Structure enables sophisticated processing -- Hyperlinks connect distributed data -- From data islands to a global data space -- Introducing Big Lynx productions --"@en,  
25:      "The World Wide Web has enabled the creation of a global information space comprising linked documents. As the Web becomes ever more enmeshed with our daily lives, there is a growing desire for direct access to raw data not currently available on the Web or bound up in hypertext documents. Linked Data provides a publishing paradigm in which not only documents, but also data, can be a first class citizen of the Web, thereby enabling the extension of the Web with a global data space based on open standards - the Web of Data. In this Synthesis lecture we provide readers with a detailed technical introduction to Linked Data. We begin by outlining the basic principles of Linked Data, including coverage of relevant aspects of Web architecture. The remainder of the text is based around two main themes - the publication and consumption of Linked Data. Drawing on a practical Linked Data scenario, we provide guidance and best practices on: architectural approaches to publishing Linked Data; choosing URIs and vocabularies to identify and describe resources; deciding what data to return in a description of a resource on the Web; methods and frameworks for automated linking of data sets; and testing and debugging approaches for Linked Data deployments. We give an overview of existing Linked Data applications and then examine the architectures that are used to consume Linked Data from the Web, alongside existing tools and frameworks that enable these. Readers can expect to gain a rich technical understanding of Linked Data fundamentals, as the basis for application development, research or further study."@en;  
26:    schema:inLanguage "en"@en;  
27:    schema:isbn "1608454312"@en,  
28:      "9781608454310"@en;  
29:    schema:name "Linked data evolving the web into a global data space"@en;  
30:    schema:publisher [ a schema:Organization;  
31:        schema:name "Morgan & Claypool"@en ];  
32:    owl:sameAs <http://dx.doi.org/10.2200/S00334ED1V01Y201102WBE001> .

This looks quite nice to me. You see, how schema.org let's you easily convey the most relevant information and the property names are well-chosen to make it easy for humans to read the RDF (in contrast e.g. to the ISBD vocabulary which uses numbers in the property URIs following the library tradition :-/).

The example also shows the current shortcomings of schema.org and where the library community might put some effort in to extending it, as OCLC has already been doing for this release with the experimental "library" extension vocabulary for use with Schema.org. E.g., there are no seperate schema.org properties for a table of content and an abstract so that they are both put into one string using ther schema:description property.

Links to other linked data sources

There are links to several other data sources: LoC authorities (lines 13, 16, 41, 44) , dewey.info (17), the linked data FAST headings (18,19), viaf.org (20,22) and an owl:sameAs link to the HTTP-DOI identifier (32). As most of these services are already run by OCLC and as the connections probably all were already existent in the data, creating these links wasn't hard work, which of course doesn't make them less useful.

Copyright information

What I found very interesting is the schema:copyrightYear property used in some descriptions in worldcat.org. I don't know how much resources are covered with the indication of a copyright year and how accurate the data is, but this seems a useful source to me for projects like publicdomainworks.net.

Missing URIs

As with other preceding publications of linked bibliographic data there are some URIs missing for things we might want to link to instead of only serving the name string of the respecting entity: I am talking about places and publishers. Until now, AFAIK URIs for publishers don't exist, hopefully someone (OCLC perhaps?) is already working on a LOD registry for publishers. For places, we have geonames but it is not that trivial to generate the right links. It's not a great surprise that a lot of work has to be done to build the global data space.

DAIA & describing organizations, services, collections in RDF

2012-05-23T12:43:00.000+02:00

In January Jakob Voß published the request for comments for the final DAIA specification. DAIA - Jakob writes -

"is more than an implementation: it provides both, an abstract standard and bindings to several data languages (XML, JSON, and RDF). The conceptual DAIA data model defines some basic concepts and relationships (document, items, organisations, locations, services, availabilities, limitations…) independent from whether they are expressed in XML elements, attributes, RDF properties, classes, or any other data structuring method."

As I have put some thought into the RDF-description of libraries, their services, collections, locations etc. for my master thesis (PDF, German) and as I will be holding a talk on this topic - together with Jakob - at this year's Bibliothekartag, I finally submit this comment on DAIA.

DAIA - Why and how?

Why was DAIA developed in the first place? As Jakob describes it in a post from 2009 DAIA tries to provide an API specification that's missing in the standard APIs for libraries, an

"open, usable standard way just to query whether a copy of given publication – for instance book – is available in a library, in which department, whether you can loan it or only use it in the library, whether you can directly get it online, or how long it will probably take until it is available again."

Thus, the" Document Availability Information API (DAIA) defines a data model with serializations in JSON, XML, and RDF to encode and query information about the current availability of documents" (from the English introduction). That is a very important standard and I hope DAIA will become widely adopted by libraries and system providers. I hope that my comments may help improving DAIA.

The Data Model

Here, I will focus on the underlying conceptual DAIA data model and on the corresponding OWL ontology. I am neither a heavy API user nor an API engineer and as such simply have no expertise on this so that I won't comment on the API specification at all.

As seen in the graphical representation of the conceptual model, DAIA's core classes are "Document", "Organization", "Service" and "Item".

I won't go into all the details here, just take a look at the specification and the ontology.

In my master thesis I took quite another approach than Jakob as my thoughts originated from the problem how to add structured data - e.g. in form of RDFa - to existing library websites. Naturally, I didn't focus on the availability of documents, in fact I didn't go deeper into this topic but put my thoughts into describing an organisation, its site(s), collection(s) and services. I had a look at some library websites to find out what kind of information normally is displayed there and how to classify it. My general conceptual model that served as basis for a more detailled study (update and slightly reduced for this purpose as well as leaving aside the serials problem) looks like this:

The DAIA model and my approach look quite similar in that both data models contain the core classes Document, Service, Organisation and Item. But also these models differ in at least one point: While DAIA establishes a Storage class the latter model uses the two classes of Site and Collection to express similar information.

Questions, Comments and Suggestions

After having highlighted my background, I want to proceed with actually responding to Jakob's call with some comments. I already gave some input on the W3C-LLD mailing list and might repeat myself here.

Storage

I have a problem understanding why the Storage class exists at all and whether it makes sense. If a collection is stored in closed stacks, it's of no interest to the user where an item actually resides, what's important to her, is where to get it, i.e. to know where the circulation desk is. Thus, I think one could even decrease complexity by omitting the Storage class. All users and applications care about is where to obtain an item not where it actually comes from. Thus, it's services that really count, not storage. (If an item is stored in a reading room, I would go on and classify the reading room as a service where items can be viewed locally but cannot be lent.)

Collection

Every library curates at least one collection which might comprise a number of subcollections. Often, on their web sites libraries give information about their collections by indicating the number of items in them, their mode of access, acquisition policy, contact information for a sub collection as well as storage location etc. That's why it might be useful to also make use of a collection class and to describe collections. But collection description is definitely not necessary to provide good services for users to easily obtain material they already identified as relevant for their needs. It's useful for other cases in which a researcher wants to find a number of libraries holding special collections he might be interested in. Or for libraries to find similar institutions in order to share data for improving the acquisition of new material.

DAIA namespaces

I don't get it, why the DAIA service classes get their own namespace, adding a "Service/" to the DAIA namespace, e.g. for loan . This isn't common practice and is really annoying. When you are writing turtle you either have to declare an extra prefix for the Service namespace or you have to write the whole URI as slashes aren't allowed after a prefix. (At least rapper doesn't like it.)

Minor comments

An update of the graph model is needed as the dct:spatial property is displayed to link an Item to a Storage. That is neither mentioned anywhere in the ontology nor a correct use of this property.
To be able to have a more concrete discussion I provide an example RDF description in a seperate post.

Web-Thesauri im Wandel der Zeit

2012-04-12T14:30:00.003+02:00

Im Anschluss an Joachim Neuberts gestrigen Vortrag im Rahmen des DINI-KIM-Workshops zum "Standard Thesaurus Wirtschaft (STW) als Dauerbaustelle" (Update: hier gibt es die Folien zu Vortrag) war ein Hauptdiskussionspunkt die Frage, wie mit der Veränderung eines Thesaurus über die Zeit umzugehen sei.

Joachim nannte konkrete Zahlen, inwiefern sich der STW von einer Version zur anderen ändert: Neben einigen neuen Deskriptoren kommen etliche neue Nicht-Deskriptoren hinzu, Deskriptoren werden gelöscht oder erhalten neue präferierte Etiketten. All dies gilt es im Kontext einer Linked-Data-Variante des Thesaurus zu berücksichtigen und zu dokumentieren. Momentan gibt es im Linked-Data-STW einen übergeordneten URI für einen Deskriptor (z. B. http://zbw.eu/stw/descriptor/15441-2), die für alle seine Versionen steht. Bei Aufruf dieses URIs wird man mittels Redirect und Content Negotiation weitergeleitet auf die aktuelle Version der Deskriptorenneschreibung (http://zbw.eu/stw/versions/latest/descriptor/15441-2/about) im angefragten Format.

"Sammel"-URIs vs. Versionen-URIs

Diese Praxis eines Sammel-URIs, der für alle Versionen eine Deskriptors steht, wurde insbesondere von Georg Hohmann kritisiert. Ich habe sein Argument wie folgt verstanden: Sobald sich in unserer Beschreibung eines Konzepts auch nur ein wenig ändert, handelt es sich nicht mehr um die Beschreibung desselben Konzepts und muss einen neuen URI bekommen. Eine Änderung des präferierten Etiketts, die Ergänzung eines Nicht-Deskriptors oder die Ergänzung oder Löschung eines Verweises machen die Beschreibung also zu einer Beschreibung eines neuen Konzepts, was wiederum das Prägen eines neuen URIs nötig macht.

Übrigens: Ich finde es sehr problematisch, dass im Kontext von Thesauri und Klassifikationen häufig von "Konzepten"gesprochen wird (insbesondere SKOS ist mit diesem Sprachgebrauch durchwirkt). Das Denken in Konzepten verursacht m.E. mehr (Pseudo-)Probleme, wenn es um Dokumentationssprachen geht, als dass es Nutzen bringt. Aber dazu vielleicht mehr zu einem anderen Zeitpunkt. Im folgendenwerde ich jedenfalls konsequent von "Deskriptoren" sprechen.

Konsequente Umsetzung unmöglich

Ich gebe der Auffassung recht, dass sich Deskriptoren eine Thesaurus wandeln, sobald ihre Beschreibung verändert wird. Allerdings meine ich, dass ein Deskriptor auch durch andere Veränderungen einem stetigen Bedeutungswandel unterliegt. So wird die Bedeutung eines Deskriptors auch durch Löschung oder Hinzufügen anderer Deskriptoren desselben Thesaurus verändert, weil sich das Anwendungsgebiet des Deskriptors (seine Extension) dadurch erweitern oder verkleinern kann. Zudem ist ein Thesaurus kein in sich geschlossenes System. Vielmehr wird auch auf Deskriptoren von außen verwiesen, der Thesaurus verweist selbst auf Ausdrücke der natürlichen Sprache (mit Etiketten/Labels) und er wird von Katalogisieren und anderen bei der Inhaltserschließung angewandt. Dies führt dazu, dass die Bedeutung eines Deskriptors einem stetigen Wandel unterworfen ist.

Ein Deskriptor besteht meist aus einer ID, einer Menge von (präferierten und alternativen) Etiketten, möglicherweise in verschiedenen Sprachen sowie aus einer Menge von Verweisen (broader, narrower, match, see also) auf andere Deskriptoren innerhalb oder außerhalb des eigenen Thesaurus. Seine Bedeutung wird primär durch diese Referenzen zur natürlichen Sprache und zu anderen Deskriptoren bestimmt. Folglich ändert sich diese Bedeutung auch, wenn sich an den Verweisen etwas ändert. So müsste also der URI eines Deskriptors jedes Mal angepasst werden, wenn sich bei einem Deskriptor etwas ändert, auf den jener verweist.
Wie bereits erwähnt, wird ein Deskriptor allerdings nicht auschließlich oder hinreichend durch seinen Thesaurus-Eintrag definiert. Vielmehr bestimmt sekundär auch die Anwendung eines Deskriptors über dessen Bedeutung (Frei nach Wittgenstein: "Die Bedeutung eines Deskriptors ist sein Gebrauch in der Inhaltserschließung."). Es gibt sicher genügend Beispiele, wo ein Deskriptor im Widerspruch zu seiner ursprünglich intendierten Funktion benutzt wird, ich selbst habe dies schon häufig genug gesehen. Und wie wir von der natürlichen Sprache wissen, wird ein "falscher" Symbolgebrauch irgendwann korrekt, sobald genügend Menschen die "falsche" Verwendung praktizieren (Beispiele sind etwa "der Blog", "die URI", "wegen dem" etc.). Der Logik folgend, dass ein Deskriptor einen neuen URI braucht, sobald er nicht mehr "dasselbe Konzept" beschreibt, müsste sich mit jeder Anwendung eines Deskriptors seine URI ändern.
Wie gesagt wird die Bedeutung eines Deskriptors innerhalb eines Thesaurus u.a. durch Verweis auf natürlichsprachige Etiketten definiert. Auch diese unterliegenden in ihrer Nutzung innerhalb einer Sprachgemeinschaft einem stetigen Wandel. Wenn gestern "Management" nur im Kontext der Führung von Unternehmen und anderen Organisationen benutzt wurde, haben sich heute die Verwendungskontexte erweitert. Müssten dies nicht die entsprechenden Einträge in Thesauri berücksichtigen und beim Gebrauchswandel eines Deskriptor-Labels den URI des Deskriptors verändern? Jeder Person dürfte klar sein, dass dies keinen Sinn ergibt.

URIs und Veränderung von Webressourcen in der Zeit

Ich bin zwar wie Georg Hohmann der Meinung, dass die in einem Thesaurus aufgereihten Deskriptoren einem ständigen Bedeutungswandel unterliegen:

weil sich Deskriptoren wandeln, auf die ein Deskriptor verweist,
weil sich die Verwendung des Deskriptors bei der Inhaltserschließung verändert,
weil sich der Gebrauch der mit ihm assoziierten natürlichsprachlichen Etiketten wandelt
und weil das Hinzufügen/Löschen neuer Deskriptoren zum Thesaurus das Anwendungsgebiet der anderen Deskriptoren beeinflusst

Diesen Wandel würde ich aber nicht unbedingt zum Anlass nehmen, bei jeder Bedeutungsänderung einen neuen URI zu prägen. Wie soll man aber sonst mit dem Problem umgehen?

Das hier diskutierte Problem wird im Web-Kontext durch die Unterscheidung von Ressource und Repräsentation zum Ausdruck gebracht. Ich habe etwa die Ressource, die durch den URI "http://www.spiegel.de/" identifiziert wird, von der ich allerdings zu verschiedenen Zeitpunkten verschiedene Repräsentationen, unter Umständen sogar in verschiedenen Sprachen oder Formaten (Language/Content Negotiation) ausgeliefert bekomme.

Es gibt also mindestens drei Dimensionen, in denen sich verschiedene Repräsentationen einer Web-Ressource voneinander unterscheiden können:

Format
Sprache
Zeitpunkt (und damit im Inhalt zu verschiedenen Zeitpunkten)

Der Logik folgend, dass unterschiedliche Dinge unterschiedliche URIs haben sollten, müsste jede Repräsentation ihre eigene URI bekommen. Dies wird aber derzeit nicht gemacht.

Es gibt derzeit Bemühungen, um den zeitlichen Aspekt einer Ressource zu berücksichtigen und die unterschiedlichen Repräsentationen adressierbar zu machen: Das Memento-Projekt möchte zur Content-Negotiation die zeitliche Dimension hinzufügen. So soll es möglich werden, bei der Anfrage einer Web-Ressource über den HTTP-Header eine bestimmte zeitliche Repräsentation dieser Ressource anzufordern.

Memento & Thesauri

Eine Memento-Implementierung in einem Online-Thesaurus würde es ermöglichen, Repräsentationen/Versionen eines Deskriptors zu einem bestimmten Zeitpunkt zu adressieren, ohne dass zusätzliche URIs für verschiedene Versionen geprägt werden müssten.

Eine solche Art der Versionierung auf Veröffentlichungsseite wäre allerdings nur eine Seite der Problemlösung. Auf Nutzungsseite, wenn es um die Verwendung von Deskriptioren in der Inhaltserschließung oder um Mappings zwischen Thesauri geht, wäre es genauso wichtig, den Zeitpunkt der Vergabe eines Deskriptors zu dokumentieren. Wie eine solche Dokumentation aussehen könnte, dazu hat sich Felix Ostrowski schon ein paar Gedanken gemacht. Ein anderer Ansatz wäre die Verwendung von dated URIs (DURIs), die in diesem Internet-Draft spezifiziert werden. DURIS würden es auch ermöglichen, über einzelne Versionen RDF-Statements zu verfassen.

Ich halte es für sinnvoll, einen generischen Ansatz zur Versionierung von Webressourcen einem Thesaurus-spezifischen Ansatz vorzuziehen und würde mich interessieren, was Thesaurus-Fachleute davon halten.

Beitrag zur Zukunft der BibCamps

2012-03-21T10:52:00.005+01:00

Das Bib meets KnowledgeCamp 2012 ist vorbei und es war ein großer Erfolg. Ich freue mich sehr darüber und möchte allen an der Organisation Beteiligten meinen Dank ausdrücken: allen voran den FH-Studierenden, die einen Großteil der Planung, Organisation übernommen haben und eine optimale Infrastruktur für ein erfolgreiches BibCamp bereitgestellt und am Laufen gehalten haben. Ihren Dozenten Ursula Georgy und Tom Becker, die das Management übernommen haben. Den Mitorganisatoren Constanze Döring (Stadtbibliothek Köln), Elke Rösner und Ulrike Ostrzinski (ZB MED), Susanne Hilbring (Max-Planck-Institut für Gesellschaftsforschung, MPIfG) und natürlich Karlheinz Pape von der Gesellschaft für Wissensmanagement (gfwm).
Ich selbst war auch an der Organisation beteiligt und ich denke, wir alle können stolz auf das Ergebnis sein. Im Sinne einer gesunden Weiterentwicklung des BibCamps möchte ich im Weiteren auf einen Punkt eingehen, der zu einiger Diskussion während der Planungen geführt hat.

Man war nicht immer einig bei der Planung...

Sicher können sich alle Organisatoren darauf einigen, dass das #bkc12 ein großer Erfolg war. Bei der Planung des BibCamps fiel uns eine Einigung allerdings auch manchmal schwer, insbesondere als es um Sponsoren und ihre Außendarstellung im Rahmen des BibCamps ging. Da dieses Thema - soweit ich es mitbekommen habe - auch bei vorherigen BibCamps zu Diskussionen geführt hat, es aber nie öffentlich diskutiert wurde, möchte ich zu einer solchen Diskussion mit diesem Beitrag einladen. Auch denke ich, dass dieser Beitrag zukünftigen BibCamp-Organisatoren zur Vermeidung einiger Diskussionen nützlich sein kann.

Was das BibCamp ausmacht

Was gehört zu diesem "Geist des BibCamp"? Ich würde folgende Punkte zu den grundlegenden Dingen zählen:

Die Teilnehmer/innen
Räumlichkeiten
Verpflegung
WLAN

Dies sind sozusagen die notwendigen Bedingungen für ein erfolgreiches BibCamp. Sobald diese vier Dinge gegeben sind, ist der Erfolg eines BibCamps gesichert. Darüber sollten sich zukünftige Organisatoren im Klaren sein und nicht denken, sie müssten die von vorherigen BibCamps gesetzte Messlatte immer wieder erreichen oder gar überbieten. Nein, das müsst ihr nicht, sorgt erstmal dafür, dass die Fundamente stehen ehe ihr über Anbauten nachdenkt.

Sponsoren und Institutionen stehen im Hintergrund

Eine weitere Eigenschaft des BibCamps war es bisher, dass Organisationen - seien es Sponsoren oder veranstaltende Einrichtungen - immer im Hintergrund standen. Sie wurden auf dem Blog genannt und auch vielleicht bei der Begrüßung kurz erwähnt. Manche Sponsoren haben VertreterInnen zum BibCamp gesandt. In Hamburg wurden sogar die Räume nach den Sponsoren benannt. Logos, Banner, Stände oder eine anderweitige Präsenz von Organisatoren wie Sponsoren auf dem BibCamp selbst gab es aber nicht. Das war den Organisatoren bisher wichtig und es ist auch mir wichtig. Den Sponsoren ist dies auch klar und freundlicherweise finden sich immer wieder welche, die das BibCamp unterstützen. Danke.

Diese Unaufdringlichkeit der Sponsoren und kommerziellen Anbieter ist einer der Aspekte, in denen das BibCamp sich erfrischend von etablierten Veranstaltungen wie dem Bibliothekstag abhebt. Den Hauptorganisatoren von der FH Köln war dies bei der Planung des #bkc12 verständlicherweise nicht klar, hatten sie doch allesamt noch kein BibCamp besucht. Constanze, Elke und ich war es aber wichtig, den "Geist des BibCamps" zu bewahren, Logos, und Marken im Hintergrund zu halten und keine Banner oder werbenden Informationsstände auf einem BibCamp einzuführen.

Stand != Stand

Über Stände wurde unter den Organisatoren des #bkc12 besonders ausgiebig diskutiert. Hintergrund war, dass dem BIB in der anfänglichen Planungsphase untersagt wurde, einen Informationsstand im Rahmen des BibCamps aufzustellen, obwohl er einen solchen als eine Bedingung für eine 500-Euro-Spende nannte. In dieser Frage hatten sich insbesondere Constanze Döring, Elke Rösner und ich durchgesetzt, denn uns hatte gerade dieser Aspekt auf vorhergehenden BibCamps immer sehr gefallen. Informationsstände kann man sich ja schließlich auf allen anderen bibliothekarischen Konferenzen anschauen. Auf der anderen Seite waren wir aber auch kompromissbereit und es wurden zwei Stände erlaubt (die Cocktailbar der Firma Lenk und die Itinerant Poetry Library), weil sie eben keinen werbenden Charakter haben, sondern einen anderen Sinn verfolgten: Erfrischung respektive Unterhaltung/Wissensvermittlung. Ich denke, wir haben hier die richtige Wahl getroffen und werde mich auch weiterhin prinzipiell gegen werbende Informationsstände auf BibCamps aussprechen, seien diese von kommerziellen oder nicht-kommerziellen Organisationen.

Nicht nachvollziehen konnte ich die Reaktion des BIB, der sich ob der Absage des Standes not amused zeigte. Er ließ über Tom Becker als seinen Vertreter unter den BibCamp-Organisatoren verlauten, dass er in Zukunft seine finanzielle Unterstützung für BibCamps einstellen werde, weil er als "kommerzieller anbieter" hingestellt worden sei. Eine solche Typisierung des BIB als kommerzielle Entität lag allerdings allen Beteiligten fern, es haben sich lediglich einige gegen einen Infostand des BIB ausgesprochen. Meines Erachtens keine souveräne Reaktion des Berufsverbands.

Was meint ihr?

Mich würde interessieren, wie andere BibCamp-Teilnehmer/innen die Frage nach Ständen und generell der Sponsorenpräsenz auf dem BibCamp sehen. Hat euch die Zurückhaltung der Sponsoren bisher auch so sehr gefallen oder stündet ihr einer "Bibliothekstagisierung" (die ja auf anderen Ebenen ohnehin stattfindet, weil das BibCamp eben im Mainstream angekommen ist) des BibCamps, d.h. einer Zunahme von Werbeständen, Bannern etc. gleichgültig bis positiv gegenüber?

Weshalb Computer (nicht) verstehen

2011-11-08T11:41:00.001+01:00

Die Künstliche-Intelligenz-Forschung ist seit langem - in neuerer Zeit in Form des Semantic Web - einiger Kritik ausgesetzt, wie sie etwa auch jüngst Jakob Voß im Blogbeitrag "Die Grenzen des Semantic Web" artikuliert. So wie die K.I.-Forschung verspricht, Maschinen zu erschaffen, die einem Menschen ähnlich Probleme lösen, nährt das Semantic Web die Hoffnung, dass es unabhängig von und im Dienste des Menschen, Schlüsse ziehen und Verantwortung übernehmen kann - etwa für eher triviale Dinge wie Terminplanung, Reise- und Hotelbuchungen aber auch für darüber hinausgehende Aufgaben.

Ich schließe mich jener Kritik an, dass die ganze Idee der künstlichen Intelligenz ein Traum ist, der nie Wirklichkeit werden wird. Ich halte den Ausdruck "Semantisches Web" und strenggenommen auch "Künstliche Intelligenz" für in sich widersprüchlich und werde einige Gründe dafür weiter unten erläutern.

Welche Aufgaben für Computer?

Sicherlich gibt es eine Menge Aufgaben, die elektronische Maschinen sehr gut erledigen können und dabei auch "intelligent" in einem weiten Sinne erscheinen mögen. Allerdings ist es wichtig, diese Aufgaben von jenen zu unterscheiden, derer sich die Menschen schon selbst widmen müssen. Nach welcher Regel sollen aber Aufgaben für Maschinen von jenen für Menschen unterschieden werden? Dies halte ich für die eigentlich relevante Frage. Zunächst versuche ich aber einige Gründe dafür zu nennen, wie das Missverständnis zustande kommt, dass Maschinen prinzipiell auch "denken" oder "verstehen" könnten.

Modellierung menschlicher Kommunikation und Kognition nach dem Vorbild des Technischen

Der Grund des Problems ist offensichtlich die Neigung, den Menschen zu verstehen, indem er die Funktion seiner eigenen maschinellen Hervorbringungen analysiert und die Ergebnisse dann auf sich selbst überträgt. Mit anderen Worten: Theorien und Modelle technischer Kommunikation und des Computers werden auf den Menschen, seine Kognition und seine Kommunikation übertragen und sodann der Mensch als eine Maschine unter anderen verstanden. Werden Mensch und Maschine als gleichartig konzipiert, ist es nur konsequent, im Umkehrschluss an die menschlichen Fähigkeiten der Maschine zu glauben.

Kognitionstheorien und Computermodelle

Ein bekanntes Beispiel ist die Konzeption menschlicher Kognition nach dem Modell eines Computers. Nicht zufällig fiel die Entwicklung der Künstlichen-Intelligenz-Forschung zusammen mit der "kognitiven Wende" in der Psychologie, die den Wechsel vom Behaviourismus zu einem Verständnis menschlicher Kognition markiert, das auf der Computer-Metapher basiert. Den Menschen als Maschine verstehend glaubte man, ihn durch die Entwicklung intelligenter Maschinen, deren Bauplan man kennt, verstehen zu können:

"A key idea in cognitive psychology was that by studying and developing successful functions in artificial intelligence and computer science, it becomes possible to make testable inferences about human mental processes. This has been called the reverse-engineering approach." (Quelle: Wikipedia)

Wenn der Mensch selbst als eine intelligente Maschine betrachtet wird, können Maschinen folglich auch intelligent sein. Mittlerweile hat sich zwar herausgestellt, dass menschliche Kognition weitaus komplexer funktioniert als Informationsverarbeitung in einem Computer, so dass man sich von dieser Sichtweise wieder abgewandt hat. Sie hat aber in den Medien sowie in der Alltagssprache ("Kurzzeit-", "Langzeitgedächtnis", Gedächtnis als "Speicher" etc.) ihre Spuren hinterlassen und kann weiterhin dazu verführen, Computer als dem Menschen prinzipiell gleichwertige Informationsverarbeitungssysteme zu verstehen.

Technische = sprachliche Kommunikation?

Abgesehen vom über lange Jahre vorherrschenden auf der Computer-Metapher basierenden Kognitionsmodell sehe ich als weiteren Hauptgrund für den Irrglauben an die "Macht des Computers"[1], dass häufig ein prominentes Modell technischer Kommunikation auch auf natürliche Kommunikation angewendet wird und diese grundlegend verschiedenen Formen von "Kommunikation" gleichgesetzt werden.

Das Shannon/Weaver-Modell technischer Kommunikation ist allseits bekannt und lässt sich wie folgt zusammenfassen: Es gibt einen Sender, einen Empfänger, eine Nachricht, einen Übertragungskanal und einen Code. Verfügen Sender und Empfänger über denselben Code, wird die Nachricht jeweils korrekt en- und dekodiert und wird der Übertragungskanal nicht gestört, dann ist die empfangene Nachricht mit der gesendeten Nachricht identisch.

Dieses Modell deckt eigentlich explizit nur technische Kommunikation ab, so heißt es in Shannons berühmten Aufsatz "A Mathematical Theory of Communication" von 1948:

"Frequently the messages have meaning; that is they refer to or are correlated according to some system with certain physical or conceptual entities. These semantic aspects of communication are irrelevant to the engineering problem."

Shannon geht es eben um das "engineering problem", so dass Konzepte wie "Bedeutung", "Semantik", "Verstehen" schlicht irrelevant in diesem Modell sind. Mit anderen Worten: Das Modell befasst sich allein mit Kommunikation auf der syntaktischen Ebene und abstrahiert von der semantischen Ebene. Leider wurde das Modell nur allzu oft missverstanden und auf natürliche Sprache angewendet, ohne die konstitutiven Unterschiede zwischen diesen "Sprachen" zu beachten. Und sobald menschliche Kommunikation analog zum Modell technischer Kommunikation verstanden wird, wird auch leichtfertig davon ausgegangen, dass Maschinen menschliche Kommunikation vollständig imitieren können.

Christian Stetter stellt den Unterschied zwischen technischer und sprachlicher Kommunikation in [2] klar heraus:

"[W]enn von „technischer Kommunikation“ gesprochen wird, so ist von Kommunikation hier nur in übertragenem Sinn die Rede. Sender und Empfänger sind technische Apparate, philosophisch gesprochen Dinge. Dinge haben jedoch nicht die Fähigkeit, miteinander zu kommunizieren, sie funktionieren gemäß den Gesetzen, denen sie unterliegen. Weder versteht der Sender im mindesten, was er dem Empfänger übermittelt, noch dieser im mindesten, was jener ihm mitteilt."

Technische Kommunikation findet allein auf der syntaktischen Ebene statt, sie basiert auf Diskretheit, auf der Digitalität schriftlicher Symbole, des Alphabets, der Zahlen, letztlich von 0 und 1. Semantik findet sich in der inter-maschinellen Kommunikation nicht und kommt erst auf der Ebene zwischenmenschlicher Kommunikation ins Spiel. Und die Semantik natürlicher Sprachen ist eine nicht-diskrete, so dass es unmöglich ist, sie mit einer Maschine zu repräsentieren. Deshalb ergibt es keinen Sinn, von einem "Semantischen Netz" zu sprechen, das aus Maschinen besteht.[3] Denn erst mit der Aufnahme und Interpretation der Daten (oder einer auf ihrer Basis generierten visuellen oder andersartigen Repräsentation - etwa in Form eines Diagramms) durch einen Menschen bewegen wir uns auf der semantischen Ebene.

Aufgaben für Computer: formale Verfahren

Maschinen operieren also auf der syntaktischen Ebene über digitale Symbole, die im Laufe einer bedeutsamen menschlichen Praxis produziert und gespeichert wurden. Kontext und Bedeutung der Symbole existieren für eine Maschine nicht, sie funktioniert einfach.

Es gibt formalisierte Verfahren - frei von Kontext und Bedeutung - wie das deduktive Schließen und andere logische Operationen oder arithmetische und algebraische Kalküle, die von Menschen mit Stift und Papier entwickelt worden sind bevor Computer existierten. Menschen waren es dementsprechend auch, die diese Handlungen - gewissermaßen als symbolische Maschinen - ausführten. Die symbolische Tätigkeit des Menschen ist mit diesen formalen Operationen allerdings nicht erschöpft, ganz im Gegenteil handelt es sich um gattungsgeschichtlich recht späte Entwicklungen, weil sie an die Verwendung schriftlicher Symbole gekoppelt sind.

Es sind aber diese formalisierten Verfahren - als eine Untermenge der kognitiv bedeutsamen symbolischen Handlungen des Menschen - bei denen uns Computer an Geschwindigkeit und Rechenkraft übertreffen. Dementsprechend decken sich diese Verfahren mit dem Aufgabenbereich von Computern - nicht weniger aber eben auch nicht mehr.[4]

[1] Die deutsche Übersetzung des englischen Titels "Computer Power and Human Reason" ist übrigens völlig daneben und steht im Widerspruch zum Inhalt des Buchs (das zum Glück besser übersetzt ist als sein Titel).

[2] http://www.semantics.de/service/publikationen/kommunikationsmanagement/kommunikationsmanagement.pdf, S. 2f.

[3] Das deckt sich auch mit meiner Argumentation in der Daten-Diskussion mit Jakob, dass Daten - die ja der Stoff sind, mit dem Computer arbeiten - allein auf der syntaktischen Ebene anzusiedeln sind.

[4] Mit dieser Einsicht ist denkbar wenig erreicht. Die weitaus schwierigere Aufgabe ist es, die natürlichsprachige Kommunikation unter diesen Vorbedingungen zu verstehen.

My Problems with FRBR I: Naming

2011-10-24T13:24:00.000+02:00

The so called Functional Requirements of Bibliographic Records (FRBR) are a vital source of discussions in the library world since the 1990s. I mostly tried to don't get too deep into these discussions but haven't evaded them altogether. As FRBR discussions probably won't go away any time soon I will scribble down the basic two or three problems I have with FRBR, starting today with the label it was given: "Functional Requirements for Bibliographic Records".[1]

Functional Requirements? Really?

What I don't get is why FRBR actually goes by the name "Functional Requirements for Bibliographic Records"? (I don't understand much about functional requirements in software engineering or about requirements engineering. Maybe that's my problem...) Shouldn't it be called something like CMBU ("Conceptual Model of the Bibliographic Universe"). When I hear "functional requirements" in the context of bibliographic data, I think of the functionalities a bibliographic database should offer its users.[2] Unfortunately, FRBR is only indirectly talking about functional requirements in this sense as FRBR is focused on creating a data model. One just has to take a look at the FRBR paper by IFLA, Barbara Tillett's text "What is FRBR?" or the "FRBR" wikipedia entry. All of them describe FRBR as a "conceptual model"or "entity-relationship model".

And that is where I see a problem. I am highly in favour of creating functional requirements for bibliographic data covering different use cases. It really is important to do this if you want to develop a good conceptual model for bibliographic data. But one shouldn't confuse "functional requirements" with "conceptual model" as one data model can serve functional requirements from different users, use cases and contexts and as a data model can be created to only satisfy a small number of functional requirements.

Do we need new terminology to describe functional requirements?

Why develop a new language to talk about bibliographic resources if you can describe functional requirements in everday language that is used to talk about bibliographic resources? Users don't want to "select an expression of a work" nobody will tell you that he needs this function. They want to "find a French translation of Moby Dick", an "annotated version of Shakespeare's Julius Caesar", "get an overview over the œuvre of John Dewey" etc. So why doesn't FRBR use common language to show what these functions are users want? Instead, with FRBR, a data model is designed and a new language to talk about bibliographic resources and this language is then - in a circular move - used to formulate requirements for bibliographic data like

Find all manifestations embodying the works for which a given person or corporate body is responsible
Identify an expression of a work
Obtain a manifestation

Have you ever heard a user asking to "obtain a manifestation or expression of a work"? I believe not.

Requirements are always attached to use cases

Functional requirements, for what purpose anyway? - For tasks with which the libraries' users see themselves confronted. But there are so many other purposes one can use bibliographic data for, e.g. building public domain calculators or creating bibliographies and reference lists for research or lectures. And you definitely curtail your opportunities to re-use data for other purposes by adopting a model based on functional requirements that are quite narrowly tailored in the light of specific usage. For example, identifying a work in a FRBR sense doesn't help in a legal context where e.g. a translation is a work in its own right.

Am I just ignorant? Does FRBR actually provide what its name says? I would like to be disabused in my opinion. So please, requirement engineers and bibliographs, explain it to me.

[1] I don't believe these points are very novel but I only could follow some FRBR discussions during the last three years. And they might be wrong. I am happy about any feedback.

[2] Actually, I also think the second part of the lable isn't appropriate as well. It doesn't make much sense to speak of Functional Requirements for Bibliographic Records but for bibliographic databases. It is a database as a whole that has to fulfil specific function in the first place and not individual records.

Darum Linked Open Data

2011-09-13T16:08:00.000+02:00

Eigentlich hatte ich diesen Artikel als meine morgige Stimme für plan3et.info geplant. Da Jakob Voß dort aber am Montag schon das Thema Linked Open Data angesprochen hatte, habe ich mir für plan3t.info etwas anderes überlegt. So komme ich endlich mal wieder dazu Übertext: Blog zu füttern, der von mir die letzten Monate vollständig vernachlässigt wurde. Mit dem Verfassen meiner Masterarbeit, die ich beenden wollte, bevor der Nachwuchs "Hello World!" sagt, hatte ich aber auch die letzten Monate genug zu tun. Zudem schreibe ich desöfteren Beiträge für openbiblio.net, den Blog der OKFN Working Group on Open Bibliographic Data. Hoffentlich werde ich hier in Zukunft wieder regelmäßiger etwas veröffentlichen.

Linked Open Data (LOD) in Bibliotheken und verwandten Organisationen erfährt eine breite Aufnahme. Immer mehr Organisationen arbeiten an LOD-Projekten, das W3C wird bald die endgültige Fassung eines Berichts zur Lage von Linked Library Data veröffentlichen und anscheinend wird nun auch die Französische Nationalbibliothek ihre Linked Data unter einer offenen Lizenz veröffentlichen.

Doch warum das Ganze? Anhand von fünf Publikationen aus den letzten Tagen möchte ich Motivationen und Hintergründe verschiedener Akteure aufzeigen.

Der Bericht der W3C Incubator Group on Linked Library Data

Der Bericht befasst sich in erster Linie mit den Vorteilen der technischen Seite von Linked Open Data und lässt den Aspekt der offenen Lizenzierung außen vor. Als Vorteile des Linked-Data-Ansatzes werden allgemein die dadurch ermöglichten Chancen zum Teilen, Erweitern und Nachnutzen der Daten genannt. Konkrete Vorteile sind:

Multilinguale Funktionalitäten wie multilinguale Bezeichnung von Klassifikationsstellen, Metadatenelementen etc.
Kollaborative Beschreibung von Ressourcen und einfache Nachnutzung von Informationen aus anderen Quellen
Einfache Zitierbarkeit von Beschreibungen
Flexiblerer Datenaustausch. Nicht gesamte Katalogeinträge müssen ausgetauscht werden, sondern - je nach Anwendung und Bedarf - auch nur einzelne Beschreibungsaspekte.

Neben dem Aufzeigen von Vorteilen eines LOD-Ansatzes nennt der Bericht auch wichtige Probleme, die mit der traditionellen Datenhaltung, ihrem Austausch und ihrer Publikation verbunden sind:

Bibliotheksdaten sind nicht im Web integriert und somit nicht durch die Webcrawler von Suchmaschinen auffindbar. Die Daten sind vielmehr Teil des Deep Webs.
Die Standards für bibliothekarische Daten werden nur in der Bibliothekswelt benutzt. Dies erschwert deren Nachnutzung durch andere Akteure oder die Kombination mit Daten aus anderen Quellen.
Bibliotheksdaten gleichen eher natürlichen als maschinenlesbaren Texten. Sie sind nur schwach strukturiert und nicht für maschinelle Verarbeitung optimiert.
Technologische Veränderungen in der Bibliothekswelt hängen von kommerzielen Softwareanbietern ab.

Wer mehr lesen möchte, gehe zu http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion.

Linked Open Data an der NTNU

Die Bibliot hek der NTNU (Norwegische Universität für Wissenschaft und Technologie) in Trondheim publiziert seit 2009 Linked Open Data. Rurik Greenall hat in einem Beitrag für den Blog der OKFN Working Group on Open Bibliographic Data, die Geschichte und Hintergründe beschrieben. Ich versuche hier den Teil zu übersetzen, in dem er die Vorteile von Linked Open Data aus der Anwenderperspektive nennt:

"Linked Open Data bringt Mittel zur Repräsentation und zur Anreicherung [von Daten, A.P.] zusammen, die mit anderen Technologien nicht möglich sind. Während die Lernkurve für uns nicht leicht war, wurden wir in vielerlei Hinsicht belohnt. Die Nutzung von Open Data hat uns die Möglichkeit verschafft, Systeme zu erschaffen, von denen unsere Nutzer/innen inspiriert werden können. Systeme, die Nutzerfragen beantworten und ihnen dabei helfen, mehr zu finden, als sie ursprünglich gesucht haben. Das geht hinaus über das Konzept monolithischer Systeme, bei denen unser Ziel war, Nutzer/innen in die Systeme zu bekommen; vielmehr dreht sich alles darum, die Daten herauszubekommen und sicherzustellen, dass sie verfügbar sind ohne Referenz zu einer bestehenden Webseite. Offenheit ist der Schlüssel und diese Denkweise hat unsere Arbeit enorm verbessert."

Wenn wir also möglichst vielen interessierten Menschen Zugriff auf unsere elektronischen und Print-Angebote anbieten wollen, dann sollten wir nicht versuchen, sie in monolithische Systeme zu locken, um von diesen Angeboten Kenntnis zu nehmen. Wir sollten stattdessen die Informationen zu unseren Angeboten möglichst breit verteilen, damit Nutzerinnen die Informationen in ihrer gewohnten Umgebung (z.B. Google) finden können. Passenderweise hat mir Rurik einmal gesagt, dass er keinen Sinn darin sieht, Discovery-Systeme wie Primo o.ä. zu lizenzieren; das Discovery-System seiner Bibliothek sei Google.

Ruriks Artikel schließt folgendermaßen:

"Es ist offensichtlich für uns, dass die Nutzung von Linked Open Data nicht nur den nötigen Zugang zu unseren Daten herstellt, sondern auch ein Weg ist, um sie mit den Daten anderer anzureichern. Es ist auch klar, dass in einem Zeitalter, wo "vernetzt" die Norm ist, jeder andere Ansatz nicht nur den Erfolg beschränkt, sondern ihn wahrscheinlich sogar ausschließt."

Bietet LOD wirklich völlig neue Möglichkeiten?

Als kleines Korrektiv zu den 'neuen Möglichkeiten', die Linked Open Data erst eröffnen würde, verweise ich noch auf diesen Blogpost von Lee Feigenbaum. Er antwortet darin auf die oft gestellte Frage Was kann ich mit Semantic-Web-Technologien machen, das ich nicht mit anderen Technologien machen kann? - "Nicht viel." Allerdings stellt er klar, dass die Frage falsch gestellt ist und lauten müsste: Was kann ich mit Semantic-Web-technologien machen, das ich sonst nicht machen würde?
Da Linked Data zwar keine revolutionäre Technik ist aber einen evolutionären Vorteil mit sich bringe, weil es Projekte möglich mache, die mit anderen Technologien - aufgrund des damit verbundenen Aufwands - nicht durchgeführt würden. Linked Data bedeute für viele Projekte: vom No-Go zum Go.
In einem weiteren Blogpost stellt er als vorteilhafte Eigenschaften von LOD heraus, dass es sich um ein "common, coherent set of standards" handelt.

hbz: Motivation und erwartete Vorteile

Silke Schomburg hat vorgestern in einem Vortrag (Folien) beim internationalen Ex-Libris-Anwendertreffen unter anderem die Motivationen des hbz für Linked Open Data genannt. Folie 4 fasst einige bereits genannte Argumente knapp zusammen:

"Nutzung internationaler, domänenübergreifender Standards führt zu:

Erhöhter Auffindbarkeit

Möglicher Mehrfachnutzung eines Datenbestands

Maximierter Interoperabilität und Nachnutzbarkeit

Flexiblem Datenmodell"

Dies erinnert an die Aufzählung der W3C-LLD-Gruppe. Daraus folgend werden als möglicher Return of Investment genannt (Folie 5), dass die Nutzung eines standardisierten Technologie-Stacks mittel- bis langfristig dazu führt dieselben Dienste mit weniger Ressourcen sowie neue und verbesserte Services anbieten zu können.

Offene Strukturierte bibliographische Daten: Machen wir es nicht, machen es andere...

Nicht nur scheint LOD also aus rationalen und Effizienzgründen die bessere Wahl zum Aufbau zukünftiger Informationsinfrastrukturen zu sein. Auch könnte es der Bibliothekswelt dabei helfen, relevant zu bleiben und nicht durch andere Organisationen verdrängt zu werden.

Jakob Voß hat am Wochenende darauf hingewiesen, dass Wikimedia überlegt, ein Projekt "Bibliographisch-archivalische Datenbank" anzugehen, in dem eine offene bibliographisch-archivalische Datenbank angelegt werden soll zur Nachnutzung durch die verschiedenen Wikimedia-Projekte aber auch durch andere Akteure wie Wissenschaftler oder Google Books.

Wenn bibliothekarische Organisationen nicht eine wichtige Rolle dabei übernehmen, bibliographische Daten im großen Stil offen, strukturiert und leicht nachnutzbar zur Verfügung stellen, werden es schließlich andere tun...

Prinzipien zu offenen bibliographischen Daten jetzt auch auf Deutsch

2011-02-03T14:31:00.000+01:00

Wie bereits angedeutet gibt es nun eine offizielle deutsche Übersetzung der Principles on Open Bibliographic Data. Die englische Originalfassung wurde bereits Mitte Januar 2011 von der Working Group on Open Bibliographic Data der Open Knowledge Foundation veröffentlicht.

Mein Dank geht an Doreen Thiede und Felix Ostrowski für Korrekturen und Verbesserungsvorschläge.

Unterzeichnen!

Die Prinzipien können unter dieser URL unterzeichnet werden: http://openbiblio.net/principles/endorse/. Ich fordere alle dazu auf, von dieser Möglichkeit Gebrauch zu machen und natürlich können auch Institutionen diese Prinzipien unterzeichnen.

Gerade im Kontext einer langfristigen Umstrukturierung der wissenschaftlichen Informationsinfrastruktur und der Reformierung der bibliothekarischen Verbundsysteme in Deutschland aber auch im Hinblick auf Projekte wie Europeana oder die Deutsche Digitale Bibliothek (DDB) liegen die Vorteile offener bibliographischer Daten auf der Hand: Mit einer breiten Praxis der Publikation bibliographischer Daten unter Nutzung offener Lizenzen wird eine große Zahl rechtlicher Entwicklungsverzögerer hinfällig. Solche rechtlichen Stolpersteine können etwa sein langwierige Vertragsverhandlungen von Infrastrukturprojekten wie Europeana und der DDB mit den verschiedenen Metadatenlieferanten oder Einigungen über die Nutzung großer Mengen bibliographischer Daten in Forschungskontexten usw. Bereits das vascoda-Rechercheportal hat nicht wenig darunter gelitten, dass es keinen unkomplizierten Zugriff auf die Gesamtheit der zu aggregierenden Metadaten gab (siehe dazu meinen Kommentar hier).

Mit Open Data können sich die Bemühungen aller Beteiligten auf die eigentliche Aufgabe konzentrieren: die Schaffung besserer technischer Infrastrukturen für Wissenschaft und Kultur. Deshalb fordere ich auf, ein Zeichen zu setzen für Open Data durch das Unterzeichnen der Prinzipien! (Es ist übrigens ein Jammer, dass - soweit ich dies nach kursorischer Lektüre beurteilen kann - die offene Lizensierung von Wissen in den kürzlich veröffentlichten Papieren des Wissenschaftsrats keine Berücksichtigung findet, wo doch diese rechtlichen Aspekte eine fundamentale Rolle bei der Entwicklung einer zukünftigen Informationsinfrastruktur spielen. Dazu bei Gelegenheit hier sicher mehr...)

Es folgt der Wortlaut der Prinzipien zu offenen bibliographischen Daten:

Prinzipien zu offenen bibliographischen Daten

Einleitung

Produzenten bibliographischer Daten wie Bibliotheken, Verlage, Universitäten, Wissenschaftler oder soziale, webbasierte Literaturverwaltungsplattformen spielen eine wichtige Rolle bei der Entwicklung menschlichen Wissens. Damit ihre Arbeit der Gesellschaft in vollem Umfang zugutekommt, ist es zwingend erforderlich, bibliographische Daten zu öffnen, das heißt für alle zur beliebigen Nutzung frei verfügbar zu machen.

Bibliographische Daten

Um den Geltungsbereich der Prinzipien festzulegen, wird in diesem ersten Teil der zugrundeliegende Begriff bibliographischer Daten erläutert.

Kerndaten

Bibliographische Daten bestehen aus bibliographischen Beschreibungen. Eine bibliographische Beschreibung beschreibt eine bibliographische Ressource (Artikel, Monographie etc. – ob gedruckt oder elektronisch) zum Zwecke

der Identifikation der beschriebenen Ressource, d.h. des Zeigens auf eine bestimmte Ressource in der Gesamtheit aller bibliographischer Ressourcen und
der Lokalisierung der beschriebenen Ressource, d.h. eines Hinweises, wo die beschriebene Ressource aufzufinden ist.

Traditionellerweise erfüllte eine Beschreibung beide Zwecke gleichzeitig, indem sie Information lieferte über: Autor(en) und Herausgeber, Titel, Verlag, Veröffentlichungsdatum und -ort, Identifizierung des übergeordneten Werks (z.B. einer Zeitschrift), Seitenangaben.

Im Web findet Identifikation statt mittels Uniform Resource Identifiers (URIs) wie z.B. URNs oder DOIs. Lokalisierung wird ermöglicht durch HTTP-URIs, die auch als Uniform Resource Locators (URLs) bezeichnet werden. Alle URIs für bibliographische Ressourcen fallen folglich unter den engen Begriff bibliographischer Daten.

Sekundäre Daten

Eine bibliographische Beschreibung kann andere Informationen enthalten, die unter den Begriff bibliographischer Daten fallen, beispielsweise Nicht-Web-Identifikatoren (ISBN, LCCN, OCLC etc.), Angaben zum Urheberrechtsstatus, administrative Daten und mehr; diese Daten können von Bibliotheken, Verlagen, Wissenschaftlern, Online-Communities für Buchliebhaber, sozialen Literaturverwaltungssystemen und Anderen produziert sein.

Darüber hinaus produzieren Bibliotheken und verwandte Institutionen kontrollierte Vokabulare zum Zwecke der bibliographischen Beschreibung wie z. B. Personen- und Schlagwortnormdateien, Klassifikationen etc., die ebenfalls unter den Begriff bibliographischer Daten fallen.

Vier Prinzipien

Wir empfehlen ausdrücklich die Übernahme und Umsetzung der folgenden Prinzipien:

Wenn bibliographische Daten oder Sammlungen bibliographischer Daten veröffentlicht werden, sind die Wünsche und Erwartungen des Herausgebers im Hinblick auf Fragen der Nachnutzung und Wiederverwendung einzelner bibliographischer Beschreibungen, der gesamten Sammlung sowie Teilmengen der Sammlung klar und explizit anzugeben. Diese Angabe sollte präzise und unwiderruflich sein sowie auf einer angemessenen und anerkannten rechtlichen Erklärung in der Form eines „Waivers“ (Verzichtserklärung) oder einer Lizenz basieren.
Die Veröffentlichung bibliographischer Daten erfolge mit einer expliziten und tragfähigen rechtlichen Erklärung.
Viele weithin anerkannte Lizenzen sind weder bestimmt noch geeignet für bibliographische Daten oder Sammlungen bibliographischer Daten. Eine Auswahl von „Waivern“ und Lizenzen, die für die Anwendung auf Daten konzipiert und geeignet sind, ist beschrieben unter http://opendefinition.org/licenses/#Data. Creative-Commons-Lizenzen (mit Ausnahme der CC0), GFDL, GPL, BSD etc. sind NICHT geeignet für Daten und von ihrer Nutzung wird DRINGEND abgeraten.
Benutze eine für Daten geeignete anerkannte Lizenz oder einen Waiver.
Von der Benutzung von Lizenzen, die eine kommerzielle Nachnutzung verhindern oder eine Produktion derivativer Werke beschränken, indem die Nutzung für bestimmte Zwecke oder durch bestimmte Personen oder Organisationen ausgeschlossen wird, wird DRINGEND abgeraten. Solche Lizenzen machen es unmöglich, Datenbestände effektiv zu integrieren und nachzunutzen. Außerdem verhindern sie die Entstehung kommerzieller Dienste, die eine Aufwertung der Daten leisten sowie kommerzieller Aktivitäten, die zur Erhaltung der Datenmengen beitragen können.
Um eine effektive Nutzung und Verbesserung der Daten durch andere zu erreichen, sollten die Daten offen im Sinne der Open Definition (http://opendefinition.org/) sein – insbesondere der Ausschluss kommerzieller Nutzung sowie andere einschränkende Klauseln sollten unterlassen werden.
Darüber hinaus empfehlen wir – insbesondere öffentlich finanzierte – bibliographische Daten und Sammlungen bibliographischer Daten explizit in die Public Domain zu geben durch die Nutzung der Public Domain Dedication and Licence oder des Creative Commons Zero Waivers. Dadurch werden die Nachnutzungsmöglichkeiten maximiert, ganz im Sinne des allgemeinen Ethos des Teilens im Bereich öffentlich geförderter Gedächtnisinstitutionen.
Wo möglich, empfehlen wir, bibliographische Daten mittels PDDL oder CC0 explizit in die Public Domain zu geben.

Beitragende: Karen Coyle, Mark MacGillivray, Peter Murray-Rust, Ben O’ Steen, Jim Pitman, Adrian Pohl, Rufus Pollock, William Waites

Addendum

Eine unvollständige Liste bibliographischer Daten.

Kerndaten: Namen und Identifikatoren von Autor(en) und Herausgeber(n), Titel, Verlagsinformation, Veröffentlichungsdatum und -ort, Identifizierung des übergeordneten Werks (z.B. einer Zeitschrift), Seitenangaben, URIs

Sekundäre Daten: Formatangaben, Nicht-Web-Identifikatoren (ISBN, LCCN, OCLC-Nummer etc.), Angaben zu Urheber- und Lizenzstatus, Angaben finanzieller Förderer, Angaben zum Trägermedium, Umfang- und Größenangaben, administrative Daten (letzte Änderung des Datensatzes etc.), relevante Links (zu Wikipedia, Google Books, Amazon etc.), Inhaltsverzeichnis, Links zu digitalisierten Auszügen eines Textes (Inhaltsverzeichnis, Register, Literaturverzeichnis etc.), Adresse und andere Kontaktdetails zum Autor/den Autoren, Coverabbildungen, Abstracts, Rezensionen, Zusammenfassungen, Schlagwörter, Stichwörter, Notationen, nutzergenerierte Tags, Exemplardaten (Signatur etc.),…

Übersetzung der englischen Originalfassung durch Adrian Pohl.