2011-11-08

Weshalb Computer (nicht) verstehen

Die Künstliche-Intelligenz-Forschung ist seit langem - in neuerer Zeit in Form des Semantic Web - einiger Kritik ausgesetzt, wie sie etwa auch jüngst Jakob Voß im Blogbeitrag "Die Grenzen des Semantic Web" artikuliert. So wie die K.I.-Forschung verspricht, Maschinen zu erschaffen, die einem Menschen ähnlich Probleme lösen, nährt das Semantic Web die Hoffnung, dass es unabhängig von und im Dienste des Menschen, Schlüsse ziehen und Verantwortung übernehmen kann - etwa für eher triviale Dinge wie Terminplanung, Reise- und Hotelbuchungen aber auch für darüber hinausgehende Aufgaben.

Ich schließe mich jener Kritik an, dass die ganze Idee der künstlichen Intelligenz ein Traum ist, der nie Wirklichkeit werden wird. Ich halte den Ausdruck "Semantisches Web" und strenggenommen auch "Künstliche Intelligenz" für in sich widersprüchlich und werde einige Gründe dafür weiter unten erläutern.

Welche Aufgaben für Computer?

Sicherlich gibt es eine Menge Aufgaben, die elektronische Maschinen sehr gut erledigen können und dabei auch "intelligent" in einem weiten Sinne erscheinen mögen. Allerdings ist es wichtig, diese Aufgaben von jenen zu unterscheiden, derer sich die Menschen schon selbst widmen müssen. Nach welcher Regel sollen aber Aufgaben für Maschinen von jenen für Menschen unterschieden werden? Dies halte ich für die eigentlich relevante Frage. Zunächst versuche ich aber einige Gründe dafür zu nennen, wie das Missverständnis zustande kommt, dass Maschinen prinzipiell auch "denken" oder "verstehen" könnten.

Modellierung menschlicher Kommunikation und Kognition nach dem Vorbild des Technischen

Der Grund des Problems ist offensichtlich die Neigung, den Menschen zu verstehen, indem er die Funktion seiner eigenen maschinellen Hervorbringungen analysiert und die Ergebnisse dann auf sich selbst überträgt. Mit anderen Worten: Theorien und Modelle technischer Kommunikation und des Computers werden auf den Menschen, seine Kognition und seine Kommunikation übertragen und sodann der Mensch als eine Maschine unter anderen verstanden. Werden Mensch und Maschine als gleichartig konzipiert, ist es nur konsequent, im Umkehrschluss an die menschlichen Fähigkeiten der Maschine zu glauben.

Kognitionstheorien und Computermodelle

Ein bekanntes Beispiel ist die Konzeption menschlicher Kognition nach dem Modell eines Computers. Nicht zufällig fiel die Entwicklung der Künstlichen-Intelligenz-Forschung zusammen mit der "kognitiven Wende" in der Psychologie, die den Wechsel vom Behaviourismus zu einem Verständnis menschlicher Kognition markiert, das auf der Computer-Metapher basiert. Den Menschen als Maschine verstehend glaubte man, ihn durch die Entwicklung intelligenter Maschinen, deren Bauplan man kennt, verstehen zu können:

"A key idea in cognitive psychology was that by studying and developing successful functions in artificial intelligence and computer science, it becomes possible to make testable inferences about human mental processes. This has been called the reverse-engineering approach." (Quelle: Wikipedia)

Wenn der Mensch selbst als eine intelligente Maschine betrachtet wird, können Maschinen folglich auch intelligent sein. Mittlerweile hat sich zwar herausgestellt, dass menschliche Kognition weitaus komplexer funktioniert als Informationsverarbeitung in einem Computer, so dass man sich von dieser Sichtweise wieder abgewandt hat. Sie hat aber in den Medien sowie in der Alltagssprache ("Kurzzeit-", "Langzeitgedächtnis", Gedächtnis als "Speicher" etc.) ihre Spuren hinterlassen und kann weiterhin dazu verführen, Computer als dem Menschen prinzipiell gleichwertige Informationsverarbeitungssysteme zu verstehen.

Technische = sprachliche Kommunikation?

Abgesehen vom über lange Jahre vorherrschenden auf der Computer-Metapher basierenden Kognitionsmodell sehe ich als weiteren Hauptgrund für den Irrglauben an die "Macht des Computers"[1], dass häufig ein prominentes Modell technischer Kommunikation auch auf natürliche Kommunikation angewendet wird und diese grundlegend verschiedenen Formen von "Kommunikation" gleichgesetzt werden.

Das Shannon/Weaver-Modell technischer Kommunikation ist allseits bekannt und lässt sich wie folgt zusammenfassen: Es gibt einen Sender, einen Empfänger, eine Nachricht, einen Übertragungskanal und einen Code. Verfügen Sender und Empfänger über denselben Code, wird die Nachricht jeweils korrekt en- und dekodiert und wird der Übertragungskanal nicht gestört, dann ist die empfangene Nachricht mit der gesendeten Nachricht identisch.

Dieses Modell deckt eigentlich explizit nur technische Kommunikation ab, so heißt es in Shannons berühmten Aufsatz "A Mathematical Theory of Communication" von 1948:

"Frequently the messages have meaning; that is they refer to or are correlated according to some system with certain physical or conceptual entities. These semantic aspects of communication are irrelevant to the engineering problem."

Shannon geht es eben um das "engineering problem", so dass Konzepte wie "Bedeutung", "Semantik", "Verstehen" schlicht irrelevant in diesem Modell sind. Mit anderen Worten: Das Modell befasst sich allein mit Kommunikation auf der syntaktischen Ebene und abstrahiert von der semantischen Ebene. Leider wurde das Modell nur allzu oft missverstanden und auf natürliche Sprache angewendet, ohne die konstitutiven Unterschiede zwischen diesen "Sprachen" zu beachten. Und sobald menschliche Kommunikation analog zum Modell technischer Kommunikation verstanden wird, wird auch leichtfertig davon ausgegangen, dass Maschinen menschliche Kommunikation vollständig imitieren können.

Christian Stetter stellt den Unterschied zwischen technischer und sprachlicher Kommunikation in [2] klar heraus:

"[W]enn von „technischer Kommunikation“ gesprochen wird, so ist von Kommunikation hier nur in übertragenem Sinn die Rede. Sender und Empfänger sind technische Apparate, philosophisch gesprochen Dinge. Dinge haben jedoch nicht die Fähigkeit, miteinander zu kommunizieren, sie funktionieren gemäß den Gesetzen, denen sie unterliegen. Weder versteht der Sender im mindesten, was er dem Empfänger übermittelt, noch dieser im mindesten, was jener ihm mitteilt."

Technische Kommunikation findet allein auf der syntaktischen Ebene statt, sie basiert auf Diskretheit, auf der Digitalität schriftlicher Symbole, des Alphabets, der Zahlen, letztlich von 0 und 1. Semantik findet sich in der inter-maschinellen Kommunikation nicht und kommt erst auf der Ebene zwischenmenschlicher Kommunikation ins Spiel. Und die Semantik natürlicher Sprachen ist eine nicht-diskrete, so dass es unmöglich ist, sie mit einer Maschine zu repräsentieren. Deshalb ergibt es keinen Sinn, von einem "Semantischen Netz" zu sprechen, das aus Maschinen besteht.[3] Denn erst mit der Aufnahme und Interpretation der Daten (oder einer auf ihrer Basis generierten visuellen oder andersartigen Repräsentation - etwa in Form eines Diagramms) durch einen Menschen bewegen wir uns auf der semantischen Ebene.

Aufgaben für Computer: formale Verfahren

Maschinen operieren also auf der syntaktischen Ebene über digitale Symbole, die im Laufe einer bedeutsamen menschlichen Praxis produziert und gespeichert wurden. Kontext und Bedeutung der Symbole existieren für eine Maschine nicht, sie funktioniert einfach.

Es gibt formalisierte Verfahren - frei von Kontext und Bedeutung - wie das deduktive Schließen und andere logische Operationen oder arithmetische und algebraische Kalküle, die von Menschen mit Stift und Papier entwickelt worden sind bevor Computer existierten. Menschen waren es dementsprechend auch, die diese Handlungen - gewissermaßen als symbolische Maschinen - ausführten. Die symbolische Tätigkeit des Menschen ist mit diesen formalen Operationen allerdings nicht erschöpft, ganz im Gegenteil handelt es sich um gattungsgeschichtlich recht späte Entwicklungen, weil sie an die Verwendung schriftlicher Symbole gekoppelt sind.

Es sind aber diese formalisierten Verfahren - als eine Untermenge der kognitiv bedeutsamen symbolischen Handlungen des Menschen - bei denen uns Computer an Geschwindigkeit und Rechenkraft übertreffen. Dementsprechend decken sich diese Verfahren mit dem Aufgabenbereich von Computern - nicht weniger aber eben auch nicht mehr.[4]

[1] Die deutsche Übersetzung des englischen Titels "Computer Power and Human Reason" ist übrigens völlig daneben und steht im Widerspruch zum Inhalt des Buchs (das zum Glück besser übersetzt ist als sein Titel).

[2] http://www.semantics.de/service/publikationen/kommunikationsmanagement/kommunikationsmanagement.pdf, S. 2f.

[3] Das deckt sich auch mit meiner Argumentation in der Daten-Diskussion mit Jakob, dass Daten - die ja der Stoff sind, mit dem Computer arbeiten - allein auf der syntaktischen Ebene anzusiedeln sind.

[4] Mit dieser Einsicht ist denkbar wenig erreicht. Die weitaus schwierigere Aufgabe ist es, die natürlichsprachige Kommunikation unter diesen Vorbedingungen zu verstehen.

2011-10-24

My Problems with FRBR I: Naming

The so called Functional Requirements of Bibliographic Records (FRBR) are a vital source of discussions in the library world since the 1990s. I mostly tried to don't get too deep into these discussions but haven't evaded them altogether. As FRBR discussions probably won't go away any time soon I will scribble down the basic two or three problems I have with FRBR, starting today with the label it was given: "Functional Requirements for Bibliographic Records".[1]

Functional Requirements? Really?

What I don't get is why FRBR actually goes by the name "Functional Requirements for Bibliographic Records"? (I don't understand much about functional requirements in software engineering or about requirements engineering. Maybe that's my problem...) Shouldn't it be called something like CMBU ("Conceptual Model of the Bibliographic Universe"). When I hear "functional requirements" in the context of bibliographic data, I think of the functionalities a bibliographic database should offer its users.[2] Unfortunately, FRBR is only indirectly talking about functional requirements in this sense as FRBR is focused on creating a data model. One just has to take a look at the FRBR paper by IFLA, Barbara Tillett's text "What is FRBR?" or the "FRBR" wikipedia entry. All of them describe FRBR as a "conceptual model"or "entity-relationship model".

And that is where I see a problem. I am highly in favour of creating functional requirements for bibliographic data covering different use cases. It really is important to do this if you want to develop a good conceptual model for bibliographic data. But one shouldn't confuse "functional requirements" with "conceptual model" as one data model can serve functional requirements from different users, use cases and contexts and as a data model can be created to only satisfy a small number of functional requirements.

Do we need new terminology to describe functional requirements?

Why develop a new language to talk about bibliographic resources if you can describe functional requirements in everday language that is used to talk about bibliographic resources? Users don't want to "select an expression of a work" nobody will tell you that he needs this function. They want to "find a French translation of Moby Dick", an "annotated version of Shakespeare's Julius Caesar", "get an overview over the œuvre of John Dewey" etc. So why doesn't FRBR use common language to show what these functions are users want? Instead, with FRBR, a data model is designed and a new language to talk about bibliographic resources and this language is then - in a circular move - used to formulate requirements for bibliographic data like

Find all manifestations embodying the works for which a given person or corporate body is responsible
Identify an expression of a work
Obtain a manifestation

Have you ever heard a user asking to "obtain a manifestation or expression of a work"? I believe not.

Requirements are always attached to use cases

Functional requirements, for what purpose anyway? - For tasks with which the libraries' users see themselves confronted. But there are so many other purposes one can use bibliographic data for, e.g. building public domain calculators or creating bibliographies and reference lists for research or lectures. And you definitely curtail your opportunities to re-use data for other purposes by adopting a model based on functional requirements that are quite narrowly tailored in the light of specific usage. For example, identifying a work in a FRBR sense doesn't help in a legal context where e.g. a translation is a work in its own right.

Am I just ignorant? Does FRBR actually provide what its name says? I would like to be disabused in my opinion. So please, requirement engineers and bibliographs, explain it to me.

[1] I don't believe these points are very novel but I only could follow some FRBR discussions during the last three years. And they might be wrong. I am happy about any feedback.

[2] Actually, I also think the second part of the lable isn't appropriate as well. It doesn't make much sense to speak of Functional Requirements for Bibliographic Records but for bibliographic databases. It is a database as a whole that has to fulfil specific function in the first place and not individual records.

2011-09-13

Darum Linked Open Data

Eigentlich hatte ich diesen Artikel als meine morgige Stimme für plan3et.info geplant. Da Jakob Voß dort aber am Montag schon das Thema Linked Open Data angesprochen hatte, habe ich mir für plan3t.info etwas anderes überlegt. So komme ich endlich mal wieder dazu Übertext: Blog zu füttern, der von mir die letzten Monate vollständig vernachlässigt wurde. Mit dem Verfassen meiner Masterarbeit, die ich beenden wollte, bevor der Nachwuchs "Hello World!" sagt, hatte ich aber auch die letzten Monate genug zu tun. Zudem schreibe ich desöfteren Beiträge für openbiblio.net, den Blog der OKFN Working Group on Open Bibliographic Data. Hoffentlich werde ich hier in Zukunft wieder regelmäßiger etwas veröffentlichen.

Linked Open Data (LOD) in Bibliotheken und verwandten Organisationen erfährt eine breite Aufnahme. Immer mehr Organisationen arbeiten an LOD-Projekten, das W3C wird bald die endgültige Fassung eines Berichts zur Lage von Linked Library Data veröffentlichen und anscheinend wird nun auch die Französische Nationalbibliothek ihre Linked Data unter einer offenen Lizenz veröffentlichen.

Doch warum das Ganze? Anhand von fünf Publikationen aus den letzten Tagen möchte ich Motivationen und Hintergründe verschiedener Akteure aufzeigen.

Der Bericht der W3C Incubator Group on Linked Library Data

Der Bericht befasst sich in erster Linie mit den Vorteilen der technischen Seite von Linked Open Data und lässt den Aspekt der offenen Lizenzierung außen vor. Als Vorteile des Linked-Data-Ansatzes werden allgemein die dadurch ermöglichten Chancen zum Teilen, Erweitern und Nachnutzen der Daten genannt. Konkrete Vorteile sind:

Multilinguale Funktionalitäten wie multilinguale Bezeichnung von Klassifikationsstellen, Metadatenelementen etc.
Kollaborative Beschreibung von Ressourcen und einfache Nachnutzung von Informationen aus anderen Quellen
Einfache Zitierbarkeit von Beschreibungen
Flexiblerer Datenaustausch. Nicht gesamte Katalogeinträge müssen ausgetauscht werden, sondern - je nach Anwendung und Bedarf - auch nur einzelne Beschreibungsaspekte.

Neben dem Aufzeigen von Vorteilen eines LOD-Ansatzes nennt der Bericht auch wichtige Probleme, die mit der traditionellen Datenhaltung, ihrem Austausch und ihrer Publikation verbunden sind:

Bibliotheksdaten sind nicht im Web integriert und somit nicht durch die Webcrawler von Suchmaschinen auffindbar. Die Daten sind vielmehr Teil des Deep Webs.
Die Standards für bibliothekarische Daten werden nur in der Bibliothekswelt benutzt. Dies erschwert deren Nachnutzung durch andere Akteure oder die Kombination mit Daten aus anderen Quellen.
Bibliotheksdaten gleichen eher natürlichen als maschinenlesbaren Texten. Sie sind nur schwach strukturiert und nicht für maschinelle Verarbeitung optimiert.
Technologische Veränderungen in der Bibliothekswelt hängen von kommerzielen Softwareanbietern ab.

Wer mehr lesen möchte, gehe zu http://www.w3.org/2005/Incubator/lld/wiki/DraftReportWithTransclusion.

Linked Open Data an der NTNU

Die Bibliot hek der NTNU (Norwegische Universität für Wissenschaft und Technologie) in Trondheim publiziert seit 2009 Linked Open Data. Rurik Greenall hat in einem Beitrag für den Blog der OKFN Working Group on Open Bibliographic Data, die Geschichte und Hintergründe beschrieben. Ich versuche hier den Teil zu übersetzen, in dem er die Vorteile von Linked Open Data aus der Anwenderperspektive nennt:

"Linked Open Data bringt Mittel zur Repräsentation und zur Anreicherung [von Daten, A.P.] zusammen, die mit anderen Technologien nicht möglich sind. Während die Lernkurve für uns nicht leicht war, wurden wir in vielerlei Hinsicht belohnt. Die Nutzung von Open Data hat uns die Möglichkeit verschafft, Systeme zu erschaffen, von denen unsere Nutzer/innen inspiriert werden können. Systeme, die Nutzerfragen beantworten und ihnen dabei helfen, mehr zu finden, als sie ursprünglich gesucht haben. Das geht hinaus über das Konzept monolithischer Systeme, bei denen unser Ziel war, Nutzer/innen in die Systeme zu bekommen; vielmehr dreht sich alles darum, die Daten herauszubekommen und sicherzustellen, dass sie verfügbar sind ohne Referenz zu einer bestehenden Webseite. Offenheit ist der Schlüssel und diese Denkweise hat unsere Arbeit enorm verbessert."

Wenn wir also möglichst vielen interessierten Menschen Zugriff auf unsere elektronischen und Print-Angebote anbieten wollen, dann sollten wir nicht versuchen, sie in monolithische Systeme zu locken, um von diesen Angeboten Kenntnis zu nehmen. Wir sollten stattdessen die Informationen zu unseren Angeboten möglichst breit verteilen, damit Nutzerinnen die Informationen in ihrer gewohnten Umgebung (z.B. Google) finden können. Passenderweise hat mir Rurik einmal gesagt, dass er keinen Sinn darin sieht, Discovery-Systeme wie Primo o.ä. zu lizenzieren; das Discovery-System seiner Bibliothek sei Google.

Ruriks Artikel schließt folgendermaßen:

"Es ist offensichtlich für uns, dass die Nutzung von Linked Open Data nicht nur den nötigen Zugang zu unseren Daten herstellt, sondern auch ein Weg ist, um sie mit den Daten anderer anzureichern. Es ist auch klar, dass in einem Zeitalter, wo "vernetzt" die Norm ist, jeder andere Ansatz nicht nur den Erfolg beschränkt, sondern ihn wahrscheinlich sogar ausschließt."

Bietet LOD wirklich völlig neue Möglichkeiten?

Als kleines Korrektiv zu den 'neuen Möglichkeiten', die Linked Open Data erst eröffnen würde, verweise ich noch auf diesen Blogpost von Lee Feigenbaum. Er antwortet darin auf die oft gestellte Frage Was kann ich mit Semantic-Web-Technologien machen, das ich nicht mit anderen Technologien machen kann? - "Nicht viel." Allerdings stellt er klar, dass die Frage falsch gestellt ist und lauten müsste: Was kann ich mit Semantic-Web-technologien machen, das ich sonst nicht machen würde?
Da Linked Data zwar keine revolutionäre Technik ist aber einen evolutionären Vorteil mit sich bringe, weil es Projekte möglich mache, die mit anderen Technologien - aufgrund des damit verbundenen Aufwands - nicht durchgeführt würden. Linked Data bedeute für viele Projekte: vom No-Go zum Go.
In einem weiteren Blogpost stellt er als vorteilhafte Eigenschaften von LOD heraus, dass es sich um ein "common, coherent set of standards" handelt.

hbz: Motivation und erwartete Vorteile

Silke Schomburg hat vorgestern in einem Vortrag (Folien) beim internationalen Ex-Libris-Anwendertreffen unter anderem die Motivationen des hbz für Linked Open Data genannt. Folie 4 fasst einige bereits genannte Argumente knapp zusammen:

"Nutzung internationaler, domänenübergreifender Standards führt zu:

Erhöhter Auffindbarkeit

Möglicher Mehrfachnutzung eines Datenbestands

Maximierter Interoperabilität und Nachnutzbarkeit

Flexiblem Datenmodell"

Dies erinnert an die Aufzählung der W3C-LLD-Gruppe. Daraus folgend werden als möglicher Return of Investment genannt (Folie 5), dass die Nutzung eines standardisierten Technologie-Stacks mittel- bis langfristig dazu führt dieselben Dienste mit weniger Ressourcen sowie neue und verbesserte Services anbieten zu können.

Offene Strukturierte bibliographische Daten: Machen wir es nicht, machen es andere...

Nicht nur scheint LOD also aus rationalen und Effizienzgründen die bessere Wahl zum Aufbau zukünftiger Informationsinfrastrukturen zu sein. Auch könnte es der Bibliothekswelt dabei helfen, relevant zu bleiben und nicht durch andere Organisationen verdrängt zu werden.

Jakob Voß hat am Wochenende darauf hingewiesen, dass Wikimedia überlegt, ein Projekt "Bibliographisch-archivalische Datenbank" anzugehen, in dem eine offene bibliographisch-archivalische Datenbank angelegt werden soll zur Nachnutzung durch die verschiedenen Wikimedia-Projekte aber auch durch andere Akteure wie Wissenschaftler oder Google Books.

Wenn bibliothekarische Organisationen nicht eine wichtige Rolle dabei übernehmen, bibliographische Daten im großen Stil offen, strukturiert und leicht nachnutzbar zur Verfügung stellen, werden es schließlich andere tun...

2011-02-03

Prinzipien zu offenen bibliographischen Daten jetzt auch auf Deutsch

Wie bereits angedeutet gibt es nun eine offizielle deutsche Übersetzung der Principles on Open Bibliographic Data. Die englische Originalfassung wurde bereits Mitte Januar 2011 von der Working Group on Open Bibliographic Data der Open Knowledge Foundation veröffentlicht.

Mein Dank geht an Doreen Thiede und Felix Ostrowski für Korrekturen und Verbesserungsvorschläge.

Unterzeichnen!

Die Prinzipien können unter dieser URL unterzeichnet werden: http://openbiblio.net/principles/endorse/. Ich fordere alle dazu auf, von dieser Möglichkeit Gebrauch zu machen und natürlich können auch Institutionen diese Prinzipien unterzeichnen.

Gerade im Kontext einer langfristigen Umstrukturierung der wissenschaftlichen Informationsinfrastruktur und der Reformierung der bibliothekarischen Verbundsysteme in Deutschland aber auch im Hinblick auf Projekte wie Europeana oder die Deutsche Digitale Bibliothek (DDB) liegen die Vorteile offener bibliographischer Daten auf der Hand: Mit einer breiten Praxis der Publikation bibliographischer Daten unter Nutzung offener Lizenzen wird eine große Zahl rechtlicher Entwicklungsverzögerer hinfällig. Solche rechtlichen Stolpersteine können etwa sein langwierige Vertragsverhandlungen von Infrastrukturprojekten wie Europeana und der DDB mit den verschiedenen Metadatenlieferanten oder Einigungen über die Nutzung großer Mengen bibliographischer Daten in Forschungskontexten usw. Bereits das vascoda-Rechercheportal hat nicht wenig darunter gelitten, dass es keinen unkomplizierten Zugriff auf die Gesamtheit der zu aggregierenden Metadaten gab (siehe dazu meinen Kommentar hier).

Mit Open Data können sich die Bemühungen aller Beteiligten auf die eigentliche Aufgabe konzentrieren: die Schaffung besserer technischer Infrastrukturen für Wissenschaft und Kultur. Deshalb fordere ich auf, ein Zeichen zu setzen für Open Data durch das Unterzeichnen der Prinzipien! (Es ist übrigens ein Jammer, dass - soweit ich dies nach kursorischer Lektüre beurteilen kann - die offene Lizensierung von Wissen in den kürzlich veröffentlichten Papieren des Wissenschaftsrats keine Berücksichtigung findet, wo doch diese rechtlichen Aspekte eine fundamentale Rolle bei der Entwicklung einer zukünftigen Informationsinfrastruktur spielen. Dazu bei Gelegenheit hier sicher mehr...)

Es folgt der Wortlaut der Prinzipien zu offenen bibliographischen Daten:

Prinzipien zu offenen bibliographischen Daten

Einleitung

Produzenten bibliographischer Daten wie Bibliotheken, Verlage, Universitäten, Wissenschaftler oder soziale, webbasierte Literaturverwaltungsplattformen spielen eine wichtige Rolle bei der Entwicklung menschlichen Wissens. Damit ihre Arbeit der Gesellschaft in vollem Umfang zugutekommt, ist es zwingend erforderlich, bibliographische Daten zu öffnen, das heißt für alle zur beliebigen Nutzung frei verfügbar zu machen.

Bibliographische Daten

Um den Geltungsbereich der Prinzipien festzulegen, wird in diesem ersten Teil der zugrundeliegende Begriff bibliographischer Daten erläutert.

Kerndaten

Bibliographische Daten bestehen aus bibliographischen Beschreibungen. Eine bibliographische Beschreibung beschreibt eine bibliographische Ressource (Artikel, Monographie etc. – ob gedruckt oder elektronisch) zum Zwecke

der Identifikation der beschriebenen Ressource, d.h. des Zeigens auf eine bestimmte Ressource in der Gesamtheit aller bibliographischer Ressourcen und
der Lokalisierung der beschriebenen Ressource, d.h. eines Hinweises, wo die beschriebene Ressource aufzufinden ist.

Traditionellerweise erfüllte eine Beschreibung beide Zwecke gleichzeitig, indem sie Information lieferte über: Autor(en) und Herausgeber, Titel, Verlag, Veröffentlichungsdatum und -ort, Identifizierung des übergeordneten Werks (z.B. einer Zeitschrift), Seitenangaben.

Im Web findet Identifikation statt mittels Uniform Resource Identifiers (URIs) wie z.B. URNs oder DOIs. Lokalisierung wird ermöglicht durch HTTP-URIs, die auch als Uniform Resource Locators (URLs) bezeichnet werden. Alle URIs für bibliographische Ressourcen fallen folglich unter den engen Begriff bibliographischer Daten.

Sekundäre Daten

Eine bibliographische Beschreibung kann andere Informationen enthalten, die unter den Begriff bibliographischer Daten fallen, beispielsweise Nicht-Web-Identifikatoren (ISBN, LCCN, OCLC etc.), Angaben zum Urheberrechtsstatus, administrative Daten und mehr; diese Daten können von Bibliotheken, Verlagen, Wissenschaftlern, Online-Communities für Buchliebhaber, sozialen Literaturverwaltungssystemen und Anderen produziert sein.

Darüber hinaus produzieren Bibliotheken und verwandte Institutionen kontrollierte Vokabulare zum Zwecke der bibliographischen Beschreibung wie z. B. Personen- und Schlagwortnormdateien, Klassifikationen etc., die ebenfalls unter den Begriff bibliographischer Daten fallen.

Vier Prinzipien

Wir empfehlen ausdrücklich die Übernahme und Umsetzung der folgenden Prinzipien:

Wenn bibliographische Daten oder Sammlungen bibliographischer Daten veröffentlicht werden, sind die Wünsche und Erwartungen des Herausgebers im Hinblick auf Fragen der Nachnutzung und Wiederverwendung einzelner bibliographischer Beschreibungen, der gesamten Sammlung sowie Teilmengen der Sammlung klar und explizit anzugeben. Diese Angabe sollte präzise und unwiderruflich sein sowie auf einer angemessenen und anerkannten rechtlichen Erklärung in der Form eines „Waivers“ (Verzichtserklärung) oder einer Lizenz basieren.
Die Veröffentlichung bibliographischer Daten erfolge mit einer expliziten und tragfähigen rechtlichen Erklärung.
Viele weithin anerkannte Lizenzen sind weder bestimmt noch geeignet für bibliographische Daten oder Sammlungen bibliographischer Daten. Eine Auswahl von „Waivern“ und Lizenzen, die für die Anwendung auf Daten konzipiert und geeignet sind, ist beschrieben unter http://opendefinition.org/licenses/#Data. Creative-Commons-Lizenzen (mit Ausnahme der CC0), GFDL, GPL, BSD etc. sind NICHT geeignet für Daten und von ihrer Nutzung wird DRINGEND abgeraten.
Benutze eine für Daten geeignete anerkannte Lizenz oder einen Waiver.
Von der Benutzung von Lizenzen, die eine kommerzielle Nachnutzung verhindern oder eine Produktion derivativer Werke beschränken, indem die Nutzung für bestimmte Zwecke oder durch bestimmte Personen oder Organisationen ausgeschlossen wird, wird DRINGEND abgeraten. Solche Lizenzen machen es unmöglich, Datenbestände effektiv zu integrieren und nachzunutzen. Außerdem verhindern sie die Entstehung kommerzieller Dienste, die eine Aufwertung der Daten leisten sowie kommerzieller Aktivitäten, die zur Erhaltung der Datenmengen beitragen können.
Um eine effektive Nutzung und Verbesserung der Daten durch andere zu erreichen, sollten die Daten offen im Sinne der Open Definition (http://opendefinition.org/) sein – insbesondere der Ausschluss kommerzieller Nutzung sowie andere einschränkende Klauseln sollten unterlassen werden.
Darüber hinaus empfehlen wir – insbesondere öffentlich finanzierte – bibliographische Daten und Sammlungen bibliographischer Daten explizit in die Public Domain zu geben durch die Nutzung der Public Domain Dedication and Licence oder des Creative Commons Zero Waivers. Dadurch werden die Nachnutzungsmöglichkeiten maximiert, ganz im Sinne des allgemeinen Ethos des Teilens im Bereich öffentlich geförderter Gedächtnisinstitutionen.
Wo möglich, empfehlen wir, bibliographische Daten mittels PDDL oder CC0 explizit in die Public Domain zu geben.

Beitragende: Karen Coyle, Mark MacGillivray, Peter Murray-Rust, Ben O’ Steen, Jim Pitman, Adrian Pohl, Rufus Pollock, William Waites

Addendum

Eine unvollständige Liste bibliographischer Daten.

Kerndaten: Namen und Identifikatoren von Autor(en) und Herausgeber(n), Titel, Verlagsinformation, Veröffentlichungsdatum und -ort, Identifizierung des übergeordneten Werks (z.B. einer Zeitschrift), Seitenangaben, URIs

Sekundäre Daten: Formatangaben, Nicht-Web-Identifikatoren (ISBN, LCCN, OCLC-Nummer etc.), Angaben zu Urheber- und Lizenzstatus, Angaben finanzieller Förderer, Angaben zum Trägermedium, Umfang- und Größenangaben, administrative Daten (letzte Änderung des Datensatzes etc.), relevante Links (zu Wikipedia, Google Books, Amazon etc.), Inhaltsverzeichnis, Links zu digitalisierten Auszügen eines Textes (Inhaltsverzeichnis, Register, Literaturverzeichnis etc.), Adresse und andere Kontaktdetails zum Autor/den Autoren, Coverabbildungen, Abstracts, Rezensionen, Zusammenfassungen, Schlagwörter, Stichwörter, Notationen, nutzergenerierte Tags, Exemplardaten (Signatur etc.),…

Übersetzung der englischen Originalfassung durch Adrian Pohl.

2011-01-31

Linked Open Data vs. WorldCat, oder: Eine Alternative, die keine ist

Der Wissenschaftsrat hat heute einige Papiere veröffentlicht:

Empfehlungen zu wissenschaftlichen Sammlungen als Forschungsinfrastrukturen (Pressemitteilung, PDF)
Empfehlungen zu Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften (Pressemitteilung, PDF)
Übergreifende Empfehlungen zu Informationsinfrastrukturen (Pressemitteilung, PDF)

Bisher habe ich diese Papiere nicht genauer in Augenschein nehmen können. Ein viertes Papier Empfehlungen zur Zukunft des bibliothekarischen Verbundsystems in Deutschland steht auch noch aus und wird am 3. Februar nachgereicht (Update 3.2.2011: siehe hier). Wie es scheint, gibt diese zentrale Aussage in den Übergreifenden Empfehlungen zu Informationsinfrastrukturen (S. 54) aber schon einen Vorgeschmack auf das Papier:

"Die Integration von Katalogdaten in Metadatenbanken setzt international gültige Standards voraus. Im Bibliotheksbereich werden derzeit zwei verschiedene, nicht kompatible Ansätze praktiziert: die Zusammenführung von Katalogdaten in einer bibliographischen Datenbank, z. B. WorldCat, welche die Kataloge mehrerer tausend, auch deutscher OCLC-Mitgliedsbibliotheken umfasst, sowie die Bereitstellung von Katalogdaten in Form in das offene Web integrierter Linked Open Data. Der Wissenschaftsrat bekräftigt seine Empfehlung, dass die bibliothekarischen Verbünde im Interesse der Wissenschaft sowie ihrer eigenen Zukunftsfähigkeit rasch zu einer abgestimmten strategischen Entscheidung für einen der beiden Ansätze finden müssen. Dabei muss sicher gestellt werden, dass die Verfügbarkeit und Weiterentwicklung entsprechender Dienste nicht monopolisiert wird."

Zunächst einmal: Den impliziten Befund, dass OCLCs WorldCat und Linked Open Data inkompatibel sind, kann ich bestätigen, OCLC hat dies selbst unmissverständlich klar gemacht (siehe hier). Wie soll man diesen Abschnitt nun desweiteren interpretieren? Offensichtlich macht der Wissenschaftsrat hier erst eine vermeintliche Wahlmöglichkeit "WorldCat oder Linked Open Data"[1] auf und empfiehlt, dass die Bibliotheksverbünde sich gemeinsam entscheiden, in Zukunft ausschließlich auf eine dieser Lösungen zu setzen. Allerdings wird mit dem letzten Satz dieses Zitats die eine Möglichkeit (WorldCat) direkt wieder ausgeschlossen, denn: Es kann eigentlich niemand ernsthaft auf WorldCat setzen, der eine Monopolisierung von Diensten ausschließen möchte, die über bibliographische Daten angeboten werden. Jedenfalls nicht, wenn er die Entwicklungen der letzten Jahre verfolgt hat. (Siehe dazu etwa hier, hier und hier.)

In der dem Papier zugehörigen Pressemitteilung heißt es auch:

"Der Wissenschaftsrat empfiehlt ferner eine enge Vernetzung von Informationsinfrastrukturen mit der aktuellen Forschung."

Diese Empfehlung kann ich nur unterstützen und gleichzeitig feststellen: Die bestmögliche Erleichterung der Integration bibliographischer Daten in wissenschaftliche Forschungsumgebungen ist eines der Argumente für Open Linked Data. Denn wenn bibliographische Daten und andere Informationen offen lizenziert und unter Nutzung allgemeiner Standards im Web publiziert sind, ist sichergestellt, dass sie naht- und problemlos in wissenschaftliche Forschungs- und Textproduktionsumgebungen integriert werden können und dass dieser Integration auch in Zukunft nichts im Weg steht.

Es scheint also, als sei Open Linked Data die einzige Möglichkeit, den Anforderungen des Wissenschaftsrats gerecht zu werden. Unter diesen Vorzeichen könnte man sich ja zurücklehnen und sich auf den Auf-/Umbau der zukünftigen deutschen Informationsinfrastruktur unter Anwendung von Linked-Open-Data-Standards freuen. Allerdings glaube ich nicht, dass man sich auf diese optimistische Einschätzung verlassen kann...

[1] Ich bin mir nicht sicher, wie klar der Begriff des Wissenschaftsrats von Linked Open Data ist. Ich richte mich hier wie anderswo nach der Open Definition und bezeichne allein jene Daten als offen, die mit einer offenen Lizenz im Sinne dieser Definition lizenziert sind, siehe auch das Linked Open Data star scheme by example.

2011-01-18

Launch der Principles on Open Bibliographic Data

Ich freue mich, die offizielle Veröffentlichung der Principles on Open Bibliographic Data verkünden zu können. Die Prinzipien wurden gestern auf dem Peter-Murray-Rust-Symposium “Visions of a (Semantic) Molecular Future” gelauncht[1]. Die Prinzipien sollen als allgemeine Richtschnur bei einer Freigabe bibliographischer Daten dienen. Sie eignen sie sich zudem gut für die Überzeugungsarbeit im Umgang mit Produzenten bibliographischer Daten, wozu ja auch Bibliotheken gehören.

Kernaussagen

Die Hauptempfehlungen der Prinzipien lauten wie folgt:

When publishing bibliographic data make an explicit and robust license statement.
Use a recognized waiver or license that is appropriate for data.
If you want your data to be effectively used and added to by others it should be open as defined by the Open Definition – in particular non-commercial and other restrictive clauses should not be used.
Where possible, we recommend explicitly placing bibliographic data in the Public Domain via PDDL or CC0.

Unterstützung gesucht für deutsche Übersetzung

Eine vorläufige deutsche Übersetzung der Prinzipien findet sich hier. Ich würde mich über Rückmeldungen und Verbesserungen freuen, damit auch eine deutsche Fassung bald offiziell veröffentlicht werden kann. (Einfach editieren oder Kommentare hinterlassen, das Dokument kann von allen bearbeitet werden.)

Entstehung

Die Idee zu den Prinzipien hat ihren Ursprung in einer Diskussion auf der Mailingliste des deutschen Zweigs der Open Knowledge Foundation im Mai 2010. In dem damaligen Zusammenhang ging es insbesondere um Europeana-Metadaten und um die Daten der Europeana-Zulieferer. Ich habe den Vorschlag dann in die OKFN Working Group on Open Bibliographic Data getragen. Die Panton Principles for Open Data in Science wurden schließlich für die Formulierung der Prinzipien als Vorlage genommen.

Mit der Zeit weiteten wir den Adressatenkreis der Prinzipien von den Bibliotheken auf die breite Gruppe der Produzenten bibliographischer Daten aus, wozu auch Verlage, Wissenschaftler, Online-Communities für Buchliebhaber (wie LibraryThing) oder soziale Literaturverwaltungssysteme (wie BiSonomy oder citeulike) gehören. Auf Anregung Peter Murray-Rusts ergänzten wir die Prinzipien um eine Definition bibliographischer Daten, wodurch der Geltungsbereich der Prinzipien klar eingegrenzt wurde.

Der gesamte Entstehungsprozess und die damit verbundenen Diskussionen waren sehr anregend, nicht zuletzt, weil eben auch theoretische Fragen - etwa nach dem Begriff bibliographischer Daten - diskutiert wurden und weil in der Gruppe Wissenschaftler, Techniker und Personen aus der Bibliothekswelt zusammenkamen und somit naturgemäß über den Tellerrand der Bibliothekswelt hinausgeschaut wurde.

Weiter geht's!

Die Principles on Open Bibliographic Data sind ein weiterer Schritt in Richtung einer Zukunft, in der bibliographische Daten frei fließen und dezentral aber kooperativ von verschiedensten Akteuren angereichert und verbessert werden. Die Veröffentlichung der Prinzipien markiert einen guten Start in das Jahr 2011. Bereits 2010 hat die Bewegung für freie bibliographische Daten einige Fortschritte machen und Erfolge feiern können wie kürzlich etwa auch Peter Suber in seiner Open-Access-Übersicht für 2010 dargestellt hat. Hoffen wir, dass es 2011 so ereignis- und erfolgreich weitergeht - etwa mit weiteren Datenfreigaben in Deutschland und ersten innovativen Linked-Data-Anwendungen auf Basis der offenen Daten!

[1] Siehe auch die Mitteilung im Blog der Open Knowledge Foundation.

2011-01-17

Schriftrolle - Kodex - Buch - ?

Auf arte.tv nimmt Robert Darnton unter anderem zur Frage nach der Verdrängung des Buchdrucks durch elektronische Medien Stellung.

Darnton sagt in dem Beitrag:

"Das Radio hat die Zeitung nicht verdrängt, der Fernseher hat das Radio nicht verdrängt und das Internet hat den Fernseher nicht verdrängt. Ebensowenig werden elektronische Bücher das gedruckte Buch verdrängen."

Ist "Zeitung - Radio - Fernsehen - Internet" wirklich die passende historische Entwicklungslinie, an der man sich in dieser Frage orientieren sollte? Handelt es sich bei den aufgezählten Medien nicht um gänzlich verschiedene? Die Zeitung ist ein starres visuelles Medium ähnlich dem Buch. Im Falle von Radio, Fernsehen und Internet haben wir es aber mit Medien zu tun, die aufgrund der Möglichkeit auditiver und/oder visueller Bewegtheit gänzlich anderer Natur sind. Deshalb ist es auch nicht verwunderlich, wenn diese Medien sich nicht gegenseitig verdrängen, sondern nebeneinander existieren und sich dabei vielmehr ergänzen.[1]

Man sollte folglich eher die Entwicklung der Speicher- und/oder Präsentationsmedien[2] von Schrift betrachten. Eine Entwicklungslinie der Präsentationsmedien könnte etwa so aussehen:

Schriftrolle - Codex - Buch - Display

Man könnte auch noch weiter zurück in die Zeit von Wachs- und Tonplatten oder in Stein gemeißelter Schrift gehen. In jedem Fall kann man die tatsächliche Verdrängung einiger Präsentations- und Speichermedien von Schrift durch neuere nicht leugnen. Ob das etwas an Darnton's Behauptung ändert, das Buch würde nicht durch das elektronische Buch verdrängt werden, ist eine andere Frage. Allerdings räume ich ebenfalls dem eBook (was auch immer das ist/sein wird) keine großen Chancen im Verdrängungskampf ein, solange es nicht das offene Web als Plattform benutzt... Aber wäre es dann noch ein Buch?

[1] Empfohlen sei in diesem Zusammenhang Paul Fords Text "The Web is a Customer Service Medium", in dem er die Eigentümlichkeit des Webs im Vergleich zu anderen Medien - allerdings von einer gänzlich anderen Perspektive als hier - ausarbeitet.

[2] Bis vor nicht allzulanger Zeit fielen Speicher- und Präsentationsmedium von Schrift zusammen, d.h. diese Unterscheidung war schlicht unnötig. Papier, ein Buch, eine Schriftrolle etc. sind gleichzeitig Speicher- und Präsentationsmedium von Schrift. Erst mit der Elektrifizierung, der Binärisierung von Schrift wurde diese Differenz überhaupt sinnvoll, denn die menschenlesbare Darstellung gespeicherter binärer Schrift bedarf eines Mediums neben dem eigentlichen Speichermedium.

[via blog.sub.uni-hamburg.de]

2011-01-05

OCLC membership: in search of criteria or a members list

Background: There have been several discussions going on at Karen Coyle's blog recently, one on a blog post by Karen about OCLC's motion to dismiss in the anti-trust lawsuit by SkyRiver against OCLC. In this discussion Karen referred to the questions I posed last year in the OCLC community forum discussion about the proposed policy (for background information see my blog post in German from April 2010 on OCLC and the Public Domain.) There also was an interesting discussion on another post and in its course Karen's assumption was challenged that Linked (Open) Data innovations in the library world would only come from institutions not bound by the OCLC policy.
As my text got to long for posting it as a comment on Karen's blog I am posting it here (simultaneously being my first post on this blog in English).

First: It was me that asked the questions under the name "Adrian" in the OCLC community forum concerning member libraries opening up their data under a public domain licence. And I definitely agree with Karen saying that the Record Use Policy Committee or any other body representing OCLC has not (yet?) answered my last question in this forum from April 16th 2010. The Committee rather postponed an answer and said that my question would be adressed by a reworking of section 5 of the policy. Albeit, since then this section hasn't changed a bit.

I haven't read the OCLC Motion and so I won't and can't go deeper into this discussion. But it is interesting that somehow related questions popped up in the debate about Karen's assumption that all libraries which do Linked/Open Data aren't bound by the OCLC policy. (See the comments on this post by Karen). I think the commenters attack the wrong person when they accuse Karen of making a statement that isn't fact-based. Maybe one should pose the question why it is so hard to find out the facts about who actually is an OCLC member and thus bound by the policy. In this post, I'll first try by myself to figure out what constitutes an OCLC membership.

Searching for criteria of OCLC membership

At first glance, it seems to be easy to find out the answer to the question who is actually bound by the policy. The policy itself makes clear at the beginning that it refers to the "OCLC cooperative":

"The policy is intended for the OCLC cooperative, which refers collectively to OCLC members, the OCLC governance structure (Board of Trustees and Global and Regional Councils), and the non-profit OCLC corporation."

Since July 2009 an OCLC member is defined as follows:

"Institutions worldwide become members of OCLC by contractually agreeing to contribute intellectual content or share resources."

Therefore, I might possibly assume that contributing data to WorldCat is a sufficient condition for being an OCLC member. But the membership definition also states:

"OCLC services and products qualifying for membership status are identified annually. These services and products are proposed by OCLC staff, reviewed by the Membership Committee, and any changes are approved by the Global Council and the Board of Trustees."

As I understand it, the group of libraries which are OCLC members might change each year with the publication of a list of products and services qualifying for membership status. That seems to me quite strange in itself. Furthermore, the quoted sentence isn't linked to the current list of products and services qualifying for membership status - if such a list really exists. (Anyone?) Batch uploading might - as Karen shows in the case of the British Library which as per OCLC's annual report 2009/2010 (p.15) was the biggest batchloader to WorldCat - not necessarily constitute membership although OCLC's batch processing product page lists the point "Participate as fully as possible in the worldwide OCLC library community" which couldn't sound more like membership to me.

It seems that clear criteria for identifying OCLC members don't exist first and foremost the mentioned list of "services and products qualifying for membership status" doesn't exist openly accessible online. I can't easily find out who's an OCLC member and who's not simply by looking at the services and products they buy from OCLC.[1]

A list of OCLC members?

I might assume that all organizations listed in the search for OCLC libraries are OCLC members and thus are bound by the policy. If this was the case then the British Library would be an OCLC member as it is listed in this index together with Konstanz University Library, the Tübingen University Library and the BSZ (the library service center of the SWB library network both libraries belong to) who also have already opened up their data.[2]

To be clear: I am looking for clarity about OCLC membership, be it clear criteria that have to be met to be a member or a simple index of OCLC members. Contrary to Karen, I would not be the least bit surprised if there actually were OCLC members which are bound by the policy among the libraries doing Open (Linked) Data. It even is most probably the case that Konstanz University Library, Tübingen University Library as well as all other libraries in the SWB library network are OCLC members because the BSZ not only batchloads the union catalog data into WorldCat but they even copy catalog from WorldCat.[3] The BSZ might simply have bargained a contract with OCLC which permits them to do what they want with their data while also being an OCLC member, which would be a very sensible move. (I'd be very happy if somebody from the BSZ might leave a comment here concerning this.)

It's worth to consider that the OCLC corporation might not be the powerful player on the European market as it is in the US and that because of this presumed weaker bargaining position of OCLC in Europe contracts in Europe and the US might differ significantly...

Uncertainty & doubt

The underlying general problem is illustrated very well when Karen says: "I don't think we have a way to know, with one quick search, who is and isn't covered by the agreement". If there exist clear criteria for OCLC membership or a database or list of OCLC member institutions these aren't publicly accessible. In my view, it shouldn't be the case that you have to do weeks-long research and interview several people to get answers to these questions. One might think that a cooperative in the domain of public memory institutions has an open and up-to-date list of its members...

To sum it up: We have some understanding of the policy's intention, what it allows, proscribes and demands. And it is clear that the OCLC policy refers to "OCLC members" but
a) we often don't really know whether an institution is an OCLC member or not or whether it has another relation to OCLC and
b) we don't know how a breach of the policy by one of the members might be sanctioned. There's no document saying what will happen. (But we know what OCLC did to a long-term member which decided to change the record supplier for copy cataloging...)

So, there's some uncertainty and doubt to be dealt with. Hopefully OCLC (members) will work on removing it by providing the relevant information...

[1] This thread on NGC4LIB about OCLC members and participants displays the same uncertainty about this question.

[2] A consistent definition of "open" in "Open Data", "Open Content" etc. is the Open Knowledge Definition. I stick to this definition when talking about Open Data which implies that German and French national libraries' data isn't (yet) open. And furthermore - following the Open Knowledge Definition - Linked Data isn't necessarily Open Data while Open Data mustn't be Linked Data, see Linked Open Data star scheme by example for more clarity on this.

[3] See https://wiki.bsz-bw.de/doku.php?id=v-team:katalogisierung:worldcat.