2010-02-10

Partizipativer Katalog, Intertextualität und Linked Data

Lambert Heller hat mich vor einiger Zeit in einer kleinen Twitter-Konversation (die hier ihren Ausgang nahm) auf den Aufsatz “Participatory Networks: The Library as Conversation” hingewiesen. Mittlerweile habe ich mal ein wenig in den Text reingeschaut, und ich stimme völlig mit dem Grundgedanken überein, dass Bibliotheken den NutzerInnen "constructive means ... to improve or shape the conversation" (S.5) geben müssen. Für wissenschaftlliche Bibliotheken heißt das, die Konversation der WissenschaftlerInnen durch das bereitstellen einer entsprechenden Infrastruktur zu unterstützen. (Nichts Anderes war und ist die Aufgabe wissenschaftlicher Bibliotheken.) [1]

Ich will hier nicht näher auf den Aufsatz eingehen, vielleicht ein andernmal. Allerdings spukt ein konkreter und m.E. vielversprechender Ansatz der Nutzerpartizipation schon länger in meinem Kopf herum. Dieser illustriert auch sehr schön, welche Möglichkeiten die Migration bibliographischer Daten in das Semantic Web bietet. Es geht um die kollaborative Vernetzung der katalogisierten Ressourcen mittels typisierter Links, mit anderen Worten darum, die NutzerInnen bibliographischer Daten Linked Data produzieren zu lassen.

Literatur heißt Verwobensein, verknüpfen heißt verstehen

Zunächst ein ganz bisschen Intertextualitäts- und Erkenntnistheorie. Ich habe bereits im Blogbeitrag Der Text der Zukunft I: Die Vergangenheit auf den Charakter des Verwobenseins von Texten, der Intertextualität von Literatur, hingewiesen. Weil ich es gerade nicht besser hinbekomme, zitiere ich einfach aus diesem Blogbeitrag. Zum einen heißt es dort (inklusive Grammatikfehler):
"[Es] hat sich bereits im Papierzeitalter gezeigt, dass jeder Begriff von Textidentität, der sich auf dem Paradigma der Druckpublikationen gründet, ein stark verkürzter ist und unsere Auffassung davon, was ein Text ist, in die Irre führt. Die bis in die 60er Jahre zurückgehende Intertextualitätsforschung baut auf der Vorstellung auf, dass ein Text seine Identität nicht aus sich selbst heraus, sondern vielmehr durch die Stellung, die er in der Literatur einnimmt, erhält. (...) Jeder Text erhält seine Bedeutung und seinen Wert durch seine Relationen zu anderen Texten – seien dies Texte, an die er (explizit oder implizit) anknüpft, auf die er verweist oder Texte, die ihrerseits an ihn anknüpfen. Augenfällig wird die Intertextualität etwa in Zitaten und Verweisen, ein großer Teil der Verknüpfungen zwischen Texten bleibt aber implizit."
Ein Text erhält seine Bedeutung und Identität also nicht aus sich selbst heraus, weshalb etwa ein Abstract nur sehr wenig über einen Text aussagt, wenn es seine Beziehungen zu anderen Texten, zur ähnlichen Forschungsprojekten, zu Forschungstraditionen und Schulen usw. nicht aufzeigt.

Zum anderen heißt es im erwähnten Blogbeitrag:
"Jede Verknüpfung schafft Erkenntnis. Die Intertextualitätsforschung stimmt mit Theoretikern wie Nelson Goodman, Jacques Derrida oder Ludwig Jäger in der Annahme überein, dass sich sämtliche Erkenntnis immer in der Verknüpfung mit und Verformung von Bestehendem vollzieht und somit alles Wissen je Produkt von Anknüpfungs- und Transformationshandlungen ist.
Ein Merkmal des Papierzeitalters ist, dass ein großer Teil dieser Verknüpfungs- und somit Erkenntnisarbeit privat und weitestgehend unerkannt stattfindet. Ich spreche von Prozessen, die beim Lesen von Texten stattfinden. Ich spreche von der Produktivität des Rezipienten, die sich in Handlungen wie dem Unterstreichen, dem Verweisen auf Bekanntes, dem Hervorheben relevanter neuer Anknüpfungspunkte zeigt. Diese produktiven Prozesse gehen meist in den Notizen des Lesers oder am Rande der Buchseiten verloren."
Hier wird deutlich gemacht, dass Bedeutung und Verstehen durch Vernetzung entstehen, durch In-Beziehung-Setzen, durch Vergleichen, Abgrenzen und ähnlichen Handlungen. Darüber hinaus wird darauf hingewiesen, dass im Papierzeitalter ein großer Teil unserer Arbeit mit Texten im Privaten stattfindet und dadurch für die direkte Kommunikation zwischen Menschen verloren ist. [2] Eine wichtige Frage im Hinblick auf die Zukunft bibliographischer Datenbanken und von eBook-Readern ist, wie diese bisher privaten Daten in maschinenlesbarer Form gespeichert, mit anderen geteilt und nachgenutzt werden können.

Möglichkeiten eines partizipativen Katalogs


Dann will ich endlich mal auf meinen Vorschlag für einen partizipativen Katalog zurückkommen, der wahrscheinlich recht leicht umzusetzen wäre, sobald die bibliographischen Daten als Linked Data vorliegen.

Wieso geben wir nicht den Leuten, die wirklich Ahnung von jenen Dingen, d.h. Texten haben, die in Bibliothekskatalogen verzeichnet sind, die Möglichkeit, ihr Wissen, ihre Vermutungen und Annahmen über bestimmte Zusammenhänge dort hineinzulegen? Der "Katalog 2.0", mit Social Tagging, Listenfunktionen und ähnlichem ist sicher als ein Schritt in die richtige Richtung zu begrüßen. Allerdings sind die Handlungen des Taggens und der Gruppierung in Listen noch sehr ähnlich der traditionellen Klassifizierung. Mir geht es hier aber um eine etwas andere Form der Anreicherung von Quellendaten, um eine andere, direktere Form des In-Beziehung-Setzens von Texten. [3]

Es ist integraler Bestandteil jeder Wissenschaft, jedes wissenschaftlichen Textes, Bezugnahmen zu anderen Texten explizit zu machen. Dies geschieht über die Fußnote, das Literaturverzeichnis und ähnliche Mittel. Allerdings sagt ein Literaturverzeichnis nur aus, dass der dazugehörige Text auf die dort aufgelisteten Quellen bezugnimmt aber nicht in welcher Weise dies geschieht, d.h.welchen Charakter die Bezugnahme hat. Wird der referenzierte Text kritisiert, wird auf den dort kommunizierten Erkenntnissen aufgebaut, wird dem Text widersporchen, er gar widerlegt oder dient er als Teil eines Korpus für linguistische Untersuchungen wissenschaftlicher Literatur?

Typisierte Verlinkungen ermöglichen

Auch diese Überlegungen sind alles andere als neu, ganz im Gegenteil, Wissenschaftler (nicht Bibliothekare) experimentieren schon mit der Umsetzung. Es gibt bereits zwei OWL-Ontologien (man könnte auch von "Link-Klassifikationen" sprechen), die ein Vokabular zur Verknüpfung wissenschaftlicher Texte zur Verfügung stellen.

Die erste Ontologie ist die Scientific Discourse Relationships Ontology Specification. Sie wurde entwickelt von Do-it-yourself-Wissenschaftlern aus der biomedizinischen Alzheimerforschung im Kontext des SWAN-Projekts Semantic Web Applications in Neuromedicine, "a project to develop knowledge bases for the neurodegenerative disease research communities, using the energy and self-organization of that community enabled by Semantic Web technology". Diese Ontologie ist sehr übersichtlich und umfasst bisher nur die folgenden dreizehn Eigenschaften von Referenzen:

Interessant ist, dass allein die weiter untergliederte Eigenschaft "refers to" der Klassifizierung expliziter Bezugnahmen dient, d.h. der Klassifizierung von Referenzen in Fußnoten oder Literaturverzeichnissen. Die nicht weiter untergliederten Eigenschaften "inconsistentWith", "consistentWith", "relevantTo" und "alternativeTo" können auch zwischen nicht explizit verknüpften Texten bestehen und sie können vor allem allein durch Fachleute expliziert werden.

Die zweite, detailliertere Ontologie ist CiTO, die Citation Typing Ontology. Sie konzentriert sich bei der Verknüpfung von Texten allerdings allein auf die Spezifizierung bereits deklarierter Beziehungen, das heißt auf die Klassifizierung der Verweise in einem Literaturverzeichnis. Im Abstract eines Artikels von David Sutton (pdf) über CiTO heißt es:
"CiTO, the Citation Typing Ontology, is an ontology for describing the nature of reference citations in scientific research articles and other scholarly works, and for publishing these descriptions on the Semantic Web. Citation are described in terms of the factual and rhetorical relationships between citing publication and cited publication, the in-text and global citation frequencies of each cited work, and the nature of the cited work itself, including its peer review status."
Die CiTO geht also über die Typisierung von Bezügen zwischen Texten noch hinaus, indem sie etwa auch eine Klassifikation wissenschaftlicher Quellen versucht und etwas über den Peer-Review-Status und die Anzahl der Anführungen referenzierter Texte aussagen lässt. Darüberhinaus versucht CiTO, die Functional Requirements for Bibliographic Records (FRBR) umzusetzen.

Der sehr lesenswerte Artikel Adventurs in Semantic Publishing: Exemplar Semantic Enhancements of a Research Article zeigt unter anderem den Nutzen mit CiTO annotierter Referenzlisten auf, geht aber auch auf weitere Aspekte des "Semantic Publishing" ein und exemplifiziert das Ganze mit der semantischen Anreicherung eines Zeitschriftenartikels (Anschauen und Rumprobieren lohnen sich). Semantic Publishing definieren die AutorInnen wie folgt:
"We define the term semantic publication to include anything that enhances the meaning of a published journal article, facilitates its automated discovery, enables its linking to semantically related articles, provides access to data within the article in actionable form, or facilitates integration of data between articles."
 Ich habe keine Ahnung, inwiefern dieser Ansatz (der Artikel wurde im April 2009 publiziert) Anklang gefunden hat und ob bereits Verlage an einer Umsetzung des Konzepts arbeiten.

Beide hier vorgestellten Ontologien sind eher für den SMT-Bereich (Science, Medicine, Technology) der Wissenschaften geschaffen und dort vor allem für die Annotierung von Beziehungen zwischen Zeitschriftenartikeln zu den in ihnen erwähnten Quellen. Es geht in erster Linie darum, bereits explizit gemachte Verknüpfungen zu spezifizieren. Zudem soll diese Spezifikation - zumindest mit der CiTO - bereits vor der Publikation durch die Autoren eines Texts durchgeführt werden, weshalb auch von "Semantic Publishing" gesprochen wird. Selbstverständlich eignen sich diese Link-Klassifikationen aber auch für die nachträgliche Verknüpfung von Texten in Semantic-Web-Katalogen durch die Benutzer der Daten.

Ontologien für implizite Textbeziehungen

Zum einen ist es nötig, die Anwendung und Weiterentwicklung bestehender Referenz-Typologien zu unterstützen. [4] Es sollten aber auch Ontologien entwickelt werden, die ein Vokabular bereitstellen, um implizite Beziehungen zwischen Texten explizit zu machen. In James Joyces Ulysses gibt es etwa nirgendwo einen Verweis zu Homers Odyssee, nichtsdestotrotz nimmt das Werk bezug auf den antiken Klassiker. Es wäre ein enormer Fortschritt, wenn jedeR die Möglichkeit hätte,diese impliziten Beziehungen durch die Vergabe maschinenlesbarer, typisierter Links explizit zu machen.

Literaturwissenschaftler könnten zum Beispiel eine Menge dazu beitragen, nicht augenfällige Beziehungen zwischen Werken der Weltliteratur explizit zu machen. In der Tat wurde und wird schon viel Arbeit von LiteraturwissenschaftlerInnen geleistet, die sich ausgiebig mit den Beziehungen zwischen Werken der Weltliteratur befassen. Leider taten und tun sie dies in Prosatexten und produzieren somit keine maschinenlesbaren Daten. Bestimmt wären auch eine Menge nichtinstutionalisierte Wissenschaffer dabei, wenn es um die Verlinkung literarischer Werke geht. Die LibraryThing-Community hätte zum Beispiel sicher ihre wahre Freude daran.

Eine Genette-Ontologie?

Der französische Literaturwissenschaftler Gérard Genette hat in seinem Werk Palimpseste. Die Literatur auf zweiter Stufe eine Terminologie für die Bezugnahmeformen zwischen literarischen Werken herausgearbeitet. Neben der Typisierung hypertextueller (ja, so nennt er das) Bezugnahmeformen in der Literatur (er unterscheidet zum Beispiel Anspielungen, Plagiate, Parodien, Hommagen) beinhaltet das Buch noch einen weitaus größeren Teil, der diese Beziehungen an Beispielen aus der Weltliteratur aufzeigt. Es dürfte ein interessantes Projekt sein, seine Klassifizierung in eine OWL-Ontologie zu überführen und seine Beispiele in RDF-Tripel zu übersetzen. [5] So könnten die Erkenntnisse des Prosatexts Palimpseste - wie auch die Arbeiten vieler anderer Literaturwissenschaftler - unter großem Gewinn in maschinenlesbare Aussagen "übersetzt" werden. Dadurch würden sich für Literaturwissenschaftler ungeheure neue Möglichkeiten der Forschung und Erkenntnisgewinnung ergeben. Und auch die Möglichkeiten der Literaturrecherche könnten dadurch eine neue Dimension gewinnen.

Im Rahmen eines MALIS-Projekts habe ich vor, eben eine solche Genette-Ontologie zu basteln, die LiteraturwissenschaftlerInnen als Mittel dienen kann, ihr Wissen und ihre Vermutungen über die Beziehungen zwischen literarischen Werken in maschinenlesbarer Form zu repräsentieren. Dazu bei Gelegenheit mehr...



[1] In dem Aufsatz wird dabei immer von Katalogen gesprochen, die partizipativ gestaltet werden müssten. M.E. werden wir uns in Zukunft von dem Konzept eines Katalogs, der ja irgendwie immer auch ein Datensilo ist, verabschieden und dabei auch unsere Terminologie einmal überdenken. Aber die Diskussion über den Terminus "Katalog" gibt es ja schon länger...

[2] Dave Lankes, der den oben erwähnten Artikel "Participatory Networks: The Library as Conversation" mitverfasst hat, machte vor einigen Tagen in seinem Blog seinem Unmut über das iPad Luft, weil es eben die Möglichkeiten elektronischer Medien nicht ausschöpfe, diese bisher rein privaten Anmerkungen zu teilen oder über Textstellen direkt mit anderen zu kommunizieren. Als Read-Only-Medium unterstützt das iPad statt eines aktiven und kommunizierenden Leser allein das passive, konsumierende Lesen.

[3] Tagging setzt unzweifelhaft auch Werke in Beziehung, tut dies aber indirekt, über den Umweg eines gemeinsamen Etiketts, des Tags.

[4] Zwischen Blogs und anderen Webseiten gibt es auch unzählige Verknüpfungen, die nicht näher spezifiziert sind. Ich wundere mich, dass es bis heute keine Linkklassifikation gibt, mit der Hyperlinks mittels RDFa annotiert werden können, um den Charakter der jeweiligen Verlinkung zu spezifizieren. Oder gibt es so etwas und ich kenne es einfach nicht?

[5] Leider fehlen zur gelungenen Umsetzung eines solchen Projekts noch FRBR-Werk-URIs, um die Beziehungen zu repräsentieren. Ein Grund, unsere Kataloge durch Nutzung von RDA-Vokabulare in das Linked-Data-Web zu migrieren.

2010-02-03

Mehr zu Blog-Metadaten in Dublin Core

Im Oktober hatte ich über die Anreicherung dieses Blogs mit Dublin-Core-Metadaten in RDFa berichtet. Im Rahmen meines Weiterbildungsstudiums der Bibliotheks- und Informationswissenschaften an der FH-Köln habe ich dann mit meiner Gruppe eine Aufgabe zum Thema bearbeitet.

Das schriftliche Ergebnis unserer Überlegungen zu Blog-Metadaten in Dublin Core und zur Konzeption von Blog-Suchmaschinen habe ich nun heute bei Scribd publiziert (Link). Neben den Überlegungen zur Anreicherung eines Blogs mit DC-Metadaten findet sich in der Arbeit ein Entwurf für die Modellierung einer Blog-Suchmaschine ausgehend von einer knappen Darstellung der - nach Jens Schröder -  fünf besten Blog-Suchmaschinen.

Das Ganze kann sicher für Leute, die sich mit Blog-Metadaten, Dublin Core und Blog-Suche befassen, ganz nützlich sein, weshalb es nun auch publiziert wurde. So kann es auch über das Studium hinaus von Nutzen sein...

Mein Dank geht an meine GruppenmitstreiterInnen Irene, Katrin und Tobias für die allzeit gute und reibungslose Zusammenarbeit und dafür, dass sie der Publikation zugestimmt haben. Bald hat dieser Aufgaben-Stress ja endlich sein Ende und die - sicher deutlich spannendere und spaßigere - Projektphase beginnt.