2010-04-19

Wann sind Daten?

Jakob Voß hat eine sehr schöne, dichte Präsentation mit dem Titel "Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte" auf Slideshare veröffentlicht. Bei Jakobs Vortrag wurde dem Auditorium sicher nicht langweilig. Das Reinschauen lohnt sich.
 
Jakobs Datenbegriff

Mich hat besonders Jakobs Definition von "Daten" (auf den Folien 5 und 9) zum Nachdenken gebracht:
"Daten: Strukturen aus unterscheidbare[n] Zeichen, die aufgrund von Vereinbarungen Informationen darstellen"
Da keine Referenz angegeben ist, denke ich dass diese Definition in dieser Form von Jakob selbst stammt. Da ich mich desöfteren frage, wie sich der Datenbegriff am besten fassen lässt [1], nehme ich das gerne zum Anlass, hier meinen Gedanken freien Lauf zu lassen.

Offensichtlich benutzt Jakob hier "Zeichen" im Sinne von "Zeichenkörper", denn Information und damit bedeutungstragend werden die Zeichen ja erst "aufgrund von Vereinbarungen". Das lässt sich dann so umformulieren:
  • Daten sind Strukturen aus unterscheidbaren Zeichenkörpern, 
  • die "aufgrund von Vereinbarungen Informationen darstellen".
Kritik

Hier vier Aspekte der Definition, mit denen ich Probleme habe:
  1. Es ist nicht klar, worauf sich das Relativpronomen 'die' bezieht: auf 'Strukturen' oder auf 'Zeichen(körpern)'. 
  2. Der zweite Teilsatz ist mir einfach zu unklar. Mir erscheint der Informationsbegriff im Alltagsgebrauch klarer als in den Bibliotheks- und Informationswissenschaften (Zumindest kommt man im Alltag mit einem unklaren Konzept klar, während so etwas der wissenschaftlichen Arbeit nicht gut tut.) Aber auch, was sich hinter "Vereinbarungen" verbirgt, ist alles andere als klar.  
  3. Nach meinem Dafürhalten  - und darauf werde ich unten näher eingehen -,  stellen Daten keine Information dar, wenn sie auch gespeicherte Information sein mögen. Sprechen wir von Daten, so ist sozusagen die Bedeutung weggekürzt und wir befinden uns allein auf der syntaktischen Ebene. Folgerichtig würde ich den zweiten Spiegelstrich bei einer Definition von "Daten" erstmal einfach wegstreichen um der Sache näher zu kommen.   
  4. Mir scheint außerdem - aus Punkt drei folgend - der Ausdruck 'Zeichen'/'Zeichenkörper' hier nicht der passende zu sein. Ein Zeichenkörper ist die materielle Seite des Zeichens. Ein Zeichen hat Bedeutung, weshalb Buchstaben keine Zeichenkörper haben/sind, weil wir - in der Regel - nur Folgen von Buchstaben,nämlich Wörtern und Phrasen, Bedeutung zuweisen und nicht einzelnen Buchstaben. Buchstaben befinden sich eben auf der subsemantischen Ebene. Da ich aber denke, dass sich der Datenbegriff allein auf die syntaktische Ebene bezieht, sollte von den atomaren Einheiten der Syntax , sprich: Buchstaben und Zahlen oder im Bitzeitalter: Bits, gesprochen werden. Diese sind nun eben keine Zeichenkörper, sondern eher als Token oder Inskriptionen o.ä. zu bezeichnen.

Ein rein syntaktischer Ansatz

Daten sind für mich in erster Linie eine Menge unterschiedener und unterscheidbarer, syntaktisch strukturierter Token, die gespeichert sind und transportiert und kopiert werden können. Syntax in diesem Sinne setzt Digitalität (d.h. eine endliche Menge klar abgegrenzter Typen) voraus und damit ist Digitalität auch Voraussetzung für Daten. Es folgt, dass neben elektronisch vorliegenden Daten, Tabellen usw. auch geschriebene Bücher und Partituren Daten sind. Aber Gemälde oder aufgeführte Musikstücke zählen demnach nicht dazu
Oder: Digitale Medien, allen voran die Schrift, ermöglichen erst die Existenz von Daten. Denn erst die Schrift ermöglicht überhaupt eine Unterscheidung zwischen Zeicheninhalt und Zeichenkörper und ist somit notwendige Bedingung zur Unterscheidung von Syntax und Semantik. 

Text : Textur = Information : Daten

Diese - zugegebenermaßen rudimentär dargelegte - Sicht auf Daten unterschlägt vollständig die Koppelung von Daten an eine Bedeutung, an den Gebrauch, den wir von ihnen machen. Diese Verbindung ist es, die Jakob im zweiten Teilsatz seiner Definition anspricht, denn Daten entstehen ja für bestimmte Zwecke und somit nicht im bedeutungsleeren Raum. Im Folgenden versuche ich, diese Bedeutungsdimension mit ins Spiel zu bringen, ohne die dargelegte syntaxzentrierte Sicht aufzuweichen.

Ich denke, Daten und Information lassen sich mit Gewinn in Analogie zu Christian Stetters Unterscheidung von Text und Textur (im Sinne von Oberflächenbeschaffenheit) differenzieren. [2] Stetter schreibt in "Schrift und Sprache" auf S. 294:
"Text ist dasjenige, was geschrieben und verstanden wird, die Textur das, was geschrieben ist und gelesen wird." 
Und weiter heißt es: "Zwar verstehen wir 'normalerweise' unter Lesen einen Vorgang, der das Verstehen des Gelesenen impliziert, aber man kann durchaus etwas lesen, ohne es zu verstehen." Und ist es nicht genau das, was Computer machen: lesen ohne zu verstehen, über der Textur operieren, ohne den Text, die Semantik auch nur zu berühren? [3]

Hier mein Versuch, Daten und Information analog zu Text und Textur zu unterscheiden:
Information ist, was gespeichert und aufgenommen wird, Daten, was gespeichert ist und ausgelesen wird.
"Aufnehmen" hier im Sinne von "erfassen" oder "einordnen" stellt eine genuin menschliche Handlung dar. Speichern geschieht auf Trägermedien (Festplatte, Papier) und Auslesen mittels Maschinen bzw. auch durch Menschen, die "etwas lesen, ohne es zu verstehen."

Um auf Jakobs Definition zurückzukommen; diese würde dementsprechend etwa folgendermaßen umformuliert werden:
"Daten: Syntaktisch geordnete Mengen von Token, in denen Information gespeichert ist"

Digitalität und Information

So betrachtet basieren Daten auf Information, sie sind Ergebnis der Speicherung von Information in digitalen Medien. Damit ist für den Informationsbegriff freilich wenig gewonnen. Denn Information ist nicht auf das beschränkt, was in einem digitalen Medium gespeichert wird. Gemälde, Piktogramme, die Wahrnehmung oder selbst die gesprochene Sprache können nach allgemeiner Auffassung auch Information beinhalten, dies gilt nicht nur für digitale Medien wie Bits und Bytes, die Schrift oder Notationssysteme.


[1] So wie mich auch der Wissens- und der Informationsbegriff nicht loslassen.

[2] So wie ich ganz allgemein denke, dass die Arbeiten von Stetter mit großem Gewinn für Überlegungen zur Zukunft der Wissenschaften, der Bibliotheken und des Internet gelesen werden können. Der Aachener Linguistik-Professor Christian Stetter, bei dem ich in meinem Erststudium viel studiert habe, ist nicht nur eine Kapazität was Schriftphilosophie und die Grundlagen der Linguistik angeht, sondern übrigens auch einer der Gründer und Geschäftsführer von semantics, die mit der Visual Library Software für die die Erschließung von Digitalisaten und deren Präsentation im Internet anbieten. Verschiedene Projekte nutzen diese Software, z.B die Digitalisierungsprojekte an der Universität Halle. Kay Heiligenhaus, ebenfalls ein ehemaliger Student Stetters und Mitbegründer von semantics, ist wohl eher für das operative Geschäft zuständig. Er beteiligt sich desöfteren an Diskussionen auf Inetbib und hat einen meiner Inetbib-Favorites geschrieben.

[3] Aus diesem Grund ist auch der Ausdruck "Semantic Web" so irreführend, denn auch im Semantic Web "verstehen" Maschinen nichts.

1 Kommentar:

jakob hat gesagt…

Vielen Dank für das ausführliche und durchdachte Feedback! Meine Antwort ist so lang ausgefallen, dass ich einen eigenen Blogeintrag daraus gemacht habe. Wir können zwar versuchen, einen Definition von "Daten" in 140 Zeichen zu finden - der ausführliche Diskurs bringt aber doch etwas mehr :-) An deiner Information stört mich vor allem, dass Information "gespeichert ist" , ansonsten sehe ich vom Inhalt eher Übereinstimmungen - was meinst du (oder jeder der hier lesenden)?

Kommentar veröffentlichen