2010-04-30

Datendefinition die Dritte

Dann antworte ich endlich mal auf Jakobs Replik. Erstmal schönen Dank für diese schnelle Antwort, die vielen Verweise und Informationen.

Der Absatz "Daten als Strukturen" in Jakobs Text scheint mir ganz gut das wiederzugeben, was mir in dieser Diskussion wichtig ist und er zeigt, dass wir womöglich wirklich gar nicht so weit auseinanderliegen. In dieser Diskussion geht es ja wohlgemerkt nicht um unseren alltäglichen Gebrauch des Ausdrucks 'Daten', sondern darum, ein theoretisches Konzept in Abgrenzung etwa zum Informationsbegriff zu fassen. [1] Ich gehe hier nun eher indirekt auf Jakobs Replik ein, indem ich versuche, meine Grundgedanken klarer zu fassen.

Daten: Speicherbar und allographisch

Zwei grundlegende Eigenschaften von Daten, die es Wert sind hervorgehoben zu werden, sind:
  1. Daten können gespeichert werden, d.h. sie existieren in einem persistenten Medium.
  2. Daten können kopiert, vervielfältigt werden, wobei sich "Original" und Kopien nicht voneinander unterscheiden. Diese Eigenschaft wird von Nelson Goodman in Sprachen der Kunst als allographisch - im Unterschied zu autographisch - bezeichnet. [2]
Wenn wir übereinstimmen, dass dies notwendige Bedingungen von Daten sind, ergibt sich schon eine Menge daraus. Mit dem ersten Punkt werden etwa die orale Sprache oder die vorgetragene Musik als Träger von Daten ausgeschlossen, denn es handelt sich bei beiden um vorübergehende, verschwindende Medien. Mit der zweiten Bedingung fallen auch Gemälde oder Schallplatten als Träger von Daten aus.
Der grundlegende Punkt, bei dem eher Differenzen entstehen können, ist folgender: Verstehen wir diese zwei Eigenschaften auch als hinreichende Bedingungen von Daten, so hat die An- oder Abwesenheit von Information keinen Einfluss auf ihren Status als Daten. Wir haben es folgerichtig mit Daten auch dann zu tun, wenn sie falsche oder gar keine Information speichern. [3]

Ich würde allerdings nicht behaupten, dass nicht speicher-bare oder nicht-allographische Medien wie die gesprochene Sprache oder die Malerei keine Information enthalten können, wie es Jakob mit der Aussage "Ohne Daten kann es keine Informationen geben" tut. Information kann es sehr wohl ohne Daten in dem hier verstandenen Sinn geben.

Daten-Business oder Content-Business?

Der Unterschied zwischen Daten als syntaktisch geordneter Menge und der Interpretation von Daten (die sicher auch "Information" ins Spiel bringt) wird vielleicht mit diesen zwei Beispielen klar:

1. Der Autor arbeitet auf der semantischen Ebene, er schreibt Worte, Texte. Der Drucker ist im Datengeschäft, er druckt Buchstaben, Wörter, die Textur, er druckt Bücher, Broschüren usw.

2. Solange ich mit dem Computer speichere, konvertiere, etwas in ein Diagramm überführe etc. operiere ich auf der Datenebene. Sobald ich anfange Dubletten zu bereinigen, Falschangaben zu korrigieren, Daten zu ergänzen bin ich auf der semantischen Ebene und befasse mich mit Zeichen (im Sinne eines "zweiseitigen" Zeichenbegriffes).

Beispiel RDF

RDF-Daten ist erstmal alles, was der abstrakten RDF-Syntax folgt, völlig unabhängig davon, dass die URIs womöglich auf irgendwelche realen Entitäten referenzieren und unabhängig davon, ob Literale als Text von Menschen gelesen werden können. 
Dass wir mit realen RDF-Daten etwas tun, sie zu bestimmten oder weniger bestimmten Zwecken erschaffen, sie gebrauchen ist natürlich klar. Diese Schnittstelle zwischen Daten, Syntax und Bedeutung scheint ja dein Dissertationsthema (oder nur ein Teil davon?) zu sein, Jakob. Da wird es sicher erst richtig spannend und zweifellos spielen Formate und Modelle hier eine große Rolle (und im Bereich Linked Data die Weltmodelle, die wir Ontologien nennen). Auf der Ebene der Daten wird aber eben von dieser Bedeutungsebene abstrahiert, folgt man den oben genannten zwei Bedingungen für Daten. Die Bedeutung eines Zeichens hingegen ist an seinen Gebrauch gekoppelt und somit eine Analyse der "Beziehung zwischen Daten, Wohlgeformtkeit [sic] und Bedeutung in der Praxis" an eine Untersuchung eben dieser Praktiken. Es müsste also geschaut werden, welche menschlichen Handlungen mit diesen Daten verbunden sind.

Vielen Dank an Felix, mit dem ich (wie sonst auch) viel über die Problematik diskutiert habe. Er hat zwar keine Tasten getippt und Daten produziert aber viel zum Verständnisfortschritt in dem Bereich beigetragen.


[1] Alltagssprachlich haben wir einen viel weiteren Datenbegriff als ich hier beschreibe. Wir reden zum Beispiel von "hochwertigen" und "schlechten" Daten und meinen meistens den Informationsgehalt.

[2] Vgl. Sprachen der Kunst, S. 113. Siehe auch eine alte Hausarbeit von mir, S.17. (Ich werde die bei Gelegenheit nochmal auf scribd hochladen, weil GRIN Geld für einen PDF-Download verlangt. Update: Habe dies nun hier getan.)

[3] Ein Beispiel mag hier erhellend sein: Man wusste zwar lange, dass die ägyptischen Hieroglyphen einst als Zeichen gebraucht wurden, also Bedeutung trugen, konnte aber zunächst nicht viel mehr als auf Datenebene mit ihnen operieren, d.h. den Zeichenvorrat, die Menge der Typen extrahieren, gewisse Regelmäßigkeiten erkennen etc. Erst der Stein von Rosetta ermöglichte es, sich auf die semantische Ebene der Hieroglyphen zu begeben.

    Kommentare:

    Jakob hat gesagt…

    Danke, ich muss für meine Antwort erstmal weiter Literaturstudien betreiben. Derzeit suche ich Auseinandersetzung aus der Informatik mit dem Datenbegriff, der dort ja eigentlich Grundlegend sein sollte. Außer älteren Werken habe ich noch nichts gefunden: George H. Mealy: Another look at data (1967) und Data Structures Theory and Representation (1974) sowie Ned Chapin: A deeper look at data (1968)

    Jakob hat gesagt…

    Noch ergiebiger ist diese Delphi-Studie in der führende Informationswissenschaftler nach ihren Definitionen zu Data, Information und Knowledge befragt wurden.

    jakob hat gesagt…

    Auch passend ist Grays Brief Historical Review of the Development of the Distinction Between Data and Information (2003) aus Sicht der Disziplin "(Management) Information Systems". Der Unterschied zwischen Daten und Informationen wurde früher so nicht gemacht.

    Kommentar veröffentlichen