2010-08-24

ZEIT-Artikel zur Akzeptanz von Open Data in Deutschland

Auf ZEIT online ist letzte Woche ein Artikel zu einer forsa‑Umfrage über die gesellschaftliche Akzeptanz von Open Data erschienen. Darin heißt es u.a.:
"Die Ergebnisse dürften die Befürworter zunächst freuen: Insgesamt sprechen sich 68 Prozent der Befragten für eine regelmäßige Veröffentlichung amtlicher und nicht‑personenbezogener Daten durch die Behörden aus. Nur 28 Prozent sind dagegen."
Open Government Data scheint immer mehr auch in Deutschland ein Thema zu werden. (Die USA und Großbritannien sind Deutschland in diesem Bereich einige Jahre voraus.) Der Großteil bibliothekarischer Einrichtungen ist Teil der öffentlichen Verwaltung und sollte sich ‑ auch aus diesem Grund ‑ einmal über Open Data Gedanken machen.

Bei Open Government Data geht es eigentlich in erster Linie um nicht‑personenbezogene Daten, die das Verwaltungshandeln dokumentieren. Ziel ist es, Verwaltung und Regierung transparenter zu machen. Allerdings wurden bisher im Rahmen von Open Government Data nicht nur Daten freigegeben, die das Regierungshandeln transparenter machen, sondern auch nichtadministrative Daten über andere Bereiche, die von öffentlichen Institutionen erstellt werden. In Großbritannien und den USA wurden zum Beispiel topographische Karten und Geodaten über Regierungsbezirke in die Public Domain gestellt, die von entsprechenden Behörden erstellt worden sind, siehe http://www.ordnancesurvey.co.uk/oswebsite/opendata/ und http://www.census.gov/geo/www/tiger/tgrshp2009/tgrshp2009.html. Hier besteht m.E. eine deutliche Parallele zu Katalogdaten, die als
"Landkarten der Literatur" von im öffentlichen Dienst tätigen Bibliothekarinnen und Bibliothekaren erstellt werden. Deshalb könnte man die freigegebenen Bibliothekskatalogdaten zu Recht als erste Welle von Open Government Data in Deutschland bezeichnen...

(Zeit‑Artikel via Netzpolitik. Dies ist der leicht abgewandelte Text einer E-Mail an die Inetbib-Liste.)

2010-08-11

Drei Artikel zu Linked/Open Data und Bibliotheken

In Juli habe ich eine Artikelreihe bestehend aus drei Artikeln zu den Themen Linked Data und Open Data verfasst. Zwei Artikel entstanden in Zusammenarbeit mit Felix Ostrowski. Alle drei Artikel werden im Herbst als Druckfassungen publiziert, die Preprints sind bereits sowohl auf den hbz-Webseiten, als auch bei scribd und E-LIS veröffentlicht.

Hier der Text zur Reihe:
Mit dem Internet und – als dessen wichtigstem Bestandteil – dem World Wide Web formt sich seit einigen Jahrzehnten eine umfassende Publikations- und Kommunikationsplattform aus, auf der zukünftig der Großteil aller Publikation und Kommunikation stattfinden wird. Als eine Erweiterung des bestehenden Webs lässt sich Linked Open Data verstehen. Mit Linked Open Data werden zwei Standards bezeichnet, die die Funktionalität eines Netzes von Daten sichern sollen, indem sie die rechtliche und technische Kompatibilität von Daten im Web garantieren:
  • Open-Data-Standards sorgen für die rechtliche Basis der Nutzung und Kombination verteilter Daten im Netz.
  • Linked-Data-Standards sorgen für die technische Kompatibilität zwischen verteilt vorliegenden Daten.
In einer dreiteiligen Artikelreihe über Linked-Open-Data-Aktivitäten am Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen (hbz) sollen die rechtliche wie technische Dimension von Linked Open Data erläutert werden und die Notwendigkeit, die Ziele und der Nutzen von Linked Open Bibliographic Data dargelegt werden. Im ersten Teil dieser Reihe über das Was, Warum und Wie von Linked-Open-Data-Aktivitäten am hbz sollen einige Fragen zu Open Data geklärt werden. Er erscheint gedruckt in ProLibris 3/2010. Der zweite Teil – gemeinsam verfasst von Felix Ostrowski und Adrian Pohl – mit dem Schwerpunkt Linked Data erscheint gedruckt in B.I.T. online 3/2010 und der dritte, in dem sich ebenfalls Felix Ostrowski und Adrian Pohl mit der Konzeption und Implementierung einer Open-Data-Infrastruktur befassen, wird gedruckt im Tagungsband der DGI-Konferenz Semantic Web & Linked Data Elemente zukünftiger Informationsinfrastrukturen publiziert.
Die ersten beiden Texte bieten in erster Linie eine deutschsprachige Einführung in die Themen Open Data und Linked Data. Ich hoffe, sie dienen als ein guter Einstieg in diese Thematik.

Im dritten Artikel geht es um die Konzeptionierung einer Infrastruktur für die Publikation, Beschreibung, Aktualisierung und Versionierung von Open Data in der Bibliothekswelt. Der Text stellt vor allem die grundlegenden Fragen heraus, die sich jedeR vor der Implementierung einer solchen Infrastruktur stellen sollte und deutet auch zwei, drei vielversprechende Ansätze an.

Es tut sich ja einiges in Bezug auf Linked Data in der deutschen Bibliothekswelt, wie etwa der kürzlich publizierte Linked-Data-Service der UB Mannheim zeigt. Bleibt zu hoffen, dass allerorten an der Freigabe der Bibliotheksdaten ebenso eifrig gearbeitet wird wie daran, der Welt Linked Data zu präsentieren.

2010-05-30

Fachkommunizieren - aber wie?

Seit Christian Hauschke vor einiger Zeit auf Infobib einen Beitrag zur bibliothekarischen Fachkommunikation veröffentlichte, wird in den Kommentaren und auch im Netbib-Blog von vielen Leuten fleißig diskutiert. In der Diskussion geht es um verschiedene Aspekte der Fachkommunikation, vor allem aber um die Frage:

Wie bekommen wir die Offliner dazu, an der bibliothekarischen Online-Diskussion (in Blogs etc.) teilzunehmen bzw. sie überhaupt erst wahrzunehmen?

Für die, die nicht alles lesen wollen, hat Lambert Heller in einem Kommentar mal die im Hinblick auf diese Frage genannten wichtigsten möglichen Aufgaben und Handlungsbereiche zusammengefasst. Ich stelle diese Ansätze hier nochmals verkürzt dar:
  1. Interessante Online-Texte in die bibliothekarischen Printmedien tragen, um die Online-Welt sichtbarer zu machen und neue Besucher und Mitdiskutierer zu locken.
  2. Online-Artikel (als RSS-Feed) aggregieren, um so einen schnelleren Überblick über die bibliotheksrelevanten Online-Publikationen zu ermöglichen.
  3. Aufbau eines "Overlay-Journals", in dem interessante Veröffentlichungen zu bestimmten Themen ausgesucht und gesammelt werden. Diese Vorauswahl soll den Online-Faulen den Zugriff auf relevante Web-Publikationen erleichtern. Dass ein Overlay-Journal auch gedruckt erscheinen sollte, wird in der Diskussion allerdings von vielen abgelehnt.
Zwar ging die Diskussion hauptsächlich um die oben genannte Frage, allerdings war diese nicht das einzige Thema. Christian Hauschke etwa hatte schon in dem Blogbeitrag, der die ganze Diskussion auslöste, ein grundlegendes Problem beschrieben:
"Egal, wie kommuniziert wird, es sollte diskutiert und nicht nur verkündet werden. Festzustellen ist dazu, dass zu wenig und fast ausschließlich ritualisiert kommuniziert wird. Projektberichte sind ... meist offene Briefe an die Projektgeber ohne größeren Mehrwert für die Fachöffentlichkeit. Die Bibliothekswesen haben immer noch keinen Blog auf offene Kommunikation."
 Wann ist Fachkommunikation?

Ich verfolge diese Diskussion, weil auch ich mir eine Fachkommunikation über alle Aspekte der Bibliotheksarbeit wünsche, die den gemeinsamen Lern- und Bildungsprozess bestmöglich vorantreibt und dafür sorgt, dass die Arbeit von Bibliothekarinnen und Bibliothekaren, von Bibliotheken und Verbünden sich sehen lassen kann. [1] Ich möchte hier zunächst versuchen, das Ganze nochmal von der grundlegenden theoretischen Frage aufzurollen: Was macht überhaupt eine gute Fachkommunikation aus?

Auch ich beschränke mich hier - wie die gesamte bisherige Diskussion - auf die öffentlich dokumentierte Kommunikation, d.h. auf veröffentlichte schriftliche Fachtexte. [2] Die mündliche Fachkommunikation wird hier also ausgeklammert, so interessant und relevant sie auch ist. [3]

Ich sehe zwei notwendige Bedingungen erfolgreicher schriftlicher Fachkommunikation:
  1. Zugang zur Fachliteratur
  2. Kritischer Anschluss an bestehende Texte
Zugang

Damit Fachkommunikation stattfinden kann, müssen alle an ihr Beteiligten Zugriff auf die Fachveröffentlichungen haben. (Ich hatte diese Notwendigkeit auch mal in einen Aphorismus gefasst.) Um diesen Zugriff zu garantieren, sollte es keine Preisbarrieren oder technischen Schranken geben, die einen Zugriff durch Interessierte erschweren oder gar verunmöglichen. Kurz: Fachtexte sollten Open Access publiziert werden. Der Ruf nach Open Access ist nichts Neues und wurde auch von verschiedenen Personen in der Diskussion getätigt, weshalb ich das Thema hier nicht weiter auswalzen möchte.

Wichtig ist hier zu erwähnen, dass der Zugang über einen langen Zeitraum hinweg ermöglicht werden muss, denn Fachkommunikation findet u.U. über Jahrzehnte oder gar Jahrhunderte statt. Der Erfolg und Misserfolg onlinebasierter Fachkommunikation ist naturgemäß stark an die Frage nach funktionierenden Mechanismen der Langzeitarchivierung gekoppelt.

Es bleibt nur zu fordern: Öffnet die Postillen und macht sie zu Publikationen, die wirklich frei öffentlich zugänglich sind und zwar für alle und nicht nur für jene, die das nötige Geld oder einen Bibliotheksausweis haben!

Kritischer Anschluss

Ein wesentlicher Bestandteil von Fachkommunikation ist der kritische Anschluss an bestehende Texte. [4] Dies schließt unter anderen folgende Handlungen ein: gründliches Lesen, um einen Text hinreichend zu verstehen; Kommentieren, um die eigene Perspektive ins Spiel zu bringen; Paraphrasieren, um zu zeigen, ob und wie man etwas verstanden hat; Kritisieren, indem man Widersprüche aufweist und Unterscheidungen als nutz-, sinnlos oder diskriminierend herausstellt; zustimmend Verweisen und zusammenfassen, um an bestehende Texte anzuknüpfen und und und.

Was Fachkommunikation nicht ist: ein bloßes Verkünden und Anpreisen der eigenen Erfahrungen, Produkte und Projekte, möglichst allgemein gehalten, um keine Reibungsfläche für kritische Anknüpfungen zu bieten; oder das Zitieren aus anderen Texten, ohne diese gründlich gelesen zu haben. Fachkommunikation heißt auch nicht rechthaberisch oder verächtlich auf andere Texte zu reagieren, sondern den Mitdiskutanten den nötigen Respekt zu zollen.

Es folgt das Desideratum: Knüpft kritisch an Fachtexte an, seien dies Zeitschriftenartikel, Bücher, Blogposts, Mailinglistenbeiträge etc.

Anforderungen an Zeitschriften

Jakob Voß hat im Laufe der Diskussion fünf Forderungen für Fachzeitschriften aufgestellt, die Christian Hauschke um eine weitere wichtige Forderung ergänzte. Ich gebe diese sechs Forderungen hier wieder, weil auch ich sie in diesem Zusammenhang für wesentlich halte und uneingeschränkt unterstütze:
  1. Open Access (d.h. bei gedruckten Artikeln, dass sie zeitgleich online verfügbar sein müssen)
  2. Verlinkbarkeit einzelner Artikel
  3. Archivierung in einem Repository.
  4. RSS-Feed über die einzelnen Artikel und Ausgaben und
  5. Kommentarfunktion (bei Bedarf moderiert).
  6. Möglichst (auch) als HTML veröffentlicht.
Der zweite Punkt - die Forderung nach Verlinkbarkeit - ist in diesem Zusammenhang hervorzuheben, weil Verlinkbarkeit und damit Adressierbarkeit eben notwendige Bedingung ist, um explizit an einen Text anzuknüpfen. Würden sich sämtliche bibliothekarische Fachpublikationen an diese sechs Regeln halten, so hätten wir für die Fachkommunikation zumindest schon mal eine optimale Infrastruktur, die die Forderungen nach Open Access und dauerhafter Anschließbarkeit erfüllt.
Zwar ist die funktionierende technische Infrastruktur notwendige Bedingung von Fachkommunikation, viel wichtiger aber ist eine "Kultur des kritischen Anschlusses". So wie ich das bisher wahrgenommen habe, stehen viele bibliothekatrische "Fach"-Texte nur für sich allein da (sie "verkünden") und beziehen sich allenfalls oberflächlich auf andere Texte. So etwas ist eher als Simulation von Fachkommunikation zu bezeichnen, als dass wirklich fachkommuniziert wird.

Dass eine fruchtbare Kommunikationskultur entsteht, gefördert und gepflegt wird, dafür muss letztlich jede Profession selbst sorgen...


[1] Im Übrigen finde ich es sehr interessant, dass auf einmal in bibliothekarischen Kreisen über Fachkommunikation gesprochen wird, sobald es um das eigene Fach geht. Ansonsten wird ja eher über Fachinformation gesprochen, die (z.B. in Fachzeitschriften) einfach vorhanden ist und nur gesammelt, erschlossen und zugänglich gemacht werden muss. Zur - hier nicht thematisierten - Rolle der Bibliothek als Ermöglicherin von Kommunikation hoffentlich irgendwann mehr...

[2] Ein Fachtext wird nicht durch seinen Publikationsort definiert, d.h. ein Text wird nicht dadurch zum Fachtext, weil er in einer "Fach"zeitschrift erscheint (und in der Tat gibt es in solchen Zeitschriften viele Texte, die ich nicht als Fachtexte bezeichnen würde). Meines Erachtens definiert sich ein Fachtext über seinen Inhalt und seine Form sowie über seine öffentliche Zugänglichkeit und Adressierbarkeit. Es gibt eine Menge Blog- wie Mailinglistenbeiträge, die ich als Fachtexte klassifizieren würde.

[3] Ich möchte nur einmal ausdrücklich das BibCamp loben, dass - im Vergleich zu den klassisch durchorganisierten formellen Tagungen mit ihren so langen wie langweiligen Frontalveranstaltungen - in meinen Augen eine ideale informelle Plattform für eine spannende und fruchtbare mündliche Fachkommunikation darstellt. Am Beispiel des BibCamps müssen sich andere Versuche organisierter persönlicher Fachkommunikation messen lassen.

[4] Da es sich um Fachkommunikation handelt, sollten diese Anschlüsse natürlich durch entsprechende Verweise explizit gemacht werden, was ja online der Hyperlink erleichtert, während man offline noch die gute alte Fußnote setzen muss. Und damit diese Links auch in Zukunft verfolgt werden können, ist es wichtig, dass die Adressen der referenzierten Texte stabil sind.

2010-04-30

Datendefinition die Dritte

Dann antworte ich endlich mal auf Jakobs Replik. Erstmal schönen Dank für diese schnelle Antwort, die vielen Verweise und Informationen.

Der Absatz "Daten als Strukturen" in Jakobs Text scheint mir ganz gut das wiederzugeben, was mir in dieser Diskussion wichtig ist und er zeigt, dass wir womöglich wirklich gar nicht so weit auseinanderliegen. In dieser Diskussion geht es ja wohlgemerkt nicht um unseren alltäglichen Gebrauch des Ausdrucks 'Daten', sondern darum, ein theoretisches Konzept in Abgrenzung etwa zum Informationsbegriff zu fassen. [1] Ich gehe hier nun eher indirekt auf Jakobs Replik ein, indem ich versuche, meine Grundgedanken klarer zu fassen.

Daten: Speicherbar und allographisch

Zwei grundlegende Eigenschaften von Daten, die es Wert sind hervorgehoben zu werden, sind:
  1. Daten können gespeichert werden, d.h. sie existieren in einem persistenten Medium.
  2. Daten können kopiert, vervielfältigt werden, wobei sich "Original" und Kopien nicht voneinander unterscheiden. Diese Eigenschaft wird von Nelson Goodman in Sprachen der Kunst als allographisch - im Unterschied zu autographisch - bezeichnet. [2]
Wenn wir übereinstimmen, dass dies notwendige Bedingungen von Daten sind, ergibt sich schon eine Menge daraus. Mit dem ersten Punkt werden etwa die orale Sprache oder die vorgetragene Musik als Träger von Daten ausgeschlossen, denn es handelt sich bei beiden um vorübergehende, verschwindende Medien. Mit der zweiten Bedingung fallen auch Gemälde oder Schallplatten als Träger von Daten aus.
Der grundlegende Punkt, bei dem eher Differenzen entstehen können, ist folgender: Verstehen wir diese zwei Eigenschaften auch als hinreichende Bedingungen von Daten, so hat die An- oder Abwesenheit von Information keinen Einfluss auf ihren Status als Daten. Wir haben es folgerichtig mit Daten auch dann zu tun, wenn sie falsche oder gar keine Information speichern. [3]

Ich würde allerdings nicht behaupten, dass nicht speicher-bare oder nicht-allographische Medien wie die gesprochene Sprache oder die Malerei keine Information enthalten können, wie es Jakob mit der Aussage "Ohne Daten kann es keine Informationen geben" tut. Information kann es sehr wohl ohne Daten in dem hier verstandenen Sinn geben.

Daten-Business oder Content-Business?

Der Unterschied zwischen Daten als syntaktisch geordneter Menge und der Interpretation von Daten (die sicher auch "Information" ins Spiel bringt) wird vielleicht mit diesen zwei Beispielen klar:

1. Der Autor arbeitet auf der semantischen Ebene, er schreibt Worte, Texte. Der Drucker ist im Datengeschäft, er druckt Buchstaben, die Textur, er druckt Bücher, Broschüren usw.

2. Solange ich mit dem Computer speichere, konvertiere, etwas in ein Diagramm überführe etc. operiere ich auf der Datenebene. Sobald ich anfange Dubletten zu bereinigen, Falschangaben zu korrigieren, Daten zu ergänzen bin ich auf der semantischen Ebene und befasse mich mit Zeichen (im Sinne eines "zweiseitigen" Zeichenbegriffes).

Beispiel RDF

RDF-Daten ist erstmal alles, was der abstrakten RDF-Syntax folgt, völlig unabhängig davon, dass die URIs womöglich auf irgendwelche realen Entitäten referenzieren und unabhängig davon, ob Literale als Text von Menschen gelesen werden können. 
Dass wir mit realen RDF-Daten etwas tun, sie zu bestimmten oder weniger bestimmten Zwecken erschaffen, sie gebrauchen ist natürlich klar. Diese Schnittstelle zwischen Daten, Syntax und Bedeutung scheint ja dein Dissertationsthema (oder nur ein Teil davon?) zu sein, Jakob. Da wird es sicher erst richtig spannend und zweifellos spielen Formate und Modelle hier eine große Rolle (und im Bereich Linked Data die Weltmodelle, die wir Ontologien nennen). Auf der Ebene der Daten wird aber eben von dieser Bedeutungsebene abstrahiert, folgt man den oben genannten zwei Bedingungen für Daten. Die Bedeutung eines Zeichens hingegen ist an seinen Gebrauch gekoppelt und somit eine Analyse der "Beziehung zwischen Daten, Wohlgeformtkeit [sic] und Bedeutung in der Praxis" an eine Untersuchung eben dieser Praktiken. Es müsste also geschaut werden, welche menschlichen Handlungen mit diesen Daten verbunden sind.

Vielen Dank an Felix, mit dem ich (wie sonst auch) viel über die Problematik diskutiert habe. Er hat zwar keine Tasten getippt und Daten produziert aber viel zum Verständnisfortschritt in dem Bereich beigetragen.


[1] Alltagssprachlich haben wir einen viel weiteren Datenbegriff als ich hier beschreibe. Wir reden zum Beispiel von "hochwertigen" und "schlechten" Daten und meinen meistens den Informationsgehalt.

[2] Vgl. Sprachen der Kunst, S. 113. Siehe auch eine alte Hausarbeit von mir, S.17. (Ich werde die bei Gelegenheit nochmal auf scribd hochladen, weil GRIN Geld für einen PDF-Download verlangt. Update: Habe dies nun hier getan.)

[3] Ein Beispiel mag hier erhellend sein: Man wusste zwar lange, dass die ägyptischen Hieroglyphen einst als Zeichen gebraucht wurden, also Bedeutung trugen, konnte aber zunächst nicht viel mehr als auf Datenebene mit ihnen operieren, d.h. den Zeichenvorrat, die Menge der Typen extrahieren, gewisse Regelmäßigkeiten erkennen etc. Erst der Stein von Rosetta ermöglichte es, sich auf die semantische Ebene der Hieroglyphen zu begeben.

    2010-04-19

    Von der Motivation im öffentlichen Dienst

    Im Management-Modul beim MALIS-Studium habe ich im Februar einen 6-seitigenText zum Thema Motivation verfasst, den ich soeben hier hochgeladen habe.

    Er lehnt sich stark an das im Januar erschienene und sehr empfehlenswerte Buch "Drive. The Surprising Truth About What Motivates Us" von Daniel Pink an und fasst die wichtigsten Gedanken daraus zusammen. Zur Appetitanregung, hier zwei Zitate aus Pinks Buch:
    "Too many organizations – not just companies, but governments and nonprofits as well – still operate from assumptions about human potential and individual performance that are outdated, unexamined, and rooted more in folklore than in science."
    - Drive, S. 9.
    "In short, management isn't the solution; it's the problem. (...) This era doesn't call for better management. It calls for a renaissance of self­direction."
    - Drive, S. 92.

    Wann sind Daten?

    Jakob Voß hat eine sehr schöne, dichte Präsentation mit dem Titel "Semantic Web und Linked Open Data. Eine Bibliothekarische Geschichte" auf Slideshare veröffentlicht. Bei Jakobs Vortrag wurde dem Auditorium sicher nicht langweilig. Das Reinschauen lohnt sich.
     
    Jakobs Datenbegriff

    Mich hat besonders Jakobs Definition von "Daten" (auf den Folien 5 und 9) zum Nachdenken gebracht:
    "Daten: Strukturen aus unterscheidbare[n] Zeichen, die aufgrund von Vereinbarungen Informationen darstellen"
    Da keine Referenz angegeben ist, denke ich dass diese Definition in dieser Form von Jakob selbst stammt. Da ich mich desöfteren frage, wie sich der Datenbegriff am besten fassen lässt [1], nehme ich das gerne zum Anlass, hier meinen Gedanken freien Lauf zu lassen.

    Offensichtlich benutzt Jakob hier "Zeichen" im Sinne von "Zeichenkörper", denn Information und damit bedeutungstragend werden die Zeichen ja erst "aufgrund von Vereinbarungen". Das lässt sich dann so umformulieren:
    • Daten sind Strukturen aus unterscheidbaren Zeichenkörpern, 
    • die "aufgrund von Vereinbarungen Informationen darstellen".
    Kritik

    Hier vier Aspekte der Definition, mit denen ich Probleme habe:
    1. Es ist nicht klar, worauf sich das Relativpronomen 'die' bezieht: auf 'Strukturen' oder auf 'Zeichen(körpern)'. 
    2. Der zweite Teilsatz ist mir einfach zu unklar. Mir erscheint der Informationsbegriff im Alltagsgebrauch klarer als in den Bibliotheks- und Informationswissenschaften (Zumindest kommt man im Alltag mit einem unklaren Konzept klar, während so etwas der wissenschaftlichen Arbeit nicht gut tut.) Aber auch, was sich hinter "Vereinbarungen" verbirgt, ist alles andere als klar.  
    3. Nach meinem Dafürhalten  - und darauf werde ich unten näher eingehen -,  stellen Daten keine Information dar, wenn sie auch gespeicherte Information sein mögen. Sprechen wir von Daten, so ist sozusagen die Bedeutung weggekürzt und wir befinden uns allein auf der syntaktischen Ebene. Folgerichtig würde ich den zweiten Spiegelstrich bei einer Definition von "Daten" erstmal einfach wegstreichen um der Sache näher zu kommen.   
    4. Mir scheint außerdem - aus Punkt drei folgend - der Ausdruck 'Zeichen'/'Zeichenkörper' hier nicht der passende zu sein. Ein Zeichenkörper ist die materielle Seite des Zeichens. Ein Zeichen hat Bedeutung, weshalb Buchstaben keine Zeichenkörper haben/sind, weil wir - in der Regel - nur Folgen von Buchstaben,nämlich Wörtern und Phrasen, Bedeutung zuweisen und nicht einzelnen Buchstaben. Buchstaben befinden sich eben auf der subsemantischen Ebene. Da ich aber denke, dass sich der Datenbegriff allein auf die syntaktische Ebene bezieht, sollte von den atomaren Einheiten der Syntax , sprich: Buchstaben und Zahlen oder im Bitzeitalter: Bits, gesprochen werden. Diese sind nun eben keine Zeichenkörper, sondern eher als Token oder Inskriptionen o.ä. zu bezeichnen.

    Ein rein syntaktischer Ansatz

    Daten sind für mich in erster Linie eine Menge unterschiedener und unterscheidbarer, syntaktisch strukturierter Token, die gespeichert sind und transportiert und kopiert werden können. Syntax in diesem Sinne setzt Digitalität (d.h. eine endliche Menge klar abgegrenzter Typen) voraus und damit ist Digitalität auch Voraussetzung für Daten. Es folgt, dass neben elektronisch vorliegenden Daten, Tabellen usw. auch geschriebene Bücher und Partituren Daten sind. Aber Gemälde oder aufgeführte Musikstücke zählen demnach nicht dazu
    Oder: Digitale Medien, allen voran die Schrift, ermöglichen erst die Existenz von Daten. Denn erst die Schrift ermöglicht überhaupt eine Unterscheidung zwischen Zeicheninhalt und Zeichenkörper und ist somit notwendige Bedingung zur Unterscheidung von Syntax und Semantik. 

    Text : Textur = Information : Daten

    Diese - zugegebenermaßen rudimentär dargelegte - Sicht auf Daten unterschlägt vollständig die Koppelung von Daten an eine Bedeutung, an den Gebrauch, den wir von ihnen machen. Diese Verbindung ist es, die Jakob im zweiten Teilsatz seiner Definition anspricht, denn Daten entstehen ja für bestimmte Zwecke und somit nicht im bedeutungsleeren Raum. Im Folgenden versuche ich, diese Bedeutungsdimension mit ins Spiel zu bringen, ohne die dargelegte syntaxzentrierte Sicht aufzuweichen.

    Ich denke, Daten und Information lassen sich mit Gewinn in Analogie zu Christian Stetters Unterscheidung von Text und Textur (im Sinne von Oberflächenbeschaffenheit) differenzieren. [2] Stetter schreibt in "Schrift und Sprache" auf S. 294:
    "Text ist dasjenige, was geschrieben und verstanden wird, die Textur das, was geschrieben ist und gelesen wird." 
    Und weiter heißt es: "Zwar verstehen wir 'normalerweise' unter Lesen einen Vorgang, der das Verstehen des Gelesenen impliziert, aber man kann durchaus etwas lesen, ohne es zu verstehen." Und ist es nicht genau das, was Computer machen: lesen ohne zu verstehen, über der Textur operieren, ohne den Text, die Semantik auch nur zu berühren? [3]

    Hier mein Versuch, Daten und Information analog zu Text und Textur zu unterscheiden:
    Information ist, was gespeichert und aufgenommen wird, Daten, was gespeichert ist und ausgelesen wird.
    "Aufnehmen" hier im Sinne von "erfassen" oder "einordnen" stellt eine genuin menschliche Handlung dar. Speichern geschieht auf Trägermedien (Festplatte, Papier) und Auslesen mittels Maschinen bzw. auch durch Menschen, die "etwas lesen, ohne es zu verstehen."

    Um auf Jakobs Definition zurückzukommen; diese würde dementsprechend etwa folgendermaßen umformuliert werden:
    "Daten: Syntaktisch geordnete Mengen von Token, in denen Information gespeichert ist"

    Digitalität und Information

    So betrachtet basieren Daten auf Information, sie sind Ergebnis der Speicherung von Information in digitalen Medien. Damit ist für den Informationsbegriff freilich wenig gewonnen. Denn Information ist nicht auf das beschränkt, was in einem digitalen Medium gespeichert wird. Gemälde, Piktogramme, die Wahrnehmung oder selbst die gesprochene Sprache können nach allgemeiner Auffassung auch Information beinhalten, dies gilt nicht nur für digitale Medien wie Bits und Bytes, die Schrift oder Notationssysteme.


    [1] So wie mich auch der Wissens- und der Informationsbegriff nicht loslassen.

    [2] So wie ich ganz allgemein denke, dass die Arbeiten von Stetter mit großem Gewinn für Überlegungen zur Zukunft der Wissenschaften, der Bibliotheken und des Internet gelesen werden können. Der Aachener Linguistik-Professor Christian Stetter, bei dem ich in meinem Erststudium viel studiert habe, ist nicht nur eine Kapazität was Schriftphilosophie und die Grundlagen der Linguistik angeht, sondern übrigens auch einer der Gründer und Geschäftsführer von semantics, die mit der Visual Library Software für die die Erschließung von Digitalisaten und deren Präsentation im Internet anbieten. Verschiedene Projekte nutzen diese Software, z.B die Digitalisierungsprojekte an der Universität Halle. Kay Heiligenhaus, ebenfalls ein ehemaliger Student Stetters und Mitbegründer von semantics, ist wohl eher für das operative Geschäft zuständig. Er beteiligt sich desöfteren an Diskussionen auf Inetbib und hat einen meiner Inetbib-Favorites geschrieben.

    [3] Aus diesem Grund ist auch der Ausdruck "Semantic Web" so irreführend, denn auch im Semantic Web "verstehen" Maschinen nichts.

    2010-04-15

    OCLCs Policy und die Public Domain

    Vor gut einer Woche hat OCLC den erneuten Versuch gestartet, eine Policy für die WorldCat-Daten zustande zu kriegen. Beim ersten Mal (ab Ende 2008) versuchte OCLC, eine restriktive Policy ohne Beteiligung der OCLC-Mitglieder durchzukriegen, was an der massiven Kritik aus der Bibliothekswelt gescheitert ist. (Zum ersten Anlauf siehe meinen Artikel im Bibliotheksdienst und die umfangreiche Quellensammlung im code4lib-Wiki.)

    Nun läuft das Ganze transparenter ab, der derzeitige Entwurf ist klar als Draft for Community Review  gekennzeichnet, es gibt ein Community Forum, auf dem der für die Policy zuständige "Record Use Policy Council" aufkommende Fragen zur Policy beantwortet und eine stetig aktualisierte FAQ-Seite wurde eingerichtet. [1] Bis Ende Mai nimmt OCLC Feedback zum Entwurf entgegen, das dann in den endgültigen Entwurf einfließen soll.

    Unterschiede zum ersten Anlauf

    Zunächst sollen hier die wichtigsten inhaltlichen Unterschiede zum ersten Policy-Entwurf erläutert werden.

    Ausklammern der Frage des Besitzes einzelner Datensätze
    Während der erste Policy-Angang noch den Verusch unternahm, möglichst jede Nutzung auch einzelner Datensätze zu regeln. hat sich OCLC nun der Realität des Urheberrechts (dass man eben nur auf ganze "Datenbanken" oder substanzielle Teile davon ein Urheberrecht haben kann) angepasst und erhebt allein Anspruch auf die gesamte Datenbank:
    "OCLC does claim copyright rights in WorldCat as a compilation. In accordance with US copyright law, those rights are based on OCLC's substantial intellectual contribution to WorldCat as a whole, including OCLC’s selection, arrangement, and coordination of the material in WorldCat".
    - Aus einem Kommentar des Record Use Policy Counsel
    Kein rechtliches Dokument
    Während der erste Policy-Entwurf noch den Anschein machte, Teil eines privatrechtlichen Vertrages und somit rechlich durchsetzbar zu sein, ist der aktuelle Entwurf  eher eine Richtlinieoder wie Jennifer Younger sagt: "It's very much a proposal for a code of good practice".

    Mitglieder, die sich WorldCat-Daten auf eine Art und Weise nutzen wollen, die nicht der Policy entspricht, erwarten also keine juristischen Konsequenzen. Nichtsdestotrotz müssen sie sich mit OCLC auseinandersetzen und wir wissen ja, dass OCLC noch vor kurzem bereit war, auf  ein langjähriges Mitglied erheblichen Druck auszuüben. Im Policy-Entwurf heißt es:
     "If a particular use is determined to not be covered, OCLC and the member will seek a mutually agreeable resolution of the matter. If, after six months, no such resolution has been reached, OCLC will refer the matter to the OCLC Global Council for prompt advice on how to proceed."
    Draft-Policy, Abschnitt 5
      Rechte und Pflichten statt klare Nutzungsvorgaben
    Josh Hadro schreibt im LibraryJournal:
    "The new document delineates the record use rights and responsibilities of OCLC contributing members, in contrast to the previous version’s more abstract focus on the details of use and transfer of WorldCat records."

    Dies ist im Grunde die Konsequenz aus den ersten beiden genannten Unterschieden: Es geht nicht mehr um klare, juristische Vorgaben für die Nutzung auch kleiner Teile der WorldCat-Datenbank. Vielmehr werden allgemeiner die Rechte und Pflichten der OCLC-Mitglieder abgesteckt, wenn es um den Umgang mit größeren Teilen der Datenbank geht.

    Kein Open Data mit OCLC

    OCLC hat sich in dem Policy-Entwurf klar dagegen ausgesprochen die WorldCat-Daten als öffentliches Gut zu betrachten und die Daten in die Public Domain zu geben. Die Frage, ob OCLC die Daten als öffentliches Gut oder vielmehr als Klubgut betrachtet, beantwortet der Record Use Policy Council eindeutig: WorldCat sei ein Klubgut. Der Council argumentiert gegen die Übertragung des WorldCat in die Public Domain und Argumentate wie "Was öffentlich finanziert wurde, sollte ein öffentliches Gut sein." mit dem Trittbrettfahrerargument:
    "[W]e have determined that WorldCat should not be “a public good” in the economic sense.
    “Public goods” have the characteristic that once provided for some, they can be fully enjoyed by all (think of the highways). This characteristic gives rise to what is known in economics as the “free rider problem.” Once a public good is made available, there is no feasible way to exclude anyone from receiving its benefits, and because of this the incentive to contribute toward the cost of providing the good declines, and there is a strong incentive to “free ride” on the benefits conferred on all."
    Kurz: Wenn der WorldCat freigegeben würde, würden aus zahlenden Mitgliedern plötzlich parasitäre Nicht-Mitglieder werden. Dann werden düstere Szenarien beschworen, was passieren würde, wenn der WorldCat in die Public Domain gestellt würde:
    "Consider what would happen if WorldCat (or a significant portion of it) were released into the public domain: in transferring large swathes of WorldCat records to non-member organizations, members in effect would be transferring the cooperative’s chief asset to organizations with no obligation to invest in it. Our analysis suggests that this would increase free riding, diminish the incentive to be a member, and eventually compromise the economic viability of the cooperative. The utility of the database would also be compromised as WorldCat fragments, resulting in a less comprehensive record supply, scattering efforts at collaborative knowledge organization, raising the costs of resource sharing, and reducing the global discoverability and visibility of members’ collections. "
    - Aus einem Kommentar des Record Use Policy Counsel
     Ich möchte die Argumente hier einmal im einzelnen anschauen.

    • In transferring large swathes of WorldCat records to non-member organizations, members in effect would be transferring the cooperative’s chief asset to organizations with no obligation to invest in it. Diese Aussage mag zutreffen, wenn Investieren allein als eine monetäre Handlung verstanden wird. Wahrscheinlicher ist, dass diese Organisationen eher eine Menge Arbeit in die Aufwertung der Daten durch Korrekturen und Ergänzung investieren. Die Ergebnisse dieser Arbeit können dann in den WorldCat zurückfließen und voilà: Der WorldCat gewinnt durch Open Data(wie jede andere bibliothekarische Einrichtung auch), wenn auch das Unternehmen OCLC kein Geld damit verdient. (Absurderweise müssen bisher Bibliotheken zahlen, wenn sie den WorldCat vergrößern und ihre Daten hochladen.)
    • Our analysis suggests that this would increase free riding, diminish the incentive to be a member, and eventually compromise the economic viability of the cooperative. Dem mag ich nicht widersprechen. Die Kooperative mag darunter leiden, wenn OCLC nicht beginnt, ihre Existenz durch andere nützliche Dienste zu rechtfertigen. Das könnten etwa Forschungsarbeit oder auf den freien Daten aufbauende Dienstleistungen (z.B. cloudbasierte Bibliothekssysteme) sein. Allerdings heißt die Schwächung der Kooperative noch lange nicht, dass der WorldCat und die darin enthaltenen Daten darunter leiden würden, auch wenn "the economic viability of the cooperative" in Gefahr geriete. Worum geht es also: Um WorldCat oder um das Wirtschaftsunternehmen OCLC?
    • The utility of the database would also be compromised as WorldCat fragments, resulting in a less comprehensive record supply, scattering efforts at collaborative knowledge organization, raising the costs of resource sharing, and reducing the global discoverability and visibility of members’ collections. Die Damen und Herren bei OCLC haben doch sicher auch schon von Linked Open Data gehört. Eine Zukunft mit Linked Open Data könnte eben eine dezentrale Pflege bibliographischer Daten ermöglichen, die gleichzeitig den Aufbau zentralen Recherchedatenbanken und eine globale Recherche erleichtert. Think future, OCLC! Ich dachte, du seist innovativ, dann entwickle doch mal diese völlig neue Zukunft mit. Ich verstehe ja, dass es schwierig ist auf Linked Open Data zu setzen, wenn man mit restricted data einen Großteil seiner Einnahmen macht. Zu viel Beharrungsvermögen wird sich aber langfristig sicher nicht auszahlen...
    Konsequenterweise hat der Record Use Policy Council auf eine Anfrage von mir wie folgt geantwortet:
    "We feel that re-licensing a member library catalog containing records extracted from WorldCat (as Adrian suggests in his comment to our blog) under a Public Domain and Dedication License (http://www.opendatacommons.org/licenses/pddl/1.0/ would violate the intent of the draft policy, because by definition such a step makes that portion of WorldCat a “public good.” The Creative Commons Zero license (http://creativecommons.org/publicdomain/zero/1.0/) would have the same effect. In both cases, subsequent users and transferors of the data would have no restrictions or requirements whatever. For the reasons stated in our long comments above, if enough members did this, it would diminish the long-term viability and utility of WorldCat to the OCLC cooperative."
    - Aus einem anderen Kommentar des Record Use Policy Counsel
    Ob eine Open-Data-Praxis "would diminish the long-term viability and utility of WorldCat to the OCLC cooperative" habe ich oben schon bezweifelt. Die Mitglieder würden m.E. von einer solchen Praxis profitieren, allein das Unternehmen OCLC müsste sich ein neues Geschäftsmodell überlegen.
    Mir stellt sich in diesem Zusammenhang allerdings die Frage, ob OCLCs Ächtung einer Datenfreigabe durch Mitgliedsbibliotheken rechtlich haltbar ist. Machen einzelne Bibliotheken mit ihren lokalen Katalogen nicht das gleiche wie OCLC mit dem WorldCat, gibt es nicht auch eine "substantial intellectual contribution" zur lokalen Datenbank als ganzer, "including [the library's] selection, arrangement, and coordination of the material in [its local catalog]"? Und ergibt sich daraus nicht ein Urheberrechtsanspruch der Mitglieder auf ihre lokalen Datenbanken, so dass sie damit tun und lassen können, was sie wollen? Kurz: Es spricht einiges dafür, dass genauso wie OCLC ein Urheberrecht auf den WorldCat als Gesamtheit hat, jede Mitgliedsbibliothek ein Urheberrecht auf ihre lokalen Datenbanken hat.

    Zwei grundlegende Widersprüche

    Josh Hadro benennt im LibraryJournal einen Wiederspruch:
    "The policy's stated intent describes two linked but separate goals, which some critics say are in tension with each other: 'to encourage the widespread use of WorldCat bibliographic data while also supporting the ongoing and long-term viability and utility of WorldCat and WorldCat-based services such as resource sharing, cataloging, and discovery.'"
    Mir scheint, es gibt zwei weitere erklärte Ziele OCLCs, die sich nicht unter einen Hut bringen lassen: OCLC möchte sowohl dem Wohl der einzelnen Mitglieder als auch dem Wohl der Kooperative, zu der das Unternehmen OCLC gehört (siehe das Glossar), dienen:
    “It is the members of the cooperative who finally support the cooperative,” she said. “We need to look at their interest first, because they’re the long term caretakers. We want any use made of WorldCat data to benefit that cooperative.”
    - Karen Calhoun im Library-Journal-Artikel
    Es scheint, als würden derzeit OCLCs wirtschaftliche Ziele mit den bibliothekarischen Zielen der Mitgliedsinstitutionen im Widerspruch stehen. Dieser Widerspruch muss aufgelöst werden und ich hoffe, am Ende wird die Public Domain und die Bibliothekswelt als Ganzes davon profitieren und nicht ein Unternehmen sein Monopol gesichert haben.


    [1] Leider verweisen unheimlich viele "Antworten" auf der FAQ-Seite darauf, dass bestimmte Nutzungen der Daten "consistent with OCLC member community norms, OCLC’s public purpose and this policy’s intent" sein sollten. Das nennt man dann wohl eine Zirkeldefinition, wenn ein Dokument, das ein anderes erklären soll, sich wiederum auf das zu erklärende Dokument stützt. Der Nutzen ist auf jeden Fall zweifelhaft.