[Allegro] GND- und Titeldaten der DNB zum Download

Do Jun 7 07:55:11 CEST 2012

Am 07.06.2012 00:57, schrieb Thomas Berger:
>
> An der Eingabemaske von VIAF<  http://viaf.org>  kann man erkennen, dass
> man mit solchen Search Suggestions allerhand von dem abdecken
> kann, wofuer man in Bibliotheken browsable Indizes vorhalten kann:

Ja. Aber holen wir etwas weiter aus, weil das Thema und was da alles
hintersteckt womöglich nicht allen Lesern schon

Das Konzept und die Existenz von VIAF deutet ja schon in die
Richtung, daß das aufwendige Vorhalten und Pflegen von Normdaten in X
verschiedenen zentralen und lokalen Systemen sich bald erledigt haben
könnte. Und sollte. Da ist ein Freigeben der GND-Daten als RDF sicher
nur noch eine Zwischenstation. Wäre VIAF so stabil und performant
wie manche Suchmaschine, kostenfrei zugänglich und mit sinnreichen
API-Funktionen für Webservices ausgestattet, was könnte man nicht alles
anfangen damit! Bis hin zur nahtlosen Einbindung in den eigenen OPAC
oder, nicht minder sinnvoll sondern noch mehr, Verbunddatenbanken.
Beim Suchen muß der Endnutzer doch nicht notwendig merken oder gar
selber Schritte tun, um die durch Normdaten ermöglichten Funktionen
transparent nutzen zu können.
Die Bindung von VIAF an OCLC und dessen quasi-kommerzielle Aufstellung
wird aber, nüchtern besehen, solche Blütenträume wohl nicht in den
Himmel wachsen lassen. Kann aus diesem Grund die RDF-Datenbasis dann
doch noch zumindest eine gewisse Weile was nützen? Und was?

Und RDF?
RDF kommt ideengeschichtlich aus dem Wikipedia-Kontext, was aus dem
berühmten Linked Data Diagram leicht erkennbar ist:

   http://richard.cyganiak.de/2007/10/lod/imagemap.html

In dem Gewusel der Datenbestände, das man da sieht, bemühen sich viele
Betreiber, ihre jeweils spezifischen Daten anzureichern durch Zugriffe
auf passende andere Datenbanken, allen voran WikiPedia. Dabei wird
jeweils nicht irgendein kompletter Datensatz gebraucht, sondern meistens
nur eine Eigenschaft oder zwei, die man zu einer Person oder einem
Gegenstand heranziehen möchte, aber selber im eigenen Datenbestand
nicht erfaßt hat. Das kann, geeignete Links zu potenten Webservices
vorausgesetzt, transparent geschehen, d.h. der Endnutzer merkt es nicht,
aber sieht die betr. Daten als wären sie genau da vorrätig, wo sie
jedoch physisch gar nicht liegen.
Ja, und RDF? Das ist ein XML-basiertes Konstrukt, das Datensätze
in leicht verlinkbarer Weise vorhält, und "verständlich" für viele
Programmierumgebungen, aus denen heraus man drauf zugreifen können
möchte. Ins Extrem getrieben hat man in RDF sog. "triplets", bestehend
aus je drei Elementen, vorzugsweise URIs. Jedes solche triplet ordnet
einem Gegenstand eine Eigenschaft zu (Subjekt, Prädikat, Eigenschaft :
Beethoven  wurde geboren  1770-12-17). Mehr nicht, aber eben
maschinell abfragbar. Organisieren kann man solche Dreizack-Info-
Schnipsel in Datenbanken, die man "triplestore" nennt und die besonders
performant sind (s. die Botschaft von Prante). Befragen tut man diese
Datenbanken mit besonderen Syntaxen, die selbstredend in XML zu codieren
sind. Und funktionieren kann das am besten oder nur, wenn man die
eigenen Daten - zu deren Erweiterung man die Tripletten man im
OPAC-Display oder beim Suchen heranziehen will - so gestaltet hat, daß
sie die geeigneten URIs enthalten oder zu konstruieren gestatten
("machine actionable" nennt man das).
Katalogtechnisch bedeutet dies, in alter Sprache, daß man viel mehr
Daten viel strikter "anzusetzen" (das Wort gibt es im RDA nicht mehr)
hat als je zuvor, oder gleich durch URIs zu ersetzen, z.B. auch Verlage
und Orte (Geographica) und Sprachen u.v.a., denn sonst kann das nicht
gehen. Wie denn das alles wirklich gehen und effizient laufen kann,
das wird derzeit untersucht in der BIBFRAME-Initiative der LC:
   http://www.loc.gov/marc/transition/
Vorige Woche wurde eine Firma Zepheira ins Boot geholt, mit dem Ziel:
"A major focus of the project is to translate the MARC 21 format to a
Linked Data (LD) model while retaining as much as possible the robust
and beneficial aspects of the historical format. "
Und auf genau in dieses Boot, so darf man das wohl sehen, versucht DNB
nun einzusteigen mit den RDF-Daten.

DNB greift aber nicht zu dem Extrem der Tripletten, sondern die RDF-
Sätze enthalten mehr, sie sind unvollständige Abbildungen der
eigentlichen GND-Datensätze. Und das erlaubt die Frage, wozu sie denn
wirklich gut sein könnten. Mehr noch stellt sich diese Frage bei den
nun ja ebenfalls in RDF freigegebenen 10.9 Mio. Titeldatensätzen.
(Die Kölner UB-Daten - wer erinnert sich noch? - hatten tatsächlich die
Titeldaten in Tripletten aufgelöst, das war ein besonders interessantes
Exempel.)
Was für Fragen können damit potentiell beantwortet werden, welche die
DNB-Datenbank - geeignete Services vorausgesetzt - selber nicht so
gut beantworten könnte? Oder - theoretisch - der WorldCat.
Als Fremddatenquelle jedenfalls, also statt der vollständigen
MARC-Daten, taugen diese RDF-Abbilder nicht. Aber gut, lassen wir uns
überraschen, was pfiffige Rezipienten daraus machen werden.

Allerdings und andererseits muß man nachzusinnen beginnen, auf was
denn für Fragen das lokale OPAC-System künftig noch Antworten geben
können muß und auf welche es das nicht mehr zu können braucht. Sind's
nicht etwa nur noch der "known item search" und die Verfügbarkeitsfrage?
Nahtlos anflanschbar an Google Booksearch/Worldcat und die "Search in a
library"-Funktion? Theoretisch könnte das Durchschalten auch aus Amazon
oder "buchhandel.de" heraus erfolgen, aber praktisch natürlich nicht. 
B.Eversberg