[Allegro] LOD News

Thomas Berger ThB at Gymel.com
Do Aug 30 18:00:57 CEST 2012


Liebe HanseatInnen, liebe AllegrologInnen,

(mehrfachempfang bitte entschuldigen)

wie vielleicht schon in Vergessenheit geraten ist, hat die Deutsche
Nationalbibliothek zum 1.7. ihr "Geschaeftsmodell fuer die Nutzung
von Datendiensten" geaendert, insbesondere stehen nun die Normdaten
unter einer CC0-Lizenz, sind also so frei, wie sie in Europa nur
frei sein koennen.
<
http://www.dnb.de/DE/Service/DigitaleDienste/Geschaeftsmodell/neuesGeschaeftsmodell.html
>

Waehrend ich noch darueber nachdachte, ob das auch nachtraeglich fuer
vor dem 1.7.2012 gezogene Dumps gilt, hat die DNB den GND-Stand
vom April (Daten des Komplettabzugs in MARC21 gab es seinerzeit
auf Anfrage) am 26.7. auch als Linked Open Data bereitgestellt:
< http://www.dnb.de/DE/Service/DigitaleDienste/LinkedData/linkeddata_node.html >
("Download"-Link folgen)

Entpackt ist das eine etwa 6GB grosse Datei in Turtle-Syntax, die
LOD-typisch den Inhalt der Gemeinsamen Normdatei als Menge von
Einzelaussagen der Form "Subjekt, Praedikat, Objekt" abbildet, dabei
ist Turtle aber noch vergleichsweise angenehm zu lesen und alles
ist nach "Datensaetzen" gruppiert. Von Bedeutung und Arrangement
der Daten entspricht das der RDF/XML-Repraesentation, wie sie die
DNB in ihrem Portal anbietet, etwa
< http://d-nb.info/gnd/14276485X/about/rdf >, ist aber ein Text- und
kein XML-Format und recht kompakt:

@prefix gnd:     <http://d-nb.info/standards/elementset/gnd#> .
@prefix :        <http://d-nb.info/gnd/> .
@prefix rdfs:    <http://www.w3.org/2000/01/rdf-schema#> .
@prefix owl:     <http://www.w3.org/2002/07/owl#> .
@prefix rdf:     <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .

<http://d-nb.info/gnd/14276485X>
      a       gnd:DifferentiatedPerson ;
      gnd:dateOfBirth "1879" ;
      gnd:dateOfDeath "1942" ;
      gnd:gender <http://d-nb.info/standards/vocab/gnd/Gender#notKnown> ;
      gnd:gndIdentifier "14276485X" ;
      gnd:oldAuthorityNumber
              "(DE-588a)14276485X" , "(DE-588a)117335029" ;
      gnd:preferredNameEntityForThePerson
              [ gnd:forename "Alfred" ;
                gnd:surname "Thiel"
              ] ;
      gnd:preferredNameForThePerson
              "Thiel, Alfred" ;
      gnd:professionOrOccupation
              <http://d-nb.info/gnd/4009836-9> ;
      gnd:publication "Küster, Friedrich W.: Lehrbuch der allgemeinen,
physikalischen und theoretischen Chemie" , "Thiel, Alfred: Absolutkolorimetrie.
- 1939" ;
      gnd:variantNameEntityForThePerson
              [ gnd:forename "..." ;
                gnd:surname "Thiel"
              ] ;
      gnd:variantNameEntityForThePerson
              [ gnd:forename "Albrecht" ;
                gnd:surname "Thiel"
              ] ;
      gnd:variantNameEntityForThePerson
              [ gnd:forename "A." ;
                gnd:surname "Thiel"
              ] ;
      gnd:variantNameForThePerson
              "Thiel, Albrecht" , "Thiel, A." , "Thiel, ..." .

wobei allerdings in beiden Faellen nicht die komplette Information aus
der Normdatei enthalten ist, es fehlen etwa die exakten Lebensdaten
"25.05.1879-20.06.1942", der akademische Grad "Prof. Dr." und der
Hinweis darauf, dass es sich bei "Albrecht" um eine "falsche Namensform"
handelt, sowie die Meta-Angaben und Codes (redaktionelle Zustaendigkeit
in der GND, Bearbeitungsdaten etc.)

Aus diesen Daten habe ich (eingeschraenkt auf "Individualisierte Personen",
also den MARC-Code "piz") alle alten Identnummern extrahiert (mit Ausnahme
derjenigen, die als Nummer gleich geblieben sind und nur den Wechsel von PND
(DE-588a) zur GND (DE-588) dokumentieren) und zusammen mit den Ansetzungen als
BEACON-Datei zusammengestellt:
     < http://beacon.findbuch.de/downloads/gnd/ >
Aus jeder der drei dort verfuegbaren Varianten lassen sich also die in der
PND (genauer: Im Personenteilbestand der GND und ihrer Vorlaeufer)
stattgefundenen Umlenkungen auslesen (seit etwa 2001, vorher wurden
"Verlierernummern" nicht im Gewinnersatz notiert), insgesamt sind das ueber
150.000 . Es gibt dazu nun auch einen passenden SeeAlso-Webservice,
     < http://beacon.findbuch.de/pnd-resolver/gnd_redir >
der nur dann etwas liefert, wenn tatsaechlich eine Umlenkung auf
eine andere Nummer vorliegt. Anders als die meisten anderen
Webservices bietet er keinen Mehrwert bei direkter Einbindung
in den OPAC (bereits das DNB-Portal leitet ja beim Aufruf mit
veralteter Nummer auf die aktuelle Version des Datensatzes um).

Die Datenbank fuer diesen Webservice wird aber nun fuer die
vorhandenen, in HANS-Kataloge eingebundenen Webservices
 < http://beacon.findbuch.de/seealso/pnd-aks >
 < http://beacon.findbuch.de/seealso/pnd-nldocs >
 < http://beacon.findbuch.de/seealso/pnd-nlbest >
genutzt, um automatisch die Suche auf alle zur angefragten
Nummer umlenkungstechnisch in Beziehung stehenden Nummern
auszudehnen. D.h. es kann nun mit einer veralteten Nummer
oder der aktuellen Nummer angefragt werden, geliefert werden
dann alle Resultate aus den eingebundenen Beacon-Dateien,
selbst wenn die wiederum auf Grundlage einer anderen
veralteten Nummer oder der aktuellen uebermittelt wurden.

Beispiel: Im Nachlass EvB wird der Marburger Universitaetsrektor
Albrecht (recte: Alfred) Thiel sowohl unter der veralteten GND-Nummer
117335029 als auch unter der zwischen 2009 und 2012 irgendwann zur einzig
gueltigen gewordenen 14276485X nachgewiesen  (Import aus der Normdatei
ersetzt nicht automatisch obsolet gewordene Saetze unter Vorgaengernummern!):

< http://evb.online.uni-marburg.de/cgi-bin/evb?t_idn=PND:117335029 >

liefert beide und beide weisen auf dieselbe Stelle im Register.
[Das ist nicht optimal und liegt daran, dass der neuere Satz
auch einen Ersetzungsschluessel fuer die alte Nummer bereitstellt:

|:pnd117335029=|*_===pnd:14276485x===_{Thiel, Alfred„ [1879-1942]„¥5p}

der dann aus Sortiergruenden leider den des dummerweise noch vorhandenen des
alten Satzes an seiner Wirkung hindert:

|:pnd117335029=|*{Thiel, Albrecht„ [1879-1942]„¥gm¥5p}
]

Jedenfalls sieht man an der erwaehnten Anzeige unter
< http://evb.online.uni-marburg.de/cgi-bin/evb?t_idn=PND:117335029 >
sehr schoen nebeneinander, dass beide Male dieselben "Externen
Nachweise" eingeblendet werden, hoovern ueber die Links bzw. Vergleich
der Kursivierungen von
< http://beacon.findbuch.de/seealso/pnd-aks?id=117335029&format=sources >
< http://beacon.findbuch.de/seealso/pnd-aks?id=14276485X&format=sources >
illustriert, dass die bekannten Nutzung der beiden Identnummern bei diesem
Beispiel in zwei in etwa gleichstarke Fraktionen zerfaellt: Einerseits
die Bibliotheksverbuende, die aufgrund kontinuierlicher Update-Lieferungen
sowieso auf den Wegfall von 117335029 als Datensatz haben reagieren
muessen, andererseits die Nachlass- und Lexikonwelt, die nach der
urspruenglichen Identifikation der eigenen Daten mit der Normdatei eher
keine Moeglichkeiten automatischer Benachrichtigungen in solchen Faellen
hat. Ueber Webservices finden diese beiden dann auch wieder zusammen...

Schade allerdings, dass wir in a99, da das ja eben nicht HTML-Widgets zur
Anzeige nutzt, keine Moeglichkeit haben, solche Webservices automatisch
in die Anzeige einzubinden. Es wird nun aber moeglich sein, mit der
Skriptsprache "Flex" von a99 alle vorhandenen Normdatennummern nacheinander
gegen den oben erwaehnten Webservice zu testen und die Benutzer zu
benachrichtigen (vermutlich besser nicht interaktiv, sondern durch
Eintrag in eine Kategorie als Abrufzeichen. Wenn gleichzeitig auch die
aktuelle Vorzugsnummer hinterlegt wird, kann das sogar so gestaltet
werden, dass der Normdaten-Download des aktuellen Datensatzes den
veralteten ersetzen kann...
[wie jeder gute Roboter sollte man nicht mehr als eine Anfrage pro
Sekunde an einen Webservice stellen und vermutlich sollte man solche
Komplettabgleiche auch nicht unbedingt taeglich ausloesen. Denkbar
sind natuerlich auch zusaetzliche Interfaces, denen man als ein
Request eine komplette Liste von Identnummern hochlaedt und als
Resultat eine komplette Liste der darin enthaltenen Umlenkungskandidaten
liefert]

Eine naheliegende Verbesserung fuer den Webservice mit der Umlenkungs-
Information ist die Verarbeitung der Daten aus der OAI-Schnittstelle
der DNB, damit laegen dann auch wirklich zeitnahe Umlenkungsinformationen
vor und nicht nur unvollstaendige, auf dem letzten Komplettabzug
beruhende. Gluecklicherweise koennen veraltete Umlenkungsinformationen
nie ungueltig oder falsch werden, Zeitnaehe bedeutet also wirklich
nur groessere Vollstaendigkeit...

viele Gruesse
Thomas Berger



Mehr Informationen über die Mailingliste Allegro