[Allegro] Zum Thema GND, 2+3: Wesen und Struktur

Thomas Berger ThB at Gymel.com
Fr Mär 30 10:53:08 CEST 2012


Lieber Herr Eversberg,

Ich weiss nicht, aus welchen Quellen Sie Ihre Belehrungen schoepfen,
aber viel davon reflektiert die Denkwelt von etwa 1990 und nicht die
heutigen Auffassungen, die zur GND gefuehrt haben.

Mag sein, dass Sie hier eine speziell fuer die restringierte
Erfahrungswelt und Befindlichkeit von Formalerschliessern in Verbuenden
aufbereitete Sicht der Dinge wiedergeben, die GND-Einfuehrung
/reagiert/ auf geanderte Schwerpunktsetzungen, diese sind dem
Publikum m.W. aber noch nicht vermittelt worden (auf hunderten
Vortraegen und Artikeln in den letzten 15 Jahren durchaus, die
"normativen" Dokumente sind aber geblieben, d.h. wer nicht hoeren
wollte, der brauchte auch nicht).

Im einzelnen und ohne Anspruch auf Vollstaendigkeit:


> 2. Was sind und was sollen Normdaten?
> -------------------------------------
> Normdaten sollen Benennungen festlegen, also Namen oder Bezeichnungen
> für Gegenstände der Anschauung und des Denkens, für Begriffe und
> Personen, Körperschaften, abstrakte Vorstellungen, Themen, Ideen,
> Konzepte, Werke, Geographische Regionen. Jede benennungsbedürftige

Wenn nicht falsch, doch zumindest fragwuerdig, weil es sich so
liest als ginge es um die Benennungen, die wir als "Ansetzung"
kennen. Dieser Aspekt der einheitlichen Terminologie verliert
immer staerker an Bedeutung, nachdem man allmaehlich einsieht,
dass man diese Normierung gerade nicht beliebig international
ausweiten kann, insbesondere nicht ueber die Grenzen des
Biblithekswesens hinaus. In den Vordergrund getreten sind Konzepte,
Begriffe und wie man es nennen mag, jedenfalls nichts, wofuer
man das Wort "Benennung" waehlen sollte. Der Name "Normdatei"
reflektiert natuerlich ebenfalls noch die alte Sicht, aber es
geht wirklich nicht mehr primaer um das Vereinheitlichen von
Ansetzungen, sondern um das Ermoeglichen von Zuordnung zu
bereits erfasstem, da ist das Stichwort eher Wissensorganisation...


> Gegebenheit ist für das neue Datenmodell eine "Entität". Etwas
> knapper könnten wir sagen: "Entität" ist alles, was einen
> Normdatensatz bekommen kann. (Je nun, das wäre zwar nicht besser als
> Einsteins Diktum "Zeit ist das, was eine Uhr mißt", aber die Physik ist
> an der Stelle auch noch nicht weiter.) Dazu gehören nach dem bisherigen
> Verständnis Personen, Körperschaften, Werke und Sachbegriffe, wobei die
> ersten drei auch zum Thema eines Werkes werden und damit zugleich
> unter die Sachbegriffe fallen können. Darin liegt eins der größeren
> Probleme, denn für Sachbegriffe waren bislang die RSWK zuständig, deren
> Prinzip "Deutschsprachigkeit" diametral zur "Originalsprachigkeit"
> der RAK-WB steht. Das erstere gewinnt! Und dies unter den Auspizien der

Personen und Koerperschaften als Sachbegriff sind ein /altes/
Problem, an dem die Normdateien und Regelwerke seit Jahrzehnten
knapsen. Sie tun hier so, als wuerde ein neues entstehen!


> Globalisierung und der Zielvorstellung, im Metadaten-Weltkonzert besser
> kommunikabel zu werden? Was jedoch so oder so nur gelingen kann,
> wenn das Konzept VIAF - bisher nur für Personennamen in Betrieb -

und Koerperschaften.


> integriert wird und das Umschalten zwischen den Sprachwelten übernimmt.
> Von VIAF ist im GND-Umfeld bislang nicht die Rede, aber das muß kommen.
> Die Feldgruppe 7XX wäre der Ort, eine VIAF-Nummer anzusiedeln.

VIAF-Nummern aendern sich tendenziell jeden Monat. Aber es gibt natuerlich
wie bei PND, GKD, GND einen Resolving-Mechanismus, der das abfaengt und
auf den aktuell gueltigen Datensatz weiterleitet.

VIAF will sich aber nicht als Super-Normdatei begreifen, da gibt es einen
Unterschied zum WorldCat als Super-Titeldatei. Das Erfassen von VIAF-Nummern
ist daher ein fragwuerdiges Unterfangen, solche Nummern sind stets zweite
Wahl: Wenn etwa eine Entitaet in der GND nicht vorhanden ist, und ich sie
aus irgendwelchen Gruenden dort auch nicht einbringen kann, muss ich
sie anderswo suchen, z.B. mittels VIAF oder auch "in" VIAF (ueber VIAF
weiss ich nach einiger Zeit mehr als ueber die meisten der derzeit 25 damit
erschlossenen Einzelsysteme, VIAF hat keine Redaktionsstrukturen, die
anderen Systeme keine von mir beeinflussbaren, da ist es dann eher egal).

Korrekt ist die Beobachtung, dass MARC21 mit den $2-Konstruktionen
und der damit verbundenen Registry (va. ISIL) im Gegensatz zu MAB
Identnummern aus relativ beliebigen Nummernsystemen transportieren
kann, ohne dass das eigentliche Datenformat stets erweitert werden
muesste.


[...]

> Was soll eine Normdatenstruktur leisten? Ganz grob vier Dinge:
> 
> 1. Klassifizieren
>    Die zu normierenden Gegebenheiten (Entitäten) sinnvoll gruppieren
> 
> 2. Normieren
>    Eindeutige Benennungen festlegen
> 
> 3. Gleichsetzen
>    Andere, gleichwertige Benennungen aufführen
> 
> 4. Querverweisen
>    Beziehungen zu anderen Entitäten angeben
> 
> Hinzu treten natürlich noch ein paar verfeinernde und beschreibende
> Aspekte.

Ich muss zugeben, dass ich mein FRAAD nicht gut genug gelesen habe,
um hier spontan antworten zu koennen, 1. scheint mir fragwuerdig,
[im Licht Ihrer spaeteren Ausfuehrungen: auf MARC-Authority und
GND zugeschnitten, "klassische" bzw. kleine private Normdateien
sind ja eher sortenrein, man denke an die Haussystematik oder
die Lieferantendatei]
2. eher speziell, 3. erfordert einiges an Erlaeuterungen und
4. kann man so lassen.


> 3. Was für Datenelemente braucht ein Normsatz?
> ----------------------------------------------
> Die vier Grundfunktionen entsprechen vier einfachen Fragen, die ein
> Normsatz beantworten soll:
> 
> 1. Was für eine Entität liegt vor und ist zu beschreiben?
>    Dafür hat GND Typbezeichnungen, die sog. "Entitätencodes".
>    Diese stehen 1stellig im MARC-Feld  079 $b (Pica3: 005 Tx)
>    und präziser (3stellig) in 079 $v (Entitäten-Untergliederung,
>    Pica 3: 008)
>    Mindestens 4 große Gruppen sind zu unterscheiden, für jede davon
>    gab es bisher eine eigene Normdatei:
>    Personen: PND, Körperschaften: GKD, Werke: DMA, Sachbegriffe: SWD
>    Zwei Großgruppen betrachet GND gesondert:
>    Geografika (ja, so schreiben die das) incl. Gebietskörperschaften
>    und Kongresse.
>    Die Großgruppen zerfallen in zahlreiche kleinere, deshalb braucht
>    man die 3stelligen Codes. Hier sind sie gelistet:
> 
> https://wiki.d-nb.de/download/attachments/51283696/entitaetencodierung_2012-03-12_gnd.pdf?version=1&modificationDate=1331911693000

Also nichts, was ein abstrakter Normsatz braucht, speziell fuer die GND
wurden "Entitaetstypen" festgelegt, die stellenweise in den alten
Normdateien bereits vorhanden waren, oft jedoch auch nicht. Dahinter
stecken Erkenntnisse aus der Normdatenpraxis und auch aus der Entwicklung
der RSWK in den letzten Jahren: Obwohl es Regeln fuer "Kleinraeumige
Geographika" und "Gebietskoerperschaften" gibt, waren diese Sachverhalte
bislang nicht im Datensatz gekennzeichnet bzw. hoechstens indirekt
durch eine Fussnote, dass der Ersteller des Datensatzes Paragraph soundso
angewandt hat.

https://wiki.dnb.de/download/attachments/51283696/entitaetencodierung_2012-03-12_gnd.pdf

Am Rande sei bemerkt, dass dafuer die bislang in den RSWK zentrale,
aber international unbekannte Unterscheidung zwischen Ortsgebundenen
und Ortsungebundenen Koerperschaften entfaellt.


> 2. Wie soll die Entität offiziell heißen, oder genauer, mit welchem
>    Namen oder Term soll sie verbindlich bezeichnet werden? Das leistet
>    die "bevorzugte" Benennung (preferred name/name). Sofort
>    schließt sich die Frage an: Wie ist diese Benennung genau zu
>    schreiben? Diese Schreibweise nannten wir bislang "Ansetzungsform".
>    In RDA gibt es dafür den "authorized access point"; über die beste
>    deutsche Übersetzung ist wohl noch nicht befunden. Wir könnten
>    provisorisch weiter von der "Ansetzungsform" reden. Sonst könnte man
>    auch "Normform" sagen oder "Normbenennung".
>    GND: 1XX

Wobei wir in der PND bislang schon mehrere Ansetzungen parallel
transportiert haben, z.B. die RAK-Ansetzung Hildegardis <Bingensis>
und die RSWK-Ansetzung Hildegard von Bingen. Vgl. auch mehrsprachige
Umgebungen wie in der Schweiz und Kanada. "Die" Ansetzung ist
eine Schimaere, die aus MARC21-Ruecksichten in den Vordergrund draengt,
im Prinzip handelt es sich jedoch um eine Festlegung, die der
Normsatz gar nicht treffen sollte, sondern die die Normdaten nutzenden
Anwendungen.


> 3. Welche gleichwertigen, anderslautenden oder anders buchstabierten
>    Bezeichnungen sind wichtig und sollen deshalb auffindbar sein?
>    (Synonyme, Pseudonyme, Kurzformen, ...)
>    Klassisch sprach man von "Verweisungsformen", was aber in der
>    nun allein maßgeblichen Online-Umgebung nicht mehr recht
>    den Kern der Sache trifft.
>    GND: 4XX
> 4. Gibt es Beziehungen der Entität zu anderen Entitäten, und welcher
>    Art sind sie? Traditionell sprachen wir von "Siehe-auch-Hinweisen",
>    später von "Verknüpfungen", nun von "Relationen" ("Relationships"),
>    etwa zwischen Titel und Serie, Titel und Person oder Körperschaft,
>    Körperschaft und übergeordneter Körperschaft, Unter- und Oberbegriff
>    sowie Vorgänger und Nachfolger bei Titel- und Namensänderungen o.a.
>    GND: 5XX

Das sind die Klassiker: Nichtdeskriptoren (also Benennungen, die
aufgrund der Regeln dieser speziellen Normdatei zur aktuellen
Entitaet gezogen werden) und Bezuege untereinander. In MAB war das
bereits teilweise angelegt ("Pseudonym" etwa konnte das eine oder das
andere sein), in MARC gibt es traditionell bereits die Moeglichkeiten,
gewisse Verweise fuer gewisse Nutzungen zu kennzeichnen ("RSWK", "RAK",
zeitliche Gueltigkeit der Namensform) und Mechanismen, den Typ (Abkuerzung,
Alternativname, Ueberordnung) ueber geeignete Codierungen abzubilden
(in MAB: Bei der Genese des Datenformats festgelegte Feldnummern,
spaeteres wurde irgendwie dazugefummelt) [siehe Punkt 8. unten]

*Vor* Punkt 3. gehoert allerdings etwas, was MARC21 so nicht kennt
und daher in der GND gar nicht mehr so gut erkennbar ist wie in der
PND. Mit der "Gemeinsamen Individualisierungsrichtlinie" ist das
2006 aber sogar in den hiesigen Regelerwerken angekommen:

Der Normsatz enthaelt echte Datenelemente!
Der Normsatz enthaelt echte Datenelemente!
Der Normsatz enthaelt echte Datenelemente!

Zwei Personen oder Koerperschaften koennen in der Normdatei gleich
/angesetzt/ sein, und dennoch bleiben es zwei Personen mit je einem
Datensatz.

Bekannt sind: Berufe, Funktionen, Taetigkeiten, persoenliche
Beziehungen (sofern man die nicht als "Verweise" auffassen will),
Affiliationen, Geburts- und Sterbeorte, exakte Lebensdaten,
Adelstitel, akademische Grade, ... Viele davon finden sich im
Feldbereich 3.. von GND-MARC, andere sind (s.u.) technisch als
siehe-auch-Verweisungen realisiert.



> Folgende weiteren Angaben können im Einzelfall hinzutreten:
> 
> 5. Zeitangaben, Zeitschlagwort (auch Lebensdaten)
>    GND: 548 $a

In MARC21 sind die Lebensjahre ein Unterfeld in der Ansetzungskategorie
und allen Verweisungskategorien.

548 kann darueber hinausgehend exakte Lebensdaten enthalten im
Sinne eines Datenelements
#548   ▼a1749-1832▼94:datl▼wr▼iLebensdaten
#548   ▼a28.08.1749-22.03.1832▼94:datx▼wr▼iExakte Lebensdaten

Da haben die Formattechniker maechtig getrickst, um die Lebensdaten
als eine Siehe-Auch-Verweisung in einen virtuellen Datumsthesaurus
abbilden zu koennen...


> 6. Sprachcodes, wenn die Sprache von Belang ist
> 
> http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/inhaltserschliessung/sprachencodes_iso_639_2.pdf?__blob=publicationFile
> 
>    GND: 377
> 
> 7. Geocodes, falls ein geographischer Bezug besteht
> 
> http://www.dnb.de/SharedDocs/Downloads/DE/DNB/standardisierung/inhaltserschliessung/laendercodes_alph.pdf?__blob=publicationFile
> 
>    GND: 043
> 
> 8. Art der Aussage: Unterfeld $4, sog. "Relationscode",
>    Dies kann in versch. Feldern vorkommen, vor allem im Bereich 4.
>    Es gibt eine verbindliche Liste von derzeit 132 4stelligen Codes:
>    Die Liste steht z.B. in
> 
> https://wiki.d-nb.de/download/attachments/50759357/500.pdf?version=1&modificationDate=1329222967000

https://wiki.dnb.de/download/attachments/50759357/500.pdf


>    Diese entsprechen nicht den "relator codes", die es im MARC der
>    LC für Personen gibt, die bisher aber selten verwendet wurden, und
>    zwar nur in Titeldaten, nicht in Normdaten:
>      http://www.loc.gov/marc/relators/

Die meisten der 132 (nicht nachgezaehlt) Codes sind allerdings klassische
Funktinsbezeichnungen und kommen daher nur fuer die Normsaetze zu
Werken (Schriftdenkmaeler, Handschriften, Bauwerke, ...) zum Tragen.

Bei "be..." und "nawi", "pseu" finden sich allerdings auch solche Beziehungen,
die man aus Personensaetzen kennt,


> 9. Alternative Vorzugsbenennungen
>    GND 7XX  nimmt Namensformen etc. auf, die anderen Regeln folgen.
>    Im Unterfeld $0 ist dann die Quelle angegeben, z.B. so:
>    $0(DLC)n 79003362
>    Anscheinend steht manchmal NUR dieses Unterfeld drin.

In dieser Form ist es "nur" die aus der PND bekannte Hinterlegung der
korrespondierenden LOC-Nummer.

Fuer die GND hat man darauf verzichtet, MARC 010 (LoC Control Number) oder
MARC 016 (National Bilbiographic Agency Control Number) zu nutzen: Anders
als bei Titeldaten kann man ja auch nicht unbedingt behaupten "dies
ist dasselbe wie im NAF", selbst bei Personen weichen die Entitaeten-
konzepte der Normdateien bereits leicht voneinander ab. Insofern ist
"Anderes Regelwerk" nicht ganz verkehrt, fuer die zugehoerige
Ansetzung interessiert sich allerdings eher niemand, bzw. die kann
man ja von id.loc.gov oder VIAF erfragen...

[In der PND sind zigtausende von LoC-Nummern hinterlegt, davon haben
m.W. aber viele tausend derart gravierende Erfassungsfehler, dass
nicht klar ist, welcher Satz gemeint ist. Nach der Migration wird
das nicht viel anders sein]



> Zuletzt das Allerwichtigste und Unverzichtbarste:
> 
> 10.Ein Identifikator, i.d.R. eine eindeutige Nummer, die den Satz
>    adressierbar macht und dank derer man ihn mit Titelsätzen verbinden
>    (verknüpfen) kann. Dazu hat Pica die "Relationierung" (Nummer wird
>    zwischen  !...!  in Datenfeldern der Titelsätze angegeben, allegro
>    verwendet zumeist  _... oder  _..._ dafür (V14-Verknüpfungstechnik).

MARC-spezifisch ist allerdings wieder, dass das System, aus dem
die Identifikationsnummer stammt, in (...) vorangestellt wird,
etwa (588a) fuer die PND oder (588) fuer die GND.

Aber auch GKD und SWD enthielten "-" in den Identnummern und waren
daher in allegro nicht direkt nutzbar (dort nur Buchstaben und
Ziffern erlaubt).



>    Heute dient der Identifikator auch dazu, eingebaut in eine URI,
>    den Satz im Netz eindeutig adressierbar und mittels Web-Services
>    automatisch abrufbar zu machen. GND geht so weit, in 024 eine URI
>    explizit anzugeben (s.o.). Das ist pure Redundanz, weil das
>    Eindeutige daran nur die Nummer ist, und die steht ja auch schon in
>    einer 035. Software kann jederzeit daraus die URI fabrizieren.

Klar. Sie muss nur wissen wie.


>    (Die URI ist zudem mit der Web-Adresse  d-nb.de  konstruiert, die
>    bereits wieder so gut wie obsolet ist.)

Nonsense. d-nb.de != d-nb.info



> Was ist überhaupt mit Ordnungshilfen?
> -------------------------------------
> Hinweggefegt von der Terminologiereform! Der Term und die Spitzklammern

Das stimmt. Bei den Titeldaten werden wir ab April sehen, dass sich
die meisten Koerperschaftsansetzungen geaendert haben werden.


> sind weg, aber dafür entschädigt meist ein zusätzliches Relationenfeld,
> wie z.B. hier (das ist jetzt mal Pica3):
> 
> 410  2\$aHistorische Commission$9g:M^ünchen
> ...
> 551 \\$0(DE-101)004037952$0(DE-588)1006792-9$aMünchen$aMünchen$4orta$wr$iOrt
> 
> 410 $9g  heißt nur schlicht "Zusatz",
> 551 enthält in  $0  die IdNummer des Geografikums (ja, so schreiben die
> das) "München", welches hier mit seinem Relationstyp "orta" andeutet,
> ein Ort zu sein.

vgl. die Ausfuehrungen zu 548 oben: Der "Sitz" einer Koerperschaft
wird als Siehe-auch-Verweis zu Orten realisiert.


> Ändert sich also mal die Vorzugsschreibweise von München, zieht dies
> keinen Änderungsbedarf an dieser und zigtausend weiteren Stellen nach
> sich. Es ersprießt hier aber auch das Potential, in anderssprachigen
> Systemen den Ortsnamen (oder was es sei) in der systemeigenen Sprache
> aufscheinen zu lassen.

In 410 steht "Muenchen" als Text...



> Der "Identifizierende Zusatz" erscheint zumeist in $9g ("Zusatz")
> oder $n (Nummer, Zählung) oder in $x ("Allgemeine Unterteilung").

oder in $c bei Personen (Daten in $d, Zaehlungen in $b, der ganze
Rest (Territorien, Beruf, Titel) in $d.

Man geht dabei davon aus, dass das Datenfeld der Ansetzung in die
bibliographische Anwendung repliziert wird und reichert darin den
eigentlichen Namen ($a) im aus RAK und RSWK bekannten Umfang
mit individualiserender Information an.
Es besteht aber keine Notwendigkeit, dass dieses Feld 1.) alles im
Normsatz enthaltene Wissen mit 2.) der notwendigen Trennschaerfe
transportiert. (Datenelemente!). Also auch hier wirkt die
deutlich modernere Sicht der GND im Vergleich zu AACR-Land und den
traditionellen MARC-Anwendungen.



> Nicht mehr in <...>! Das war ein deutscher Sonderweg, der z.B. unter
> XML obskur geworden ist.

Wieso denken Sie, dass der XML-Zeichensatz kein "<" oder ">" kennt?

Der "deutsche Sonderweg" hatte das ganz entscheidende Problem, dass
RSWK-Ansetzung Ort / Name und RAK-Ansetzung Name <Ort> und
Benutzerwissen Name  nie zueinanderfinden konnten.



> Oder, weiteres Beispiel (das ist wieder DeutschMARC):
> 
> 110  2\$aHerzog-Anton-Ulrich-Museum
> ...
> 551  \\$0(DE-101)000428086$0(DE-588)42808-5$aBraunschweig$4orta$wr$iOrt
> 
> Hier hat die 551 sogar zwei Relationsnummern, der Relationstyp $4
> (auch der ist wiederholbar) ist "orta" = "Ort, allgemein".
> (Mehrfachangaben würden aber innerhalb $4 mittels Semikolon gereiht.)
> Braunschweig wäre hier keine "Ordnungshilfe" gewesen, der Ortsbezug
> ist aber programmtechnisch gleichermaßen nutzbar.

PICA-PPN in ILTIS plus GND-Nummer: Beides bezeichnet denselben Datensatz.



> Ach ja, Indikatoren!
> --------------------
> MARC kennt bei jedem Feld zwei Indikatoren. Das sind i.a.R. Ziffern,
> die den Feldinhalt irgendwie differenzieren. In GND sind hier nur
> drei wichtige Fälle zu nennen:
> 
> 1. Bei Titeln der zweite Indikator, der die Anzahl der zu uebergehenden
>    Zeichen angibt. Statt dessen hätte man auch die in MARC irgendwann
>    eingeführten Nichtsortierzeichen nehmen können, hat man aber nicht.

Bei Personen haben wir traditionell eine atypische Nutzung von
Nichtsortierzeichen (am Ende der Ansetzung) und das bleibt auch
so:

100 1 ▼aGoethe, Johann Wolfgang ┬ÿvon┬£▼d1749-1832


> 2. Bei Personennamen (Felder X00) ist der erste Indikator 0, 1 oder 2
>    (persönlicher, normaler, Familienname)
> 
> 3. Bei Gebietskörperschaftsnamen ist der zweite Indikator in den
>    X10-Feldern eine '1', sonst '2'

viele Gruesse
Thomas Berger



Mehr Informationen über die Mailingliste Allegro