[Allegro] DNB Testdaten

Thomas Berger ThB at Gymel.com
Do Jun 18 13:08:45 CEST 2015


Am 18.06.2015 um 11:16 schrieb Bernhard Eversberg:
> Am 18.06.2015 um 10:58 schrieb Thomas Berger:
>>
>>
>>> In diesem Beispiel kommen nur wenige Sonderzeichen vor.
>>> Der Zeichencode ist UTF-8. Die Umlaute sind codiert in der Form, dass
>>> das Trema hinter den Grundbuchstaben gesetzt ist. Genauso bei anderen
>>
>> Umlaut != Trema
> Spitzfindigkeit, es sind zwei Pünktchen und basta. Die kombinierende
> Diaerese sollte man nach meinem Empfinden nur dann verwenden, wenn es
> die Kombination mit dem betr. Buchstaben nicht als Unicode gibt.
> Wie sie es aber mit den türkischen, ungarischen, finnischen, slowakischen etc.
> genauso aussehenden Sonderbuchstaben nun halten
> wollen, habe ich noch nicht gefunden. Wichtig wär's allerdings nur,
> wenn man die anders indexieren oder ordnen wollte als die deutschen,
> was jedoch auch Nachteile hätte oder überhaupt nicht geht.

Darum ging es der DNB ja, und unter dem Stichwort "Collation"
"kann" Unicode allerhand (z.B. die franzoesische Ordnung, wo
als sekundaeres Kriterium die Akzente im Wort von hinten nach
vorne zu beruecksichtigen sind!)

Unser Problem war aber u.U., dass Titel nach DIN zu ordnen sind
(Umlaut wie Grundbuchstaben), Personen nach Telefonbuch (Umlaut
aufgeloest), das ist natuerlich schwierig.

Allgemeines Problem fuer Bibliotheksdaten hingegen, dass die
Sprachen erstens nicht Feld- oder Wortbezogen angegeben sind,
und nur klar ist, dass allerhand Sprachen vorkommen (als
Naeherung aus den Codierungen fuer die Sprache der so betitelten
Werke). Allerdings waere den Benutzern wohl auch nicht gedient,
wenn wir ihnen sprachlich vorsortierte Indizes anbieten wuerden,
in denen spezifische Sortierregeln erst richtig Sinn machen.

Ueberdies hat ein Online-Benutzer evtl. gar nicht so viele
Kenntnisse des Deutschen oder daenischen, dass ihm das Weg-
sortieren von Umlauten (die er evtl. gar nicht eingeben kann)
helfen wuerde - im Gegenteil, er findet den Bundeskanzler
Schroder einfach nicht. D.h. die Collation muesste strenggenommen
nach seinen Beduerfnissen vorgenommen werden, also im zweifels-
fall dynamisch!



> (In USA sagt man "umlaut" für die zwei Pünktchen, nicht für
> die kombinierten Buchstaben als solche. Oberbegriff "accent".)

oh sorry, ich meinte "umlaut != trema"


> Der LC jedoch nicht. Dort herrscht Unbeweglichkeit und Gleichmacherei,
> und wer internationale Austauschbarkeit will, sollte das bedenken. Ganz
> sicher hat DNB das bedacht, aber noch nicht kommuniziert, oder ich
> hab nicht aufgepaßt.

Wohl letzteres: Dem Vernehmen nach sollen es somalische Bibliothekare
auch nicht so genau nehmen mit den Spitzfindigkeiten der Deutschen
Orthographie, der Datentausch scheint mir da ernsthaft gefaehrdet.
Aber im Ernst, die Zeit der Totschlagargumente a la "wir haben
Altdaten, die nicht nach RAK sind", "wir haben Fremddaten, die nicht
nach RDA sind", "wir haben Benutzer, die arabisch nicht in
Originalschrift lesen koennen", die auf den immer gleichen Schluss
hinfuehren, dass wir simultan immer genauerer Regeln zur Herstellung
von Einheitlichkeit benoetigen *und* keinesfalls an irgendeiner
Regel irgendetwas aendern duerfen, sollte allmaehlich vorbei sein.

viele Gruesse
Thomas "Nieder mit dem Einheitskatalogisat" Berger



Mehr Informationen über die Mailingliste Allegro