[Allegro] Unicode-Anwendung bei DNB

Bernhard Eversberg ev at biblio.tu-bs.de
Mo Jul 6 09:16:17 CEST 2015


Nun wissen wir's.
Kollege Heuvelmann von DNB hat mir auf Anfrage bzgl. der Unicode-
Anwendung (Diakritikum hinter dem Grundbuchstaben, also kein ä, sondern
a + Diaerese) noch einiges mehr mitgeteilt als in der veröffentlichten
Doku steht:
 > ... das ist in der Tat eher eine Frage, wie Bibliotheken Unicode
 > handhaben, in Nachfolge von MARC-8 und ISO 5426, denn eine
 > MARC-Frage:  Es handelt sich um die sog. decomposed-Version, die wir
 > anwenden.  Sie wird von uns in der DNB auch intern als Zeichensatz
 > verwendet.  Grundbuchstaben sind ein Zeichen, dazugehoerige Zeichen
 > jeweils weitere Zeichen.  Damit sind wir flexibel mit allen
 > moeglichen Diakritika, es gibt ja in Unicode nicht alle Kombinationen
 > fertig als ein Zeichen.  Dieselbe Logik hatten MARC-8 und ISO 5426 --
 > allerdings dort mit umgekehrter Reihenfolge, erst das/die
 > Diakritikum/Diakritika, dann der Grundbuchstabe, das stammte noch aus
 > der Zeit der Typewriter / Schreibmaschinen.
 >
 > Beide Darstellungen haben unterschiedliche Traditionslinien, aber die
 > ISO/IEC-10646- /Unicode-Experten haben es vor einiger Zeit
 > aufgegeben, neue fertige Kombinationen mit Codepositionen zu
 > versorgen, eben aus der Begruendung, dass es alle moeglichen
 > Kombinationen decomposed gibt.
 >
 > Moegliche Paare sind "canonically equivalent", jede Software darf
 > sich Unicode-compliant nennen, wenn sie diese Umwandlungen macht.
 >
 > Der Preis ist natuerlich, dass nicht alle Browser das alles rendern
 > koennen, bei den Umlauten haben sie gelernt, bei anderen, besonders
 > exotischeren Kombinationen sieht's noch nicht so gut aus.  Aehnlich
 > ist es bei Office-Programmen.
 >
 > In der Formatbeschreibung unter
 > http://nbn-resolving.de/urn:nbn:de:101-2014102919 =>
 > http://d-nb.info/1072442361/34 haben wir das so beschrieben:
 >
 > " 2.1. Hinweise zum Zeichensatz Alle Datenlieferungen der DNB
 > erfolgen im Zeichensatz ISO 10646/Unicode, im Transformationsformat
 > UTF-8. Kombinationen von Zeichen, wie Grundbuchstabe und
 > dazugehörige(s) diakritische(s) Zeichen, werden zerlegt (decomposed)
 > geliefert, also bestehend aus dem Grundbuchstaben und dem/den
 > entsprechenden Diakritikum/Diakritika. Umlaute werden z. B. als
 > Grundbuchstabe und einer verbundenen Diärese (combining diaeresis)
 > ausgeliefert. "
 >

Dazu von mir die Frage: Gibt's ein Tool, das zwischen dieser und
der "composed"-Anwendung von Unicode vermittelt?

B.Eversberg





Mehr Informationen über die Mailingliste Allegro