[Allegro] Unicode-Anwendung bei DNB
Bernhard Eversberg
ev at biblio.tu-bs.de
Mo Jul 6 09:16:17 CEST 2015
Nun wissen wir's.
Kollege Heuvelmann von DNB hat mir auf Anfrage bzgl. der Unicode-
Anwendung (Diakritikum hinter dem Grundbuchstaben, also kein ä, sondern
a + Diaerese) noch einiges mehr mitgeteilt als in der veröffentlichten
Doku steht:
> ... das ist in der Tat eher eine Frage, wie Bibliotheken Unicode
> handhaben, in Nachfolge von MARC-8 und ISO 5426, denn eine
> MARC-Frage: Es handelt sich um die sog. decomposed-Version, die wir
> anwenden. Sie wird von uns in der DNB auch intern als Zeichensatz
> verwendet. Grundbuchstaben sind ein Zeichen, dazugehoerige Zeichen
> jeweils weitere Zeichen. Damit sind wir flexibel mit allen
> moeglichen Diakritika, es gibt ja in Unicode nicht alle Kombinationen
> fertig als ein Zeichen. Dieselbe Logik hatten MARC-8 und ISO 5426 --
> allerdings dort mit umgekehrter Reihenfolge, erst das/die
> Diakritikum/Diakritika, dann der Grundbuchstabe, das stammte noch aus
> der Zeit der Typewriter / Schreibmaschinen.
>
> Beide Darstellungen haben unterschiedliche Traditionslinien, aber die
> ISO/IEC-10646- /Unicode-Experten haben es vor einiger Zeit
> aufgegeben, neue fertige Kombinationen mit Codepositionen zu
> versorgen, eben aus der Begruendung, dass es alle moeglichen
> Kombinationen decomposed gibt.
>
> Moegliche Paare sind "canonically equivalent", jede Software darf
> sich Unicode-compliant nennen, wenn sie diese Umwandlungen macht.
>
> Der Preis ist natuerlich, dass nicht alle Browser das alles rendern
> koennen, bei den Umlauten haben sie gelernt, bei anderen, besonders
> exotischeren Kombinationen sieht's noch nicht so gut aus. Aehnlich
> ist es bei Office-Programmen.
>
> In der Formatbeschreibung unter
> http://nbn-resolving.de/urn:nbn:de:101-2014102919 =>
> http://d-nb.info/1072442361/34 haben wir das so beschrieben:
>
> " 2.1. Hinweise zum Zeichensatz Alle Datenlieferungen der DNB
> erfolgen im Zeichensatz ISO 10646/Unicode, im Transformationsformat
> UTF-8. Kombinationen von Zeichen, wie Grundbuchstabe und
> dazugehörige(s) diakritische(s) Zeichen, werden zerlegt (decomposed)
> geliefert, also bestehend aus dem Grundbuchstaben und dem/den
> entsprechenden Diakritikum/Diakritika. Umlaute werden z. B. als
> Grundbuchstabe und einer verbundenen Diärese (combining diaeresis)
> ausgeliefert. "
>
Dazu von mir die Frage: Gibt's ein Tool, das zwischen dieser und
der "composed"-Anwendung von Unicode vermittelt?
B.Eversberg
Mehr Informationen über die Mailingliste Allegro