[Allegro] Unicode-Anwendung bei DNB
Thomas Berger
ThB at Gymel.com
Mo Jul 6 09:39:59 CEST 2015
Am 06.07.2015 um 09:16 schrieb Bernhard Eversberg:
>> " 2.1. Hinweise zum Zeichensatz Alle Datenlieferungen der DNB
>> erfolgen im Zeichensatz ISO 10646/Unicode, im Transformationsformat
>> UTF-8. Kombinationen von Zeichen, wie Grundbuchstabe und
>> dazugehörige(s) diakritische(s) Zeichen, werden zerlegt (decomposed)
>> geliefert, also bestehend aus dem Grundbuchstaben und dem/den
>> entsprechenden Diakritikum/Diakritika. Umlaute werden z. B. als
>> Grundbuchstabe und einer verbundenen Diärese (combining diaeresis)
>> ausgeliefert. "
>>
>
> Dazu von mir die Frage: Gibt's ein Tool, das zwischen dieser und
> der "composed"-Anwendung von Unicode vermittelt?
Das Gegenteil von "decomposed" ist nicht "composed", sondern eher
"combined"...
Es gibt die Unicode-Datenbank (in einem gewissen Sinn ist die Datenbank
plus die x technischen Dokumente, die als "Annex" deklariert sind,
ja der ganze Standard), da stehen zu jedem Zeichen *die* kanonische
Dekomposition und auch die "compatibility" Dekomposition vermerkt.
In Betriebssystem und Runtime-Libraries ist die Unicode-Datenbank
"drin", fuer Microsoft siehe etwa
<
https://msdn.microsoft.com/en-us/library/windows/desktop/dd374126%28v=vs.85%29.aspx
>
Umgekehrt ist's schwieriger, es waeren ja Kombinationen von Unicode-
Zeichen auf ein anderes zu mappen, das ist eigentlich auch 1:1 (sofern
es ueberhaupt existiert), /wenn/ man die Zeichen vorher so umsortiert,
dass sie tatsaechlich der Normalform D entsprechen. Da geraet man
allerdings schnell in Situationen, wo ein gegebener Font die kombinierte
Variante gar nicht kennt, und ein 8bit-Font geraet noch viel schneller
in so eine Situation. D.h. ein Font wendet erstens auch wieder die
Informationen aus der Unicode-Datenbank an, um Zeichen, die er nicht
kennt, evtl. dann "einzeln" zusammenmontieren zu koennen, und
darueber hinaus weiss er, fuer welche Normalformen er kombinierte
Glyphen hat (betrifft ja auch Ligaturen und anderes, wo ein Font
staerker kombiniert als Unicode).
viele Gruesse
Thomas Berger
Mehr Informationen über die Mailingliste Allegro