Diakritika-Liste

Thomas Berger ThB at gymel.com
Do Jan 16 13:09:43 CET 2003


Liebe Liste,

> Zuer Ergaenzung hier schnell noch die Liste der 15 Diakritika des
> OstWest-Zeichensatzes mit den DOS- und Windows-Codes:

und einige Anmerkungen dazu.

 
> DOS:WIN  Name = UNICODE NAME
> 
> 181:180  Akut = COMBINING ACUTE ACCENT
> 182:145  Gravis = COMBINING GRAVE ACCENT
> 183:136  Zirkumflex = COMBINING CIRCUMFLEX ACCENT
> 184:149  Punkt oben = COMBINING DOT ABOVE
> 189:168  Trema = COMBINING DIAERESIS
> 190:166  Breve (Halbkreis oben) = COMBINING BREVE
> 198:227  Doppelakut = COMBINING DOUBLE ACUTE ACCENT
> 199:179  Hacek = COMBINING CARON
> 207:186  Ringel = COMBINING RING ABOVE
> 208:175  Ueberstrich = COMBINING MACRON
> 209:215  Halbkreis unten = COMBINING BREVE BELOW
> 210:171  Ogonek = COMBINING OGONEK
> 211:184  Cedille = COMBINING CEDILLA
> 212:191  Punkt unten = COMBINING DOT BELOW

diese sind alle harmlos. Aus Sicht von Unicode gibt es
zu jedem Zeichen eine "Kombinationsklasse" (combining
class), Zeichen die typographisch interagieren, sind
jeweils in derselben Kombinationsklasse: Interessant
ist dies bei doppelten Diakritika, insbesondere in der
Situation, dass man einen praekombinierten Buchstaben
("ä") mit weiteren Akzenten versieht: Diakritika
aus verschiedenen Kombinationsklassen interagieren
nicht miteinander, d.h. es ist egal (kanonisch aequivalent),
ob ich ein "ä" mit einem Untergesetzten Punkt notiere
oder ein "a" mit Untergesetztem Punkt und Uebergesetztem
Trema. Bei gleicher Kombinationsklasse sieht es anders
aus: ein "ä" mit Uebergesetztem Akut ist aequivalent
zu "a" mit Uebergesetztem Trema und Akut darueber gesetzt,
jedoch nicht aequivalent zu "á" mit Uebergesetztem 
Trema (aequivalent zu "a" mit Uebergesetztem Akut und
darueber gesetztem Trema).

Fuer den Grundbuchstaben "i" und uebergesetzte Akzente
gilt, dass das Wegfallen des i-Punkts eine weltweit
(ausser im Baltikum) geltende Besonderheit ist, die als
typographisch betrachtet wird, d.h. Grundbuchstabe bleibt
das "i", man darf nicht auf das tuerkische i ohne Punkt
ausweichen, weil man meint, dass das korrekter aussieht.


> 219:161  Waager.Querstrich = COMBINING LONG SOLIDUS OVERLAY
> 222:173  Schraegstrich = COMBINING LONG STROKE OVERLAY

Diese Zeichen kommen in Unicode in folgendem Sinne nicht
vor: Wenn es in irgendeinem Land eine zusammengesetzte
Form gibt, etwa das "ä" im Deutschen, so ist diese
Zusammengesetzte Form auch in Unicode enthalten, und
zwar kanonisch aequivalent zur Folge "Grundbuchstabe
Diakritikum", hier also a mit Trema/Umlaut. Fuer die
diversen Buchstaben mit Schraeg- und Querstrichen
(daenisches oe/Oe, polnisches l/L etc.) gilt dies nicht!
[Es hat sich wohl herausgestellt, dass alle diese Striche
in unterschiedlicher Hoehe, Breite, Schraege, Staerke an 
den Grundbuchstaben angebracht sind, eigentlich benoetigt 
man also soviele isolierte Striche, wie kombinierte 
Zeichen.] Jedenfalls ist also das daenische oe *nicht*
kanonisch aequivalent zu einem o mit irgendeinem 
druebergelegten Schraegstrich. Bei Exporten muss man
also darauf achten, Kombinationen mit "OVERLAY"-Zeichen
moeglichst zu dem Unicode-Zeichen zusammenzufassen, das
gemeint war (daen. oe/Oe und poln. l/L sind im Ostwestfont
jedoch enthalten, und sollten vorzugsweise genutzt werden).


> 223:247  Unterstrich = COMBINING LOW LINE

Dies war eine Ermessensentscheidung. Es haette auch der
untergesetzte Makron sein koennen. Die Wahl erfolgte
in Anlehnung an USMARC und an DIN 31628/2, das einen
Unterstreichungsstrich kennt (DIN wg. Dinosaurier,
USMARC aus Vorsicht, weil die Altdatenlage keine
klaren Schluesse zuliess). Die MAB->Unicode-Umsetzung
von Aleph hingegen liefert einen untergesetzten Makron,
wohl wegen der Transliteration bei hebraeischen und
arabischen Namen (Bsp.: Adorno in der PND). Hier
wird man bei Ex- und Importen also immer etwas aufpassen
muessen.


> 232:150  Tilde = COMBINING TILDE

ebenfalls harmlos. Zu beachten ist hier, dass dieses
Zeichen erst 2001 in den Ostwest-Font aufgenommen wurde,
die eigenen Parameter oder die letzte vorhandene
Handbuchversion haben es evtl. noch nicht. Grund fuer
die Einfuehrung war, dass man die diakritische Tilde
doch des haeufigeren fuer portugisische a-Tilde und
A-Tilde (in OSTWEST nicht enthalten) benoetigt, wg.
Internet-Adressen jedoch die "Unbibliothekarischen"
Zeichen "@", "~", "_" haeufig in Katalogisaten auftauchen.

["@" und "_" bleiben natuerlich im A-Schema ein Problem,
die Tilde (in manchen URL's) muss nun nicht mehr als
%7E erfasst werden. ["_" in URLs sollte weiterhin als
%5F notiert werden, fuer Mail-Adressen mit "_" gibt
es keine gute Strategie, ebenso nicht fuer solche (=alle)
Mail-Adressen mit "@", falls man es nicht konsequent
als " at " aufloest...]

viele Gruesse
Thomas Berger




Mehr Informationen über die Mailingliste Allegro