Diakritika-Liste
Thomas Berger
ThB at gymel.com
Do Jan 16 13:09:43 CET 2003
Liebe Liste,
> Zuer Ergaenzung hier schnell noch die Liste der 15 Diakritika des
> OstWest-Zeichensatzes mit den DOS- und Windows-Codes:
und einige Anmerkungen dazu.
> DOS:WIN Name = UNICODE NAME
>
> 181:180 Akut = COMBINING ACUTE ACCENT
> 182:145 Gravis = COMBINING GRAVE ACCENT
> 183:136 Zirkumflex = COMBINING CIRCUMFLEX ACCENT
> 184:149 Punkt oben = COMBINING DOT ABOVE
> 189:168 Trema = COMBINING DIAERESIS
> 190:166 Breve (Halbkreis oben) = COMBINING BREVE
> 198:227 Doppelakut = COMBINING DOUBLE ACUTE ACCENT
> 199:179 Hacek = COMBINING CARON
> 207:186 Ringel = COMBINING RING ABOVE
> 208:175 Ueberstrich = COMBINING MACRON
> 209:215 Halbkreis unten = COMBINING BREVE BELOW
> 210:171 Ogonek = COMBINING OGONEK
> 211:184 Cedille = COMBINING CEDILLA
> 212:191 Punkt unten = COMBINING DOT BELOW
diese sind alle harmlos. Aus Sicht von Unicode gibt es
zu jedem Zeichen eine "Kombinationsklasse" (combining
class), Zeichen die typographisch interagieren, sind
jeweils in derselben Kombinationsklasse: Interessant
ist dies bei doppelten Diakritika, insbesondere in der
Situation, dass man einen praekombinierten Buchstaben
("ä") mit weiteren Akzenten versieht: Diakritika
aus verschiedenen Kombinationsklassen interagieren
nicht miteinander, d.h. es ist egal (kanonisch aequivalent),
ob ich ein "ä" mit einem Untergesetzten Punkt notiere
oder ein "a" mit Untergesetztem Punkt und Uebergesetztem
Trema. Bei gleicher Kombinationsklasse sieht es anders
aus: ein "ä" mit Uebergesetztem Akut ist aequivalent
zu "a" mit Uebergesetztem Trema und Akut darueber gesetzt,
jedoch nicht aequivalent zu "á" mit Uebergesetztem
Trema (aequivalent zu "a" mit Uebergesetztem Akut und
darueber gesetztem Trema).
Fuer den Grundbuchstaben "i" und uebergesetzte Akzente
gilt, dass das Wegfallen des i-Punkts eine weltweit
(ausser im Baltikum) geltende Besonderheit ist, die als
typographisch betrachtet wird, d.h. Grundbuchstabe bleibt
das "i", man darf nicht auf das tuerkische i ohne Punkt
ausweichen, weil man meint, dass das korrekter aussieht.
> 219:161 Waager.Querstrich = COMBINING LONG SOLIDUS OVERLAY
> 222:173 Schraegstrich = COMBINING LONG STROKE OVERLAY
Diese Zeichen kommen in Unicode in folgendem Sinne nicht
vor: Wenn es in irgendeinem Land eine zusammengesetzte
Form gibt, etwa das "ä" im Deutschen, so ist diese
Zusammengesetzte Form auch in Unicode enthalten, und
zwar kanonisch aequivalent zur Folge "Grundbuchstabe
Diakritikum", hier also a mit Trema/Umlaut. Fuer die
diversen Buchstaben mit Schraeg- und Querstrichen
(daenisches oe/Oe, polnisches l/L etc.) gilt dies nicht!
[Es hat sich wohl herausgestellt, dass alle diese Striche
in unterschiedlicher Hoehe, Breite, Schraege, Staerke an
den Grundbuchstaben angebracht sind, eigentlich benoetigt
man also soviele isolierte Striche, wie kombinierte
Zeichen.] Jedenfalls ist also das daenische oe *nicht*
kanonisch aequivalent zu einem o mit irgendeinem
druebergelegten Schraegstrich. Bei Exporten muss man
also darauf achten, Kombinationen mit "OVERLAY"-Zeichen
moeglichst zu dem Unicode-Zeichen zusammenzufassen, das
gemeint war (daen. oe/Oe und poln. l/L sind im Ostwestfont
jedoch enthalten, und sollten vorzugsweise genutzt werden).
> 223:247 Unterstrich = COMBINING LOW LINE
Dies war eine Ermessensentscheidung. Es haette auch der
untergesetzte Makron sein koennen. Die Wahl erfolgte
in Anlehnung an USMARC und an DIN 31628/2, das einen
Unterstreichungsstrich kennt (DIN wg. Dinosaurier,
USMARC aus Vorsicht, weil die Altdatenlage keine
klaren Schluesse zuliess). Die MAB->Unicode-Umsetzung
von Aleph hingegen liefert einen untergesetzten Makron,
wohl wegen der Transliteration bei hebraeischen und
arabischen Namen (Bsp.: Adorno in der PND). Hier
wird man bei Ex- und Importen also immer etwas aufpassen
muessen.
> 232:150 Tilde = COMBINING TILDE
ebenfalls harmlos. Zu beachten ist hier, dass dieses
Zeichen erst 2001 in den Ostwest-Font aufgenommen wurde,
die eigenen Parameter oder die letzte vorhandene
Handbuchversion haben es evtl. noch nicht. Grund fuer
die Einfuehrung war, dass man die diakritische Tilde
doch des haeufigeren fuer portugisische a-Tilde und
A-Tilde (in OSTWEST nicht enthalten) benoetigt, wg.
Internet-Adressen jedoch die "Unbibliothekarischen"
Zeichen "@", "~", "_" haeufig in Katalogisaten auftauchen.
["@" und "_" bleiben natuerlich im A-Schema ein Problem,
die Tilde (in manchen URL's) muss nun nicht mehr als
%7E erfasst werden. ["_" in URLs sollte weiterhin als
%5F notiert werden, fuer Mail-Adressen mit "_" gibt
es keine gute Strategie, ebenso nicht fuer solche (=alle)
Mail-Adressen mit "@", falls man es nicht konsequent
als " at " aufloest...]
viele Gruesse
Thomas Berger
Mehr Informationen über die Mailingliste Allegro